0xqq / ORFD

基于机器学习与BERT的在线招聘欺诈检测平台:heart:

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

The Online Recruitment Fraud Detection Platform

This is our project documention of the 2019 national information security competition

项目论文

前往:论文

项目数据集

地址: Excels 或经过预处理 Datasets

人工标记的数据,耗费了大量的人力,这可能是国内第一份关于虚假招聘带标签的数据集。

其中初始数据集来源于 58 同城以及智联招聘爬虫,智联招聘由于数据集虚假数目太少(并非是因为难爬,相反很好爬)所以在已经爬取了几万条信息的情况下转而选择了 58 同城。

不过由于网站改版,58 和智联的爬虫代码有一部分接口过时了,所以本仓库没有提供相关代码

测试

查看轻量版: ORFD-Vector

项目流程图

作品流程图

项目部署

由于本项目为同时对数据的向量和文本分类,使用了 Bert 作为文本编码服务,部署文本分类的环境比较大,故本仓库没有提供文本编码服务(只有一个文本分类的模型),如果需要部署测试文本分类效果可提 issue 或可先查看:部署(相关文件找我自取)

测试:测试向量分类可在安装好环境后直接运行 tests-vec.py 查看运行结果。如果部署好了文本编码服务也可直接运行 tests.py 查看运行结果


项目文档

项目解决方案:

项目解决方案详细介绍

时间轴:

项目目前为止时间历程

项目日程安排:

项目日程安排

项目数据库建立及介绍

58 同城数据库说明及分析

技术积累及探索

机器学习

自然语言处理

文献阅读

参考文献目录


LICENSE

项目 License:GPL 3.0

文档 License:Apache License 2.0

About

基于机器学习与BERT的在线招聘欺诈检测平台:heart:

License:GNU General Public License v3.0


Languages

Language:Python 100.0%