TurboWay / bigdata_analyse

大数据分析项目

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

为什么我用同样的数据和代码,做出来的模型得分才0.1-0.2哇

Monicaqqqq opened this issue · comments

commented

训练集需要经过预处理,去掉噪声数据。

比如,有些岗位,学历和工作年限要求很低,但是工资却出奇的高。经过认真分析后,会发现,这些可能是虚假岗位,与实际严重不符,只是为了吸引求职者。这类数据就属于噪声数据,如果没有去掉,就会影响模型的准确性。

比较遗憾的是当时没把这个逻辑存下来。现在的预处理逻辑是我后面补的,只是为了让读者跑通 issues3,没有细致处理,存在一些噪声数据,所以模型得分会比当时做的差很多。

非常感谢