2018年联通大数据 用户风险预测 线上 RANK9 这个应该是我参加比赛以来,取得的最好成绩。 2018年6月11日 感谢队友
赛题分析: 本次赛题要求从用户通话/短信/上网记录中识别‘风险’用户,赛题提供用户于过去45天内的行为日志,因此,我们队伍分别通过对用户的短信日志,通话日志和上网日志三个维度描述用户特征,通过特征描述用户,构建用户画像。
解释:将用户和通话号码看作两个节点,分别可以计算与用户相关通话号码的数量关系,同理,计算号码关联的用户的数量关系。 计算号码与用户相关的数量特征可以进一步的得到用户也号码相关特征的特征。 例如 号码1 23 号码2 43 都与用户1有关,这样用户1就可以得到 (23+43)/2 的一个均值特征
总结一些不足,没有完全挖掘用户在短信和通话两张表的交互特征,没有实现 图 相关特征的提取,同时最近发现,可以采取一些无监督方式去扩展又有的特征,这个部分需要细致学习。最近看到了一些关于只是图谱相关的东西,发现对于上网记录可以采纳相关的内容。感谢联通和jdata提供如此有意思的题目,也同时通过比赛,发现了自身的不足和很多需要完善的地方。