hzhaoaf / News-Recommendation-System

This is a repository in which we take part in the big data competition, focusing on recommendation system.

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Recommendation-System

This is a repository in which we take part in the big data competition,focusing on recommendation system.

###Competition Info more detail in [official site](http://115.28.182.124/c/00000000050 "official site"") ####赛题背景

随着近年来互联网的飞速发展,个性化推荐已成为各大主流网站的一项必不可少服务。提供各类新闻的门户网站是互联网上的传统服务,但是与当今蓬勃发展的电子商务网站相比,新闻的个性化推荐服务水平仍存在较大差距。一个互联网用户可能不会在线购物,但是绝大部分的互联网用户都会在线阅读新闻。因此资讯类网站的用户覆盖面更广,如果能够更好的挖掘用户的潜在兴趣并进行相应的新闻推荐,就能够产生更大的社会和经济价值。 初步研究发现,同一个用户浏览的不同新闻的内容之间会存在一定的相似性和关联,物理世界完全不相关的用户也有可能拥有类似的新闻浏览兴趣。此外,用户浏览新闻的兴趣也会随着时间变化,这给推荐系统带来了新的机会和挑战。因此,希望通过对带有时间标记的用户浏览行为和新闻文本内容进行分析,挖掘用户的新闻浏览模式和变化规律,设计及时准确的推荐系统预测用户未来可能感兴趣的新闻。

####数据集描述 在本次竞赛中,我们从国内某著名财经新闻网站—财新网随机选取了10000名用户,并抽取了这10000名用户在2014年3月的所有新闻浏览记录,每条记录包括用户编号、新闻编号、浏览时间(精确到秒)以及新闻文本内容,其中用户编号已做匿名化处理,防止暴露用户隐私。 本竞赛的目的是尽可能准确地预测每个用户浏览的最后一条新闻(这条新闻之前曾被其他用户浏览过),该数据用于竞赛组织者评判参赛者最后成绩,不对参赛者开放。我们提供每个用户最后一条浏览记录之前的的所有新闻浏览记录和新闻文本数据,作为训练集以供参赛者分析和建模使用。

####任务描述 参赛选手需要根据训练集中的浏览记录以及新闻的详细内容,尽可能多的预测出测试集中的数据,即预测每一个用户最后一次浏览的新闻编号。选手预测的准确程度将成为量化的评价指标。 参赛选手需要完成的输出包括: 1,建立预测模型,为每位用户建立一个推荐列表,此列表将上传到服务器做F值计算。 2,给出预测模型及方案的详细描述文档。

About

This is a repository in which we take part in the big data competition, focusing on recommendation system.


Languages

Language:C++ 48.5%Language:Python 30.6%Language:C 19.4%Language:Perl 1.4%Language:Shell 0.1%