BELIEVEfxy / Social_Network_Mining_in_Internet_Media_Data

提取每条新闻中的人名,假设在同一条新闻的人物具有联系,建立新闻人物的社交网络,并进一步探索网络的性质。

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

互联网媒体数据中的社交网络挖掘(Social Network Mining in Internet Media Data) [2018-12]

给定一批新闻数据,从中挖掘出这些新闻中的社交网络关系。

1. 数据集

数据格式:数据文件中包含了约6万多个新闻的json数据,每个新闻给出了新闻网址、标题、正文、时间、以及其中包含的的人名(Entity_Person)和机构名(Entity_Organization)。

{

"Id":"0595BBF63.0001B40A.6952",

"Url":"http://www.fmprc.gov.cn/web/gjhdq_676201/gj_676203/fz_677316/1206_678260/1206x2_678280/t434836.shtml",

"Title":"**驻纳米比亚使馆鼓励旅纳华商向纳灾区提供救济捐赠",

"Text":"\n 2008年3月27日,旅居纳米比亚华商成立的“华人爱心慈善组织”通过纳第一夫人向被北部洪涝灾区捐赠棉被和床垫共600床。纳第一夫人佩内瑚皮佛·波汉巴在总统府接受捐赠。**驻纳米比亚大使任小萍、使馆政务参赞林静、“华人爱心慈善组织”代表黄跃权、黄松根及当地媒体记者等出席仪式。 \n\n 任大使在发言中表示,今年初以来,纳北部地区连降暴雨,水灾严重,给当地人民生产生活造成重大损失。旅纳华商们对此深表同情,决定伸出援手,以实际行动扶弱济贫、回馈社会。希望此次捐赠的300床棉被和300床床垫能帮助灾区人民安全过冬。任大使还说,**大使馆非常高兴地看到旅纳华商积极承担社会责任,扶助慈善项目,为当地人民和社区做好事。希望旅纳华商继续努力为纳社会发展做出贡献。\n 波汉巴夫人表示,非常感谢旅纳华商对纳灾区人民的帮助,这再次表明**是纳米比亚可靠的朋友。",

"Time":"2000-03-26T16:00:00Z",

"Entity_Person":["佩内瑚皮佛·波汉巴","任小萍","林静","黄跃权","黄松根","波汉巴"],

"Entity_Organization":["总统府","**大使馆"]

}

基于该数据,建立社交网络图,两个人如果出现在同一篇新闻中,则假设这两个人有联系。两个人的联系强弱可以通过共同出现的文章的数目来表示。例如,假设A和B在10篇新闻中同时出现过,则A-B之间的边的权重为10。

2. 社交网络的属性

2.1. 社交网络的基本属性统计:

  • 给定任意一个人A,输出和A关系最强的前10个人(邻居)。

  • 计算图的节点数。

  • 计算图的边数。

  • 使用了 Tarjan算法 计算连通分量的个数,最大连通分量的大小。

2.2. 社交网络的高级特征:

  • 影响力(PageRank)计算:使用PageRank算法计算每个人的影响力大小。并给出影响力最大的前20个人。

  • 社区挖掘(Community Detection):挖掘该社交网络中的社区。

  • 节点的聚集系数计算(Clustering Coefficient):计算每个节点的聚集系数,并输出聚集系数最大的10个人。

About

提取每条新闻中的人名,假设在同一条新闻的人物具有联系,建立新闻人物的社交网络,并进一步探索网络的性质。


Languages

Language:Python 87.3%Language:C++ 12.7%