pzs741 / TEDT

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

TEDT

TEDT:基于密度及文本特征的新闻标题抽取算法

特点

  • 自适应模式:可以自动适应松散或者紧密的网页结构;
  • 日志信息:可以自己设置日志等级,监测算法内部细节和计算流程;
  • 配置信息:可以自己配置正文文本行的范围,标题长度范围。
  • MIT 授权协议

安装说明

代码仅对 Python3 兼容

  • 全自动安装:pip install TEDT
  • 半自动安装:先下载 https://github.com/pzs741/TEDT/archive/master.zip ,解压后运行 python setup.py install
  • 手动安装:将 TEDT 目录放置于当前目录或者 site-packages 目录
  • 通过 import TEDT 来引用

算法

  • 为从大量的复杂非规范网页结构中自动抽取出新闻标题,本文提出一种基于密度和文本特征的新闻标题抽取算法。
  • 主要通过融合网页文本密度分布和语言特征的语料判定模型,将网页划分为语料区和标题候选区,选取语料后通过TextRank算法计算对应的key-value权重集合,最后采用改进的相似度计算方法从标题候选区抽取新闻标题。
  • 该算法能有效划分语料和标题区域,降低网页噪声干扰,准确抽取出新闻标题。

主要功能

1. 抽取标题、正文、发布时间

  • `TEDT`实例化需要至少接受一个参数:url
  • `TEDT`实例化接受一个参数即url时的默认配置为
  • CENTER_DISTANCE_MIN = 0 #最小文本行间距
  • CENTER_DISTANCE_MAX = 10 # 最大文本行间距
  • TITLE_MIN_LENGTH = 5 # 最小标题长度
  • TITLE_MAX_LENGTH = 50 # 最大标题长度
  • LOG_ENABLE = True # 是否开启日志
  • LOG_LEVEL = 'WARNING' #默认日志等级
  • ADAPTIVE = True #是否自适应网页密度结构

2. 代码示例

>>> from TEDT import TEDT
>>> url = 'http://www16.zzu.edu.cn/msgs/vmsgisapi.dll/onemsg?msgid=1712291126498126051'
>>> t = TEDT(url, LOG_LEVEL='INFO',)
>>> t.ie()
>>> print(t.corpus)
日前,日本驻华大使馆经济部一等秘书上田智一、日本科学技术振兴机构(jst)北京事务所所长茶山秀一、日本理化学研究所(riken)。。。
>>> print(t.title)
日本科技代表团来校访问交流(图)
    >>> print(t.time)
2017-12-29

3. 实例测试

]

  • for url in urls:
  • t = TEDT(url, LOG_LEVEL='INFO',)
  • t.ie()
  • INFO:------------------------------TEDT------------------------------
  • INFO:标题:【港媒称人工智能改变内地人生活:神奇老师深受小学生喜爱】
  • INFO:时间:【2017-06-30】
  • INFO:正文:【核心提示:家豪的故事表明,ai正在改变现代社会,这项技术正在慢慢从发明新奇的产品,向发明改变日常生活的应用程序转变.。。。
  • INFO:*************************************************************
  • INFO:------------------------------TEDT------------------------------
  • INFO:标题:【各地干部群众热议十九届二中全会公报】
  • INFO:时间:【2018-01-21】
  • INFO:正文:【原标题:为新时代**特色社会主义提供有力宪法保障——各地干部群众热议党的十九届二中全会公报新华社北京1月21日电(新华社记者)“。。。
  • INFO:*************************************************************
  • INFO:------------------------------TEDT------------------------------
  • INFO:标题:【各地干部群众热议党的十九届二中全会公报】
  • INFO:时间:【2018-01-21】
  • INFO:正文:【新华社北京1月21日电题:为新时代**特色社会主义提供有力宪法保障——各地干部群众热议党的十九届二中全会公报新华社记者“。。。
  • INFO:*************************************************************
  • INFO:------------------------------TEDT------------------------------
  • INFO:标题:【北京干渴90天终迎初雪雪后气温骤跌将遇冰冻周】
  • INFO:时间:【2018-01-22】
  • INFO:正文:【**天气网讯期盼已久的北京初雪终于来了!昨晚(21日)随着降雪范围逐渐扩大,北京迎来了今冬初雪。受降雪影响,。。。
  • INFO:*************************************************************
  • INFO:------------------------------TEDT------------------------------
  • INFO:标题:【又有45所高校要改名,你的母校还是你的母校吗】
  • INFO:时间:【2018-01-22】
  • INFO:正文:【超大大标准小高校改名近些年来方兴未艾,2018年又有45所高校可能变更校名。1月20日,教育部发展规划司正式公布了2017年。。。
  • INFO:*************************************************************
  • INFO:------------------------------TEDT------------------------------
  • INFO:标题:【日本科技代表团来校访问交流(图)】
  • INFO:时间:【2017-12-29】
  • INFO:正文:【日前,日本驻华大使馆经济部一等秘书上田智一、日本科学技术振兴机构(jst)北京事务所所长茶山秀一、日本理化学研究所(riken)。。。
  • INFO:*************************************************************
  • INFO:------------------------------TEDT------------------------------
  • INFO:标题:【**人民大学召开年度校级领导班子**生活会】
  • INFO:时间:【2018-01-22】
  • INFO:正文:【按照**统一部署和要求,1月17日,**人民大学召开2017年度校级领导班子**生活会。**组织部副部长周祖翼全程参加并指导**生活会,。。。
  • INFO:*************************************************************
  • INFO:------------------------------TEDT------------------------------
  • INFO:标题:【**海洋大学第十九届“天泰优秀人才奖”、“天泰奖学金”颁奖仪式举行】
  • INFO:时间:【2018-01-22】
  • INFO:正文:【本站讯1月19日下午,**海洋大学第十九届“天泰优秀人才奖”、“天泰奖学金”颁奖仪式在崂山校区举行。天泰公益基金会秘书长张织云。。。
  • INFO:*************************************************************
  • INFO:------------------------------TEDT------------------------------
  • INFO:标题:【高校**政治理论课实地教学观摩在上海交大举行[图]】
  • INFO:时间:【2018-01-18】
  • INFO:正文:【为深入学习贯彻落实党的十九大精神,深入推动***新时代**特色社会主义**进教材进课堂进头脑,不断提高思政课建设的质量和水平。。。
  • INFO:*************************************************************

About

License:MIT License


Languages

Language:Python 100.0%