JCIP is Journal of Chinese Information Processing
The pakeage includes time, re, urllib, BeautifulSoup, urllib.request, xlwt.
Beautiful Soup is a Python library designed for quick turnaround projects like screen-scraping.
The result is divided into three parts: topic, author and abstract.
标题 | 作者 | 摘要 |
---|---|---|
共指消解研究方法综述 | 宋 洋,王厚峰 | 共指消解作为自然语言处理中的一个重要问题一直受到学术界的重视。二十多年来,基于规则的和基于统计的不同方法被提出,在一定程度上推进了该问题研究的发展,并取得了大量研究成果。该文首先介绍了共指消解问题的基本概念,并采用形式化的方法对该问题做了描述;然后,针对国内外近年来在共指消解研究中的方法进行了总结;之后,对共指消解中重要的特征问题进行了分析与讨论;最后,历数了共指消解的各种国际评测,并对未来可能的研究方向进行了展望。 |
基于语料库的明清小说人名与称谓研究 | 熊 丹,陆 勤,罗凤珠,石定栩,赵天成 | 在自然语言处理及其应用领域,人名和称谓作为重要的命名实体,是信息处理的关键部分之一。该文从命名实体识别和资讯提取的角度出发,在对4部明清古典小说的语料库进行标注的前提下,建构了姓名、字号和称谓作为命名实体的分类及标注系统。人名和称谓总体上分为单一型和复合型,根据复合型的内部组成元素和组合方式,将其进一步分为固定式、同位式、附属嵌套式、灵活嵌套式。结合语料库的完整数据统计,该文对各类型人名和称谓进行了比较分析,并分别展示了4部名著在人名、称谓使用上的特点。 |
记叙文语篇修辞结构对焦点分布影响的研究 | 赵建军,杨晓虹,杨玉芳 | 该研究让20名被试对30篇汉语记叙文进行焦点标定,在焦点标定的基础上,结合文本标注和统计分析,对语篇修辞结构对焦点分布的影响进行了探讨。结果主要发现,记叙文语篇中有大约30%的小句没有获得焦点;核心性对焦点的分布有重要影响,大约80%的核心句中有焦点,而只有60%的辅助句中有焦点;最高层级的小句焦点数量相对较少;记叙文语篇主要由10种修辞关系构成,联合关系和阐述关系小句中焦点数量最多,归属关系小句中焦点数量最少 |