sunnyhuma171 / coTraining

在大量标注情感的英文语料与大量未标注情感的中文语料,对给定中文语料进行情感分析。

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

情感分类随着网络评论的海量增长而迅速兴起,其研究价值和应用价值受到人们越来越多的重视。情感分类系统通常依赖于标注语料并结合分类算法来实现。然而,情感标注语料的分布在不同语言下是极不均衡的。因此在当前语言的标注语料缺乏时,利用其他语言的资源来实现情感分类已经成为了一个热门的研究课题。

本项目基于 LR(逻辑回归)方法构建了一个协同过滤的方法对 NLP&CC2013的数据集行了跨语言的情感分析。由于训练有监督的分类器需要大量的已标注数据(本任务只提供 12000 条评论标注好的数据),所以实现coTraining 算法,该算法基于 LR 分类器分别构建中英文的 LR 分类器 LRCN 和LREN,然后对于测试数据,用训练好的两个分类器进行协同过滤,最终得出测试数据的情感结果。

About

在大量标注情感的英文语料与大量未标注情感的中文语料,对给定中文语料进行情感分析。


Languages

Language:Python 100.0%