bjyx4 / Film-Comment-Sentiment-Analysis

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Film Comment Sentiment Analysis(English)

任务描述:基于机器学习方法实现电影评论文本的情感分类。最终机器 能够从大规模标注文本中获得经验,判定某一指定文本的情感极性:正面/负面

数据集:数据集已经切分为训练集和测试集,其中训练集 25000 条,测 试集 25000 条;训练集和测试集中正面(positive)评价和负面(negtive)评价各占一半。 目录结构如下:训练集和测试集分别位于 train 和 test 两个目录,每个目 录下均有 pos 和 neg 两个子目录,分别代表正面评价的文本和负面评价的文本;每一个训练样例一个文件,文本命名方式为:id_rating.txt,其 中 id 为样例唯一 id,rating 为该文本的情感极性评分,正面评价为 7-10 分,负面评价为 0-4 分; 例如:[test/pos/200_8.txt],表示测试集中 id 为 200、评分为 8 的正面评 价实例(正例)

这个项目是机器学习课程的期末设计,设计思路如下:

  1. 首先,对数据进行了初步的处理(data_prep.py);

  2. 使用相同的参数,对比初步处理的数据在三个预训练模型上的效果: (1)bert-large-cased (2)xlnet-large-cased (3)roberta-large 其中,roberta-large表现最佳。

  3. 进一步对数据进行不同的处理,对比不同处理下的数据在roberta上的效果。

  4. 最终得到的最佳模型在测试集上的准确率为96.3%。

About


Languages

Language:Python 100.0%