北京理工大学自然语言理解基础 课程大作业
- 实现基于词典的分词方法和统计分词方法:两类方法中实现一种即可;
- 对分词结果进行词性标注,也可以在分词的同时进行词性标注;
- 对分词及词性标注结果进行评价,包括 4 个指标:正确率、召回率、F1 值和效率。
- 命名实体识别:对句子中出现的人名、地名、机构名进行识别
- 基于词典的分词方法
- 基于统计的分词方法(HMM)
- 基于统计的词性标注方法
- 基于Bi-LSTM的命名实体识别方法
在本项自由命题大作业中,我、魏慧聪、徐幸波同学共同完成了该部分的大作业。
我们提取了美团的评论,分析美团评论的细粒度情感。
参考一些外卖平台给出的评论选项和SemEval数据集,初步确定属性分为位置、服务、价格、环境、菜品、其他六大类,具体细分为20类
位置 | 服务 | 价格 | 环境 | 菜品 | 其他 |
---|---|---|---|---|---|
交通是否便利 | 排队等候时间 | 价格水平 | 装修情况 | 分量 | 本次消费感受 |
距离商圈远近 | 服务人员态度 | 折扣力度 | 噪杂情况 | 口感 | 再次消费意愿 |
是否容易寻找 | 是否容易停车 | 性价比 | 卫生情况 | 外观 | |
点菜/上菜速度 | 就餐空间 | 推荐程度 |
为了在算法中区分情感程度,每一个具体属性都有四种标签——{正向,中立,负向,未有提及},而在最终输出阶段,只会显示提及到的属性,未提及的属性不会显示出来
情感倾向量化 | 1 | 0 | -1 | -2 |
---|---|---|---|---|
情感含义 | 正面情感 | 中性情感 | 负面情感 | 情感倾向未提及 |
python == 3.6
bert4keras
Keras == 2.1.0
h5py == 2.10.0
sklearn