ChiZhang-bit / BIT-NLUF

北京理工大学自然语言理解基础本科课程大作业

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

BIT-NLP-Fundamentals of Natural Language Understanding

北京理工大学自然语言理解基础 课程大作业

Homework 1: 分词与词性标注

主要内容:

  • 实现基于词典的分词方法和统计分词方法:两类方法中实现一种即可;
  • 对分词结果进行词性标注,也可以在分词的同时进行词性标注;
  • 对分词及词性标注结果进行评价,包括 4 个指标:正确率、召回率、F1 值和效率。
  • 命名实体识别:对句子中出现的人名、地名、机构名进行识别

实现方法:

  • 基于词典的分词方法
  • 基于统计的分词方法(HMM)
  • 基于统计的词性标注方法
  • 基于Bi-LSTM的命名实体识别方法

Homework2: 基于美团评论的多粒度情感分析

在本项自由命题大作业中,我、魏慧聪、徐幸波同学共同完成了该部分的大作业。

我们提取了美团的评论,分析美团评论的细粒度情感。

参考一些外卖平台给出的评论选项和SemEval数据集,初步确定属性分为位置、服务、价格、环境、菜品、其他六大类,具体细分为20类

位置 服务 价格 环境 菜品 其他
交通是否便利 排队等候时间 价格水平 装修情况 分量 本次消费感受
距离商圈远近 服务人员态度 折扣力度 噪杂情况 口感 再次消费意愿
是否容易寻找 是否容易停车 性价比 卫生情况 外观
点菜/上菜速度 就餐空间 推荐程度

为了在算法中区分情感程度,每一个具体属性都有四种标签——{正向,中立,负向,未有提及},而在最终输出阶段,只会显示提及到的属性,未提及的属性不会显示出来

情感倾向量化 1 0 -1 -2
情感含义 正面情感 中性情感 负面情感 情感倾向未提及

Requirements

python == 3.6

bert4keras

Keras == 2.1.0

h5py == 2.10.0

sklearn

About

北京理工大学自然语言理解基础本科课程大作业


Languages

Language:Jupyter Notebook 88.1%Language:Python 11.1%Language:HTML 0.6%Language:CSS 0.1%