pujx233 / HW

实践课作业

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

数据预处理

提取所需列

  • 观察数据可知对语义影响最大且较好判断的三项为A2、A4和A5,只关注着三列

降噪

  • 很多数据有无关语义的词,例如日期,地名,介词之类,可以通过剔除这些数据来实现降噪

去除单位的地名前缀,且分词,提炼出重点

  • 例如将南京市交通运输局提炼为【交通 运输】

每一列取频率高的几个token,默认不多于3个

  • 有些数据项的词组过多,可以保留出高频的几项

计算语义相似度

注意事项

  • 运行环境:python--3.9.7, tensorflow-keras--2.6, bert4keras
  • 先执行pre_process.py得到预处理后的数据,再执行eval.py计算语义相似度
  • 执行pre_process.py时可根据需要通过改变FLAG中项的布尔值来选择运行哪些操作,但需遵从给定顺序
  • 需要先下载模型,由于预训练模型过大,故单独放出链接:[https://open.zhuiyi.ai/releases/nlp/models/zhuiyi/chinese_roformer_L-12_H-768_A-12.zip]

About

实践课作业


Languages

Language:Python 100.0%