怎么保证提取出来的是情感词(或观点词呢？)

Question

怎么保证提取出来的是情感词(或观点词呢？)

rockyzhengwu opened this issue 6 years ago · comments

zhengwu commented 6 years ago

提取出来的是情感相关的前提是在评价数据上吗？我在其他数据上测试的效果是，抽取出来的多少名词形容词对，而且是频率很高的。(也可能我代码写错了)，因为收敛速度很快，数据量 40W和60W，几分钟就算完了

https://github.com/rockyzhengwu/aspect-opinion/blob/master/src/senti_bridges.py

WL · Answer 1 · Wed May 02 2018 15:18:41 GMT+0800 (China Standard Time)

能否给一些例子？

zhengwu · Answer 2 · Wed May 02 2018 21:16:25 GMT+0800 (China Standard Time)

语料多是公司相关新闻，本来只是打算测下算法，后来发现很多都不是情感相关
所以我想，如果要让抽出来的情感词得需要加入某些先验知识比如种子词之类的

公司有限 19696.34502230714
责任有限 19632.198586114184
能源新 3979.646317492952
董事独立 2813.8602827738705
遗漏重大 2652.3185325797695
记载虚假 2596.851770420641
情况基本 2123.4970657418116
资产重大 1948.6443375922995
药房大 1796.1491396390352
重组重大 1769.450206966201
材料新 1592.7275505437015
汽车新 1437.5159260229982
股东大 1373.9083232068365
管理高级 1338.4409071355103
人员高级 1312.2191585272758
产品新 1254.2670253386152
科技高 1247.4389632039495
技术新 1215.8573913048813
意见独立 1210.159590371295
有限公司有限 1193.5988960002987
连带个别 1096.3685194084928
情况实际 1043.1163570909932
信息多 942.8152778801507

WL · Answer 3 · Mon May 07 2018 19:15:24 GMT+0800 (China Standard Time)

新闻的效果相对差一些，建议采用用户评论语料。