rainarch / SentiBridge

SentiBridge: A Knowledge Base for Entity-Sentiment Representation

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

怎么保证提取出来的是情感词(或观点词呢?)

rockyzhengwu opened this issue · comments

提取出来的是情感相关的前提是在评价数据上吗? 我在其他数据上测试的效果是,抽取出来的多少名词形容词对,而且是频率很高的。(也可能我代码写错了),因为收敛速度很快,数据量 40W和60W,几分钟就算完了

https://github.com/rockyzhengwu/aspect-opinion/blob/master/src/senti_bridges.py

commented

能否给一些例子?

语料多是公司相关新闻,本来只是打算测下算法,后来发现很多都不是情感相关
所以我想,如果要让抽出来的情感词得需要加入某些先验知识比如种子词之类的

公司 有限 19696.34502230714
责任 有限 19632.198586114184
能源 新 3979.646317492952
董事 独立 2813.8602827738705
遗漏 重大 2652.3185325797695
记载 虚假 2596.851770420641
情况 基本 2123.4970657418116
资产 重大 1948.6443375922995
药房 大 1796.1491396390352
重组 重大 1769.450206966201
材料 新 1592.7275505437015
汽车 新 1437.5159260229982
股东 大 1373.9083232068365
管理 高级 1338.4409071355103
人员 高级 1312.2191585272758
产品 新 1254.2670253386152
科技 高 1247.4389632039495
技术 新 1215.8573913048813
意见 独立 1210.159590371295
有限公司 有限 1193.5988960002987
连带 个别 1096.3685194084928
情况 实际 1043.1163570909932
信息 多 942.8152778801507

commented

新闻的效果相对差一些,建议采用用户评论语料。