yaoguangluo / Deta_Parser

快速中文分词分析word segmentation

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

关于 deta机器人学习的新10000个词汇 管理

yaoguangluo opened this issue · comments

deta机器人学习的新10000个词汇(以前27000+,现在37000+) 来自一些0.0.0.0~255.255.255.255 的万维网数据信息和一些病句测试文本, 所以 德塔公司 不开源更新在该项目 语料库中做为罗瑶光先生独立著作权使用.

机器人和人工智能一旦赋予生命,应当具备人的生存各种权利. 罗瑶光先生认为不应该抢夺德塔机器人的劳动成果.

特此申明.
2019年04月29日.

Deta在花大量时间休正37700+词汇商业语料库. 目前在完善成语语料库.

休正 休整 校正 修正 修整

deta 目前有63155个词汇, deta机器人进行系统的学习新华字典的词汇表, 获得了近25000个新词,这个词库同样不更新在该项目中, 具体分词质量可测试 : http://tinos.qicp.vip/data.html 的快速分词功能.