yaoguangluo / Deta_Parser

快速中文分词分析word segmentation

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

寻找大神兄弟计划

yaoguangluo opened this issue · comments

德塔自然语言分词项目,每秒带中文分词1300-2700万字,今日起,如果有基于该分词**能让精确分词速度最低值优化到1500万+,德塔开源如果采用,悬赏1万元人民币并标注为终身贡献者,享受该项目5%使用权益。有效期至2019年03月30日。
优化建议在下面留言即可。

1大神计划持续中,
2悬赏 计划已经 结束.
德塔现在公布1500万优化方案 : 目前正在 正在 做词性语料字典录入系统.将每次 数万的字典匹配 变成12个小表分化 每次几百 . 预期 目标为1700万+.

2019年3月31日

2019/03/31 23点02分 世界记录再次刷新, 每秒1400万+纯中文分词!

2019/04/02 01点31分 世界记录再次刷新, 每秒1500万+纯中文分词! (离散交集优化.)

2019年4月13日,德塔目前 分词速度 每秒2300万般将近, 如果 有大神基于该分词**能让精准确分词速度最低值优化到2800万+,德塔开源如果采用,悬赏1万元人民币并标注为终身贡献者,享受该项目5%使用权益。有效期至2019年04月30日。
优化建议在下面留言即可。

2800万指的是纯中文分词速度.

1大神计划持续中,
2悬赏 计划已经 结束.

2019年5月1日

2019年5月3日 deta <纯中文分词函数> 被 <无标点,病句,歧义,绕口令混合分词函数> 取代, 目前 未优化算法第一版: 10.6.4版本 每秒混分 最低 1800万字. 预计有 400万的优化空间, 因为达不到30%的数量级提升, 德塔研究重心暂时不在这.

2019-05-27 deta 分词进行词汇长度 小表拆分 增加分词速度, 最新开源版本已经 更新. 之后会更详细的优化.
da2d9b3