JackHCC / Chinese-Tokenization

利用传统方法(N-gram,HMM等)、神经网络方法(CNN,LSTM等)和预训练方法(Bert等)的中文分词任务实现【The word segmentation task is realized by using traditional methods (n-gram, HMM, etc.), neural network methods (CNN, LSTM, etc.) and pre training methods (Bert, etc.)】

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

自然语言处理中文分词

方法概述

  • 传统算法:使用N-gram,HMM,最大熵,CRF等实现中文分词
  • 神经⽹络⽅法:CNN、Bi-LSTM、Transformer等
  • 预训练语⾔模型⽅法:Bert等

数据集概述

  • PKU 与 MSR 是 SIGHAN 于 2005 年组织的中⽂分词⽐赛 所⽤的数据集,也是学术界测试分词⼯具的标准数据集。

实验过程

实验结果

PKU数据集

模型 准确率 召回率 F1分数
Uni-Gram 0.8550 0.9342 0.8928
Uni-Gram+规则 0.9111 0.9496 0.9300
HMM 0.7936 0.8090 0.8012
CRF 0.9409 0.9396 0.9400
Bi-LSTM 0.9248 0.9236 0.9240
Bi-LSTM+CRF 0.9366 0.9354 0.9358
BERT 0.9712 0.9635 0.9673
BERT-CRF 0.9705 0.9619 0.9662
jieba 0.8559 0.7896 0.8214
pkuseg 0.9512 0.9224 0.9366
THULAC 0.9287 0.9295 0.9291

MSR数据集

模型 准确率 召回率 F1分数
Uni-Gram 0.9119 0.9633 0.9369
Uni-Gram+规则 0.9129 0.9634 0.9375
HMM 0.7786 0.8189 0.7983
CRF 0.9675 0.9676 0.9675
Bi-LSTM 0.9624 0.9625 0.9624
Bi-LSTM+CRF 0.9631 0.9632 0.9632
BERT 0.9841 0.9817 0.9829
BERT-CRF 0.9805 0.9787 0.9796
jieba 0.8204 0.8145 0.8174
pkuseg 0.8701 0.8894 0.8796
THULAC 0.8428 0.8880 0.8648

About

利用传统方法(N-gram,HMM等)、神经网络方法(CNN,LSTM等)和预训练方法(Bert等)的中文分词任务实现【The word segmentation task is realized by using traditional methods (n-gram, HMM, etc.), neural network methods (CNN, LSTM, etc.) and pre training methods (Bert, etc.)】


Languages

Language:Python 90.7%Language:Perl 9.3%