ZhWIkiCorpus

中文维基百科语料库构建

1、抽取正文文本：

INFO: Finished 5-process extraction of 1093446 articles in 1919.1s (569.8 art/s)

INFO: total of page: 2481078, total of articl page: 1093446; total of used articl page: 1093446

命令： python WikiExtractor.py -b 3500M -o extracted zhwiki-20200201-pages-articles-multistream.xml.bz2

语料下载地址：

2、正文文本清洗：

手写代码 cleanZhwiki.py 进行清洗

3、opencc繁简转换：

代码下载下来之后执行安装命令：

python setup.py install

完了之后执行自己手写代码：t2s.py

程序运行时长：14:52:03.997760

3、jieba分词

利用zhwiki词条索引进行繁简转化后作为自定义字典用于分词，

手写代码见：buildSegDict.py

程序结束运行时间：2020-02-08 14:59:09.734440 buildSegDict.py程序运行时长：1:20:24.148532

手写代码 segSentence.py 进行分词

CodeManYep / ZhWikiCorpus