CodeManYep / ZhWikiCorpus

中文维基百科语料库构建

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

ZhWIkiCorpus

中文维基百科语料库构建

1、抽取正文文本:

INFO: Finished 5-process extraction of 1093446 articles in 1919.1s (569.8 art/s)

INFO: total of page: 2481078, total of articl page: 1093446; total of used articl page: 1093446

命令: python WikiExtractor.py -b 3500M -o extracted zhwiki-20200201-pages-articles-multistream.xml.bz2

语料下载地址:

https://dumps.wikimedia.org/zhwiki/

2、正文文本清洗:

手写代码 cleanZhwiki.py 进行清洗

3、opencc繁简转换:

https://github.com/yichen0831/opencc-python

代码下载下来之后执行安装命令:

python setup.py install

完了之后执行自己手写代码:t2s.py

程序运行时长:14:52:03.997760

3、jieba分词

利用zhwiki词条索引进行繁简转化后作为自定义字典用于分词,

手写代码见:buildSegDict.py

程序结束运行时间:2020-02-08 14:59:09.734440 buildSegDict.py程序运行时长:1:20:24.148532

手写代码 segSentence.py 进行分词

About

中文维基百科语料库构建


Languages

Language:Python 100.0%