aceimnorstuvwxz / dgk_lost_conv

dgk_lost_conv 中文对白语料 chinese conversation corpus

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

========dgk_lost_conv========

chinese conversation corpus

可以用作聊天机器人的训练语料

结果:

dgk_shooter_z.conv 110MB 已分词

dgk_shooter_min.conv 按字分词

lost.conv 1.7MB

fanzxl.conv 2.3MB

fk24.conv 4.5MB

haosys.conv 1.3MB

juemds.conv 793KB

laoyj.conv 1.5MB

prisonb.conv 543KB

内部方法:

asstosrt -s utf-8

ass ----asstosrt---->srt

srt ----cvgen.py---->.conv

特别的shooter73g:

进入shooterwp,

解压缩mirror.x到rawbase下面

执行sel.sh

在跟目录下

fixcodec修正编码

fixtranc繁简处理

genall

.conv 格式:

//M 表示话语,E 表示分割。

E

M 话语 a

M 话语 b

M 话语 c

M 话语 d

E

M 话语 a

M 话语 b

M 话语 c

M 话语 d

License:

MIT

About

dgk_lost_conv 中文对白语料 chinese conversation corpus


Languages

Language:Python 65.6%Language:Shell 34.4%