argb / hanzi-data

这个项目会收集、整理各种汉语字词相关的数据,比如常用汉字、词组的列表,常用汉字的词频统计数据、HSK大纲要求掌握的字词数据等。

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

-

这个项目会收集、整理各种汉语字词相关的数据,比如常用汉字、词组的列表,常用汉字的词频统计数据、HSK大纲要求掌握的字词数据等。

相关说明:

1、cedict_1_0_ts_utf-8_mdbg.txt.gz 一个开源的英汉词典数据 来自:https://www.mdbg.net/chinese/dictionary?page=cedict

2、现代汉语常用字表.csv 现代汉语汉字频率表.csv 以上数据来自国内一个语料库网站, http://corpus.zhonghuayuwen.org/index.aspx。 看起来比较官方并且年久失修的样子,不过此类数据几年甚至十几年不更新并没有太大影响。 我对其进行了简单的整理。

原数据中有些小问题:

  1. 现代汉语汉字频率表 有100多条重复的""记录,首先它不是个汉字,其次,它大量重复。所以我将其删除了。 2)对比了"现代汉语常用字表.csv"跟"现代汉语汉字频率表.csv"两个文件,取差集后发现有几个字在"现代汉语汉字频率表"中没有记录, 这几个字是:"玖","柒","捌",还有"",不过这个下划线符号已经被我剔除了。 为了保持数据的一致性,我手动加入了上面三个字,将其字频设置为4,原数据不会统计频率低于5的汉字。这几个字既然出现在了常用字表里,说明 使用频率还是有一些的,但是频率统计表里却没有,我估计原因可能有两个:一个是语料问题,如果真这样的话那整个统计数据就都有问题了,但是可能性不大。 就算有一点问题也应该不是大问题;另一个是这几个字其实使用频率很低,统计次数低于5,原数据的的说明里提到出现频率低于5的词没有进行记录。

3、HSK相关数据 HSK相关数据网上收集。 俄语翻译版的hsk-level-6-russian.csv(该文件包含hsk1~6级的数据) 整理自网上收集的一份pdf数据

4、我把HSK1~6级单词列表中的词汇涉及到的单字整理出来,发现共有2632个,这个数据跟2500个最常用汉字的数据吻合,并且这些字"全部存在于(差一个:D) 存在于"现代汉语汉字频率表"中,或许可以推断,仅仅是或许,hsk大纲的制定也参考了这份数据。

5、对字频表中的数据进行补充 1)、加上常用等级标记和hsk等级标记 2)、加上了汉语拼音 3)、加上音频数据字段 (音频数据待补充)

About

这个项目会收集、整理各种汉语字词相关的数据,比如常用汉字、词组的列表,常用汉字的词频统计数据、HSK大纲要求掌握的字词数据等。

License:MIT License