ilovenwd / hanzi_chaizi

汉字拆字库,可以将汉字拆解成偏旁部首,在机器学习中作为汉字的字形特征

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

汉字拆字

拆字是指將一文字,以筆畫、字形等基本組成單位分解成多個文字。

汉字拆字让字型相似的字具有相似的拆解结果。

这种特性可以被深度学习模型用来作为字的特征之一:字形的特征。

使用

from hanzi_chaizi import HanziChaizi

hc = HanziChaizi()
result = hc.query('名')

print(result)

输出

['夕', '口']

从原始数据生成

数据来源

数据来自于 漢語拆字字典

解析

pytohn ./parse.py

致谢

拆字数据来自于 漢語拆字字典

About

汉字拆字库,可以将汉字拆解成偏旁部首,在机器学习中作为汉字的字形特征


Languages

Language:Python 100.0%