charlesXu86 / char_featurizer

汉字字符特征提取工具,可以提取出字符中的字音(声母、韵母、声调)、字形(偏旁、部首)、四角编码等特征,同时可作为tensor输入到模型

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

char_featurizer

char_featurizer 是一个汉字字符特征提取工具,他可以提取汉字的字音(包括声母、韵母、声调)、字形(偏旁、部首)、四角符号等信息。 同时可以将这些特征信息转换为tensor,作为模型的输入特征。这个项目是在安德森大佬的 字符提取工具 的基础上做了优化整合

目前 char_featurizer 支持的功能有:

1、字形特征提取

2、字音特征提取

3、四角编码提取

4、tensor转换

二、安装使用

1、安装

2、使用

1、字符特征提取

注:汉字和四角编码并非是一一对应的,一个四角编码可以对应多个汉字,但是一个汉字只有一个四角编码

2、作为特征输入模型

3、相关资源

1、汉字四角号码在线查询工具

三、Update News

  • 2020.5.4 完成V1版本

四、TO DO LIST

1、字符相似度计算(发音相似度、字形相似度)

2、支持tf2

五、Resources

About

汉字字符特征提取工具,可以提取出字符中的字音(声母、韵母、声调)、字形(偏旁、部首)、四角编码等特征,同时可作为tensor输入到模型


Languages

Language:Python 100.0%