词库贡献
iDvel opened this issue · comments
目前词库已经过脚本检查及大量人工校对,但难免有疏漏。
如果有词汇缺失、错音、错字、初始排序不合理的问题,可以直接 PR 或在此留言。
「豉 shi」「箐 jing」放大字表了。
笭箐,竹字头应该是草字头。
应该就是「涴yuan市镇」,参考《现汉》、《现规》。
没必要保留「剿袭」,语言可以很浪漫,文字规范还是越严谨越好,已快绝迹的异形词最好还是不要用了。
抖音上当地人都念 yuan,应该是没异议。
主要用的是 蔄山 和 苘山 也读 man shan 这两个 现在 也有一些写𬜬山 但是很少,主要是 前面两个,公文一般是蔄山, 非正式公文一般写苘山 的多
或许将 苘山 独读 man shan 的 只有 本地人
「𬜬山」、「蔄山」都写上得了。
「苘qing」应该是误写,百度百科是一点都不能信的。
汉字在这种规范上老坑爹了。
类推简化了「蔄man」→「𬜬man」,十多年过去了,字典还是「𬜬」,当地人包括当地政府还是用「蔄」。
规范出了没人用,也没有顺从当地习惯更改规范,最后就是混用,摆烂,也没人管。
整理出部分错音词条放到附件里
rime-ice_zhuyin-err.txt
打”人呢“ ,rne 会被自动纠正为”人“ ,导致需要打renne 才会正确出现
唵嘛呢叭咪 唵嘛呢嘛呢叭咪吽
唵并没有 ong 这个音,汉语里面也没有 ong 音节的字。 我看好多电视剧里就念 an 的; 或者按外来音,注音为 wong,之类, 或者直接注在英文,或者中英混合词典中
(注 ong 音,会导致编译为词典包 pack 的时候,由于缺少这个音节,报错并 drop 掉这个词汇)
「唵嘛呢叭咪吽」按字典的音来注吧, an ma ni ba mi hong http://www.jiaodui.com/bbs/read.php?tid=10782
目前也有简单的方法,可输入「六字真言」或「六字大明咒」,通过 emoji 来输出。
打”人呢“ ,rne 会被自动纠正为”人“ ,导致需要打renne 才会正确出现
默认的纠错里有些纠错是这样的,lui 会纠错为 liu(给 liu 派生 lui),rne 会纠错为 ren,经常全拼简拼混输的话可以删除那一部分。
Lines 474 to 549 in 6d438fb
刚更新完怎么感觉都错乱了……从辅音p开始好像……
你是开了智能纠错吗?你用默认配置试试。
刚更新完怎么感觉都错乱了……从辅音p开始好像……
你是开了智能纠错吗?你用默认配置试试。
啊我都不知道咋开……只是替换了这次更新的文件……之前都没问题的。
不清楚,我这不能复现,你是否打了什么补丁呢,这个看起来就是开了智能纠错或模糊音。
直接用默认配置应该是没问题的,然后你再加入自己的配置看看是哪出了问题。
不清楚,我这不能复现,你是否打了什么补丁呢,这个看起来就是开了智能纠错或模糊音。 直接用默认配置应该是没问题的,然后你再加入自己的配置看看是哪出了问题。
啊啊是我的问题,加sort: by_weight的时候前面多了个空格……现在正常了。不好意思啊!
还是就这样吧,我试了一下大小是一样的,速度好像也没多大差距。
我把很多同义多音字如「熟、血」之类的也扔到 tencent 词库,让 Rime 自动注了。
平时加词我也是扔到 tencent 里了,不用写注音,方便一点。
尝试使用雾凇拼音来开发其他输入方案的过程中,发现部分词组的注音中某个字的读音没有包含在它单独的读音中:
dropping entry '陈寅恪' with invalid syllable: que
dropping entry '放饭流歠' with invalid syllable: chu
dropping entry '解州' with invalid syllable: hai
dropping entry '解州关帝庙' with invalid syllable: hai
dropping entry '解州镇' with invalid syllable: hai
dropping entry '亠部' with invalid syllable: jiong
dropping entry '擖哧' with invalid syllable: ka
dropping entry '肋脦' with invalid syllable: de
dropping entry '艋舺' with invalid syllable: jia
dropping entry '将进酒' with invalid syllable: qiang
dropping entry '青玉案' with invalid syllable: wan
dropping entry '青玉案元夕' with invalid syllable: wan
dropping entry '通什镇' with invalid syllable: za
dropping entry '菶菶萋萋' with invalid syllable: yong
dropping entry '鲗鱼涌' with invalid syllable: ze
dropping entry '槁项黄馘' with invalid syllable: xu
dropping entry '黄馘槁项' with invalid syllable: xu
dropping entry '尨眉皓发' with invalid syllable: rong
dropping entry '泥而不滓' with invalid syllable: nie
这一点是否需要修正,即保证词组中的读音一定在单字中也出现过?
tencent 这几个词没有相应的拼音,注不出来
E20240301 15:00:13.292201 232383 entry_collector.cc:135] Encode failure: '李到𬀪'.
E20240301 15:00:14.678122 232383 entry_collector.cc:135] Encode failure: '薄护尾𬶏'.
E20240301 15:00:14.679606 232383 entry_collector.cc:135] Encode failure: '薄身罗马诺𬶋'.
商贷
商转公
缺少“藤壶”
然而腾讯词库有“鹅颈藤壶”
是否可以把已经存在于8105.dict的字从41448中去掉
求收录“善茬”
“不是善茬”在词库里,“善茬”不在
挼 增加rua的音
这一点是否需要修正,即保证词组中的读音一定在单字中也出现过?
这个不用了,词库里很多字表没有的字,注上音就行了。
是否可以把已经存在于8105.dict的字从41448中去掉
重复的字不影响部署,先挂载的权重生效,留着也可以单独使用。
问一下「曝尸荒野」的「曝」在《现代汉语词典》里念「bao
」还是「pu
」?目前只能打「bao
」才能打出这个词,是否需要加上「bao
」这个注音?
问一下「曝尸荒野」的「曝」在《现代汉语词典》里念「
bao
」还是「pu
」?目前只能打「bao
」才能打出这个词,是否需要加上「bao
」这个注音?
「曝尸」将换成「暴尸」。参考 http://www.jiaodui.org/bbs/read.php?tid=18496
词库中有2组词语: 体外受精,体外授精;人工授精,人工受精。
实际上只有 “体外受精,人工授精”是正确的。没有 “体外授精,人工受精”这2个词。
桑椹,桑葚,是通用的,都是一种树。或者桑椹,这个是树?桑葚,这个是果?不确定。
胚胎的 桑椹期,一般不写成 桑葚期,所以感觉词库中加入 桑椹 这个词相对好一些。供参考。
关于词频的问题,目前wu mie 是诬蔑 污蔑,但是感觉污蔑的词频理应更高,诬蔑很少会用到
类似的还有含意和含义,目前是含意第一,含义第二,缺少[涵义]。含义的词频理应比含意高
关于词频的问题,目前wu mie 是诬蔑 污蔑,但是感觉污蔑的词频理应更高,诬蔑很少会用到
类似的还有含意和含义,目前是含意第一,含义第二,缺少[涵义]。含义的词频理应比含意高
我尝试了搜狗、gboard、手心等输入法,它们的排序通常是这样的:
含义 寒意 涵义 含意
污蔑 诬蔑
词频问题:
李德金 离得近
看了下李德金在腾讯词库,离得近在ext词库,词频都是100,是不是可以把ext词库词频调高点?
缺词:折衷
他问的 | 5 | 短语 |
时空画师 | 4 | 科幻小说, 曾获雨果奖 |
这是啥意思 | 4 | 短语 |
下降部 | 4 | 字体设计概念, 如 yg 底部 |
上升部 | 4 | 字体设计概念, 与下降部相对 |
我真服了 | 4 | 短语 |
哈斯人 | 4 | 游戏《星际拓荒》中的主要种族之一 wiki |
哈斯科技 | 2 | 指哈斯人的科技形式, 一个梗 |
挪麦人 | 游戏《星际拓荒》中的主要种族之一 wiki | |
搜图 | 3 | 搜索图片 |
自动命令 | 3 | Vim Autocmd 的翻译 manual |
插件名 | 3 | 插件的名字 |
云风 | 2 | 一名程序员 blog |
无序的 | 2 | "无序"的形容词形式, 现在首位为 "无须的" |
他又不会 | 2 | |
尾调优化 | 2 | 一种优化手段,使得在函数尾部递归调用函数不占用栈空间 |
尾调 | ||
星辰之怒 | 2 | 游戏《泰拉瑞亚》中的武器, 被调侃为性奴的谐音 |
星怒 | 2 | 星辰之怒 |
语法分析器 | 2 | 指计算机科学中对针对语法的 parser |
分析器 | 2 | 计算机科学中 parser 的翻译 |
栈上 | 2 | "栈" 指计算机科学中 stack |
这样式 | 2 | 这样式儿, **北方方言. |
你压根 | 2 | 首选为 "你呀跟", 不宜 |
元梦之星 蛋仔派对 | 2 | 近期热门手游 |
电池站 | 2 | 提供电池的站点 |
钟慢尺缩 | 2 | 广义相对论中因光速不变引发的时空效应 |
细菌学说 | 2 | 早期医学对细菌导致疾病的学说的称呼, 也可以理解为细菌学 |
不定长 | 2 | 不定长即 not fixed |
我画的 | 2 | 短语 |
调库 | 2 | 调用库(library) |
全局环境 | 2 | global environment 的翻译 |
上值 | 2 | upvalue 的翻译 |
套一层 | 2 | 现首选为 "逃逸曾" |
纯净化 | 2 | 现首选为 "纯净话" |
鸟科 | 2 | 现代鸟类所在的科 |
求幂 | 2 | 数学用语 |
一般认为 | 2 | 现首选为 "一般人为" |
手搓 | 2 | 不使用工具, 徒手制造的行为, 游戏术语. |
畅连 | 2 | 华为推出的网络通话应用程序 |
桑椹,桑葚,是通用的,都是一种树。或者桑椹,这个是树?桑葚,这个是果?不确定。 胚胎的 桑椹期,一般不写成 桑葚期,所以感觉词库中加入 桑椹 这个词相对好一些。供参考。
两个是一个东西。
全国科学技术名词审定委员会使用「桑椹」,《现汉》推荐「桑葚」,都加上吧,不管了。
我尝试了搜狗、gboard、手心等输入法,它们的排序通常是这样的:
含义 寒意 涵义 含意
「涵义」已被校对为「含义」,参考《现汉》。
「含意」是日常使用较多的词汇,例如「他说这话是什么含意」,「含义」是词句所包含的意思。
缺词:折衷
「折衷」也被校对为「折中」了,只保留了「折衷鹦鹉」。
我尝试了搜狗、gboard、手心等输入法,它们的排序通常是这样的:
含义 寒意 涵义 含意「涵义」已被校对为「含义」,参考《现汉》。 「含意」是日常使用较多的词汇,例如「他说这话是什么含意」,「含义」是词句所包含的意思。
日常口语中应该说的是「他说这话是什么意思」
如果在百度搜索中输入「他说这话是什么含意」 会被替换为已显示 “他说这话是什么含义” 的搜索结果
日常生活中 应该是「含义」的词频远高于「含意」,我几乎没见过「含意」这个词。
例如:小明认为这句话含义深刻,便按照老师要求记录了下来。
https://www.chinaqw.com/hwjy/2020/12-14/279581.shtml
《现代汉语词典》(第7版)指出,“含义”指词句等“所包含的意义”。《当代汉语词典》进一步指出,“含义”指“字、词、句等中所包含的意义”。例如:
(1)这个字的含义是什么?
(2)一个词可能有几个含义。(《现代汉语学习词典》)
(3)要理解词语的确切含义。(《现代汉语规范词典》)
(4)经过老师讲解,同学们才明白这个词的准确含义。(《现代汉语大词典》)
对“含意”的用法,新出版的工具书如《现代汉语应用规范词典》等,有很好的归纳:“多指隐含的深意或言外之意。”也就是说,“含意”多用来指词句中含有的深意或言外之意。例如:
(1)猜不透她这话的含意。(《现代汉语词典》)
(2)她不知道对方那几句话里的真实含意。(《现代汉语大词典》)
(3)你要仔细体味他这些话的含意。(《现代汉语规范词典》)
(4)他的话里还有另一层含意。(《现代汉语应用规范词典》)
所以,“含义”是指词语的基本意思,可以称之为“语文义”;而“含意”则指词句里的深意或言外之意。两者用法有所不同。
这不就对了吗,「他说这话是什么含意」就应该用「含意」啊。
「他说这话有什么含意」用「含意」,所以「含意」应该比「含义」权重高呀。
有没有可能就是因为很多输入法「含义」比「含意」高,才造成了很多人输入了错误的词汇。
缺词:调通
https://www.cidianwang.com/cd/d/diaotong247877.htm
计算机领域也经常说接口能不能调通
初始字频:寂 寄
目前是寂>寄
预期寄>寂,因为寄用的更多,尤其是单字。寄个东西,寄个快递等等
寂 一般不会打单字,会打寂静 万籁俱寂,通常都是词组的形式
词频:便宜点和偏一点
ext词库:
便宜点 pian yi dian 100
腾讯词库:
偏一点 100
好像和我前面发过的李德金 离得近是一个问题,是不是可以把ext词库词频调的比腾讯词库高点?
「他说这话有什么含意」用「含意」,所以「含意」应该比「含义」权重高呀。 有没有可能就是因为很多输入法「含义」比「含意」高,才造成了很多人输入了错误的词汇。
我翻注释,翻到了“# 增加「含意」,与「含义」权重相同 # 含义:字词句具体的意义;含意:言语行为事件含有的意思(隐含的深意或言外之意)。😡”
我不反对加“含意”这个词,但是文件里并不是权重相同,目前含意341400 含义3414,应该掉转一下才对
删除错词:冰淇林
缺词:重绘
缺词:
双闪 // 虽然有很多和双闪关联的词,但双闪本身不在任一词库里
谚文 // 指代韩语/朝鲜语的书写符号
缺词:蜱虫
缺词:积灰
腾讯词库有 容易积灰
我想了一个主意,是否可以把腾讯词库的长词再分词,缺了的补充到base,如果作者觉得可行 我抽空处理下
缺词:𪨊 。(电脑端可以打出这个字,手机端仓输入法用雾凇方案中没有)
那个问号就是,字体不支持。
词 |
---|
宇称 |
正物质 |
以前我用两分能打出“𡦀”,现在拆字怎么拆不出了呢?
8105里面的”把“比”吧“优先级高,但是我经常用的是”吧“,为此我在词库里面把”吧“的词频调整的比”把“高,但是重新部署以后”把“还是第一个候选。能把”吧“提到第一个吗😭
吧 ba 5403165 把 ba 3798288
8105里面的”把“比”吧“优先级高,但是我经常用的是”吧“,为此我在词库里面把”吧“的词频调整的比”把“高,但是重新部署以后”把“还是第一个候选。能把”吧“提到第一个吗😭
吧 ba 5403165 把 ba 3798288
这个是在这里被固定了位置,你可以删除或自定义:
Lines 149 to 151 in c9a2d01
词
宇称
正物质
注音好像也错了,应该是 宇称 yu chen。
注音好像也错了,应该是 宇称 yu chen。
宇 yu3 称 chen4 (parity transformation) 即空间反演对称性。
破缺 |
对称性破缺 |
缺词:车距
错词:德克萨斯
State of Texas 的官方翻译应该是 得克萨斯州
base.dict.yaml:20308:北美得克萨斯丽鱼 bei mei de ke sa si li yu 1
base.dict.yaml:79518:得克萨斯 de ke sa si 5750
base.dict.yaml:79520:得克萨斯丽鱼 de ke sa si li yu 1
base.dict.yaml:79521:得克萨斯龙 de ke sa si long 10
base.dict.yaml:79522:得克萨斯美洲鱥 de ke sa si mei zhou gui 1
base.dict.yaml:79523:得克萨斯蜥鸟盗龙 de ke sa si xi niao dao long 1
base.dict.yaml:79524:得克萨斯州 de ke sa si zhou 7468
base.dict.yaml:79525:得克萨斯州臭鼬 de ke sa si zhou chou you 1
ext.dict.yaml:53300:得克萨斯大学 de ke sa si da xue 100
ext.dict.yaml:159341:美国得克萨斯 mei guo de ke sa si 100
ext.dict.yaml:159342:美国得克萨斯州 mei guo de ke sa si zhou 100
ext.dict.yaml:258499:西得克萨斯 xi de ke sa si 100
base.dict.yaml:79519:德克萨斯长角牛 de ke sa si chang jiao niu 1
base.dict.yaml:79526:德克萨斯州盲视火蜥蜴 de ke sa si zhou mang shi huo xi yi 1
base.dict.yaml:79527:德克萨斯州美洲狮 de ke sa si zhou mei zhou shi 1
ext.dict.yaml:53298:德克萨斯 de ke sa si 100
ext.dict.yaml:53299:德克萨斯传奇队 de ke sa si chuan qi dui 100
ext.dict.yaml:53301:德克萨斯州 de ke sa si zhou 100
tencent.dict.yaml:444526:德克萨斯大学 100
tencent.dict.yaml:444527:德克萨斯州休斯顿 100
tencent.dict.yaml:444528:德克萨斯州奥斯汀 100
tencent.dict.yaml:444529:德克萨斯州达拉斯 100
tencent.dict.yaml:444530:德克萨斯扑克 100
tencent.dict.yaml:444531:德克萨斯扑克游戏 100
tencent.dict.yaml:795762:美国德克萨斯 100
tencent.dict.yaml:795763:美国德克萨斯大学 100
tencent.dict.yaml:795764:美国德克萨斯州 100
tencent.dict.yaml:853359:西德克萨斯 100
错词:希伯莱
Hebrew 一般翻译为 希伯来
加词:
二百次 利箭 示波 图纹 授职 片区 千颗 亿倍 冰碴 松明子 问清 原由 千艘 叠被 监听站 八万个 高能态
删词:杨剑
yangjian 下的词频也不太好
杨戬 杨坚 杨剑 阳间 样件 羊尖
前几个全是人名,看看是否调整
字频调整:
mei 没 每 美
每比美 单字频率高频的多
字频调整:
qi 起 其 气
其是最高频的,不过和起差不多,气相对低频
两组地名词汇:
伤害
上海
背景
北京
个人认为伤害 背景的频率比地名高
词频:
加好友 加蚝油
删词:得点
这个词会影响很多整句,例如 吸引人得点
字频问题:
卡 qia 0
恰 qia 0
拤 qia 0
掐 qia 0
洽 qia 0
葜 qia 0
袷 qia 0
髂 qia 0
qia没有标注频率,好像乱序了,在我这 葜 变成了第一位
字频调整:
单字频率 萨 撒 洒,把动词“撒”放第一位好点。萨 很少会打单字,一般都是拉萨 萨满 以及姓氏
词频:
喝不 何不
建议“何不”放第一位
字频调整:
唐 tang 239749
躺 tang 220026
汤 tang 124040
把躺放第一位
字频调整:
巧 qiao 241945
悄 qiao 233784
瞧 qiao 180832
敲 qiao 148518
敲 放第一位
字频调整:
见 jian 3460998
间 jian 3067939
剑 jian 1151704
件 jian 935235
把间或者件置为第一位,见 一般都是和词一起打
单字频率 婚 混
建议混 第一位
单字频率 朝 超
超 第一位
单字频率 战 站
站第一位
单字频率 句 ju 754300
居 ju 627014
举 ju 493503
局 ju 461034
巨 ju 453729
举排第一位,句一般都是组词 句子
mo 下的字频有待商榷,魔 莫 末,末在第八,但是末比魔常用多了
单字频率 社 射 设
设 > 社
单字频率 逃 讨 套
套第一
单字频率 妙 秒
秒 第一
单字频率 服 副
副 第一
单字频率 脱 托 拖
拖 第一
词频问题:
寡姐 挂接
建议挂接 > 寡姐
地名词汇缺失:
六安 lù ān
六合 lù hé
加词: 二百次 利箭 示波 图纹 授职 片区 千颗 亿倍 冰碴 松明子 问清 原由 千艘 叠被 监听站 八万个 高能态
「原由」→「缘由」
歙然 xī rán
词频问题:
hesuan
核酸 核算 合算
现在已经过了核酸检测那几年,可以考虑把“合算”放第一了……
建议增加:tanchang→宕昌(地名)
词频:
meishi 美食 没事
可以把没事 放第一
ext.dict.yaml
出台样了 chu tai yang le 100
建议修改为“出太阳了”
建议增加“FPGA”
缺词:痘坑
词频,参考微软拼音调整为:
qu yi ge
去一个 -> 娶一个 -> 取一个
缺词:清奇
思路清奇有词,单独“清奇“无词
缺词:拼爹
词频调整,fan li
,参考微软拼音:
返利
范例
反例
范蠡
藩篱
饭粒
反力
饭里(雾凇无此词)
凡例
樊篱
范丽(雾凇无此词)
翻黎(雾凇无此词,粤语音译)
繁丽
可以参考其它输入法再斟酌下词频