kahaani / dieghv

潮语拼音输入法 - Rime schema for Teochew dialect - https://kahaani.github.io/dieghv

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

關於字典維護的建議

CharKwayTeow opened this issue · comments

現在的項目分做潮州,潮陽,揭陽,饒平,汕頭,澄海六個字典,人工維護難以保證更新同步。而且好多字只有文讀,無白讀,比如上一句話中,分(hung,bung),多(do,zoi)。我認爲可以建立一個 dictionary.yaml,每一個字詞以以下形式儲存:
characters:
潮:
dieziu: die
dioion: dio
gekion: dio
riaupeng: dio
suantau: dio
tenghai: die
分:
dieziu: [hung, bung]
dioion: [hung, bung]
gekion: [hung, bung]
riaupeng: [hung, bung]
suantau: [hung, bung]
tenghai: [hung, bung]
words:
食飯:
dieziu: ziah bung
dioion: ziah bung
gekion: ziah bung
riaupeng: ziah bung
suantau: ziah bung
tenghai: ziah bung

以後對字典的修改全部通過這個yaml。然後,寫個腳本生成各個*.dict.yaml。

谢谢你的建议。目前项目中的dictionary.tsv链接)承担了这个功能。

把你举的几个例子再简化一下格式:

(潮,die,[dieziu,tenghai])
(潮,dio,[suantau,riaupeng,gekion,dioion])

(分,hung,[all])
(分,bung,[all])

(食飯,ziah bung,[all])

其实就相当于dictionary.tsv的内容。字典文件dictionary.tsv是我当初录入《潮州音字典》的原始数据,码表文件.dict.yaml中的「字典字音」部分(这里有介绍)就是由它生成的。对字典文件的修改会更新到各个码表文件,比如这个commit

至于文白异读漏收,其实是吴华重《潮州音字典》的问题。后来根据张晓山《新潮汕字典》零散地补收了一些字音和词语,仅限于潮州和汕头两地,原因在这里也有说明

解决这个问题可以考虑加入更多字典。比如李新魁的《普通话潮汕方言常用字典》,这本字典收录的方言点更多,文白异读也更全面(介绍)。但是当年我录完《潮州音字典》后已无精力再录入第二本字典了,所以暂时付诸阙如。

但是当年我录完《潮州音字典》后已无精力再录入第二本字典了,所以暂时付诸阙如。

工作量一定好大,非常感謝!

你公開dicionary.tsv的時候我就注意到。個人感覺dicionary.tsv做爲原始數據來儲存字庫和讀音好好,但是做爲維護輸入法來講存在一撮問題:

  1. 對想參與項目的人,可讀性不強。

  2. 如果想加入一個字或者讀音只能修改各個.dict.yaml文件(比如這個commit),因爲dictionary.tsv是《潮州音字典》原始數據,直接修改不合適。

  3. 對無收錄在《潮州音字典》的讀音,無變統一管理。

  4. 只有字,無詞。所以加新詞還是需要修改全部.dict.yaml文件(比如這個commit)。

根據你的描述,如果將來有新個字典加入,這個項目會存在多個dictionary.tsv文件。那是否可以通過寫個腳本來讀取全部tsv文件來生成一個dictionary.yaml,然後再對這個文件進行需要的修改(比如加入缺少字音,詞組),最後再生成各個.dict.yaml文件呢?以後如果有補充字詞,只需要修改dictionary.yaml就好了。

我非常樂意相互這個工作。

我非常樂意相互這個工作。

这里「相互」应该是「相辅」吧。

感谢对项目的工作流程提出意见。下面是我的想法。

目前的模式比较简单,仅仅是零散地补录两个方言点,增加一个dictionary.yaml似乎好处不大。

理想的情况是录入整本《新潮汕字典》(包括字头和词条,最好还能包括释义中的例词),而不是现在这样见一个收一个,也就避免了「零散」造成的问题。

更理想的情况是录入多本字典。多个.tsv文件按一定的混合规则生成.dict.yaml,似乎也不需要一个dictionary.yaml

按我的理解,dictionary.yaml的好处在于:方便管理零散的补充数据,以及众包(由各地网友提供各地读音)。但我对网上资料的质量没有信心。BTW:纸质字典的质量也是参差不齐,不是每一本都足够严谨。

还有一种情况,是系统性补收字音,比如:c9468be8fcb04b

或许可以等到补丁更多、问题更加明显、需求更加清楚的时候,再来设计一种管理数据的格式。

不过,仍然欢迎对整个流程进行讨论或试验。

感謝回覆!

这里「相互」应该是「相辅」吧。

多謝指正!因爲「相辅」打無。

而不是现在这样见一个收一个,也就避免了「零散」造成的问题。

我個想法是「零散」收錄反而是好事:

  1. 錄入整本字典工作量大,更新週期長,無法及時收錄實際使用中常用,但是打無的字,比如這句話的長只有「ciang」,但是日常更常用的[deng」就打無。個人感覺應該優先收錄常用讀音、字詞,而唔是錄入整本字典。因爲輸入法做爲一個工具,應該以方便使用爲主。所以,是否可以爲收錄使用過程中發現打無個字提供方便?

  2. 字典收錄的更多是字音。潮語專有的用詞,地名還是需要人工錄入。同樣,實際使用中發現一個補一個最好。

  3. 字典雖然權威,但是出版週期長,比如現在用的《潮州音字典》是1957年出版的。即使這個項目有足夠人手相輔來錄入全部字典的數據,但是如果只依賴字典,無愛零散收錄,一撮字詞還是打無。

更理想的情况是录入多本字典。多个.tsv文件按一定的混合规则生成.dict.yaml,似乎也不需要一个dictionary.yaml。

字典的.tsv的格式只有變放字,無變放詞。直接用字典生成.dict.yaml不實際。如果全部用.tsv也是好,就是再用個.tsv來放詞,也就是等同於一個dictionary.yamldictionary.yaml只是一個想法,我認爲,需要在字典和.dict.yaml之間加個中間層來解決問題。

按我的理解,dictionary.yaml的好处在于:方便管理零散的补充数据,以及众包(由各地网友提供各地读音)。但我对网上资料的质量没有信心。BTW:纸质字典的质量也是参差不齐,不是每一本都足够严谨。

這就是dictionary.yaml起到的作用,可以做爲測試來糾錯。我認爲項目應該收錄多種來源的資料,核對後採納。

还有一种情况,是系统性补收字音,比如: c9468be8fcb04b

我就是想如何減輕這種工作,並且錯誤率更低。

或许可以等到补丁更多、问题更加明显、需求更加清楚的时候,再来设计一种管理数据的格式。

如果感覺當前的管理數據格式已經不符合實際,可以再設計一種,然後遷移過去。

https://www.mogher.com/baike 我发现这里有一个 在线的潮汕词典 未来有没有可能把里面的词导入到输入法里面?

https://www.mogher.com/baike 我发现这里有一个 在线的潮汕词典 未来有没有可能把里面的词导入到输入法里面?

谢谢你的关注和意见。如之前的讨论所说,我担心网上资料的质量。高质量的词条需要花费苦功录入方言书籍。

我認爲輸入法首要是實用性。如果使用時候發現有錯誤可以改正?

我之前用了上面網站做了個自用詞庫 有需要的可以嘗試下https://github.com/ciskonc/diosuasediang 直接词典管理处导入文本碼表即可

将潮典词汇表应用于输入法,有以下几个问题:

  1. 尽管部分词条做了分类(如时间、人称、地名等),总体而言并不系统、全面。
  2. 很多词条是普通话同形词,潮汕话没有特殊词形或字音,这种情况下可以通过 Rime 的自带词库和组词能力解决。
  3. 本字的处理不妥当、不一致。
  4. 部分词条的注音、繁简有瑕疵。

总之质量还是不够好。

另外,潮典词汇表默认是潮州音,但部分词条标注了揭阳音或潮阳音,ciskonc 导入过程中遗漏掉了。

我發此詞庫的最主要目的是想分享這個詞庫來給有需求的人解決詞庫有無的問題
而且我發的這個詞庫文件除了kahaani提到的以外,還有好幾個問題.

  1. 若輸入法字庫沒有的字也無法打出對應的詞,例如「水墘」「過年暝」由於輸入法字庫沒有「墘gin5」「暝mê5」這個音是打不出來的,即使我文件提供了讀音也無用
  2. 打出的詞是必須字庫的已有的讀音,例如我輸入「日本」必須輸入字庫已有的rek bng (揭陽音)雖然我提供的文件註音了「rig8 bung2」 他是打不出來的。
  3. 關於導入過程遺漏掉除潮州音以外的音,這個確實是我的問題我沒注意,但是我發現基於上面兩個問題好像遺漏掉問題也不是很大,輸入的讀音必須是基於輸入法自帶原有的音.

關於潮典词汇表应用于输入法,除了你提幾點以外還有一個問題

  1. 潮典词汇表由於字體支持不完全有些字無法顯示會把一個字拆成兩部分錄入例如「讠重」

雖然這個詞庫質量不夠好且不系统、不全面。但我認爲對於實用性來說在日常生活中比起準確逐字輸入,有一個能用的詞典更重要的。這點我和CharKwayTeow是相同意見。

最後非常感謝kahaani提供這個好用的輸入方案!該輸入法在我重新學習潮汕話中幫助非常大,非常感謝。

我非常理解和感謝kahaani在正字正音方面的努力。我的建議是考慮將詞庫和輸入法分開維護來平衡準確和實用性。比如用如下格式來儲存詞庫

    • 讀音 (repeated)
      • 音標
      • 地區 (repeated)
      • 文白讀
      • 備註 (比如出處)