lotem / rime-octagram-data

八股文(語法)

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

【求助】关于使用本插件的一些问题

mokapsing opened this issue · comments

本人使用的方案是苍颉检字法,想通过本插件更简单的实现整句输入,安装教程加载插件后,效果并不理想,于是在此提出几个问题:

  1. 本插件效果上是否对于形码和拼音(双拼)有明显的区别
  2. 如果使用本插件,那么vocabulary/use_preset_vocabulary参数需要如何设置,能否设置为false(不使用essay.txt),仅仅依靠本插件
  3. 如果不使用essay.txt,dict文件是否必须要weight,是否必须是sort: by_weight

另外附上我(不使用essay.txt)加载本插件后的效果如下:
image
image

倉頡輸入法主要打單字,應使用 hant_char 逐字查詢

預設詞彙表可以用來爲詞組編碼。形碼通常有爲詞組編碼的規則,與連續輸入單字的編碼不同。

語言模型需要配合essay定義的字頻、詞頻以達到最佳效果。

倉頡輸入法主要打單字,應使用 hant_char 逐字查詢

預設詞彙表可以用來爲詞組編碼。形碼通常有爲詞組編碼的規則,與連續輸入單字的編碼不同。

語言模型需要配合essay定義的字頻、詞頻以達到最佳效果。

我的仓颉是自己修改过的,只有简体字,所以我用的是hans,因为实测hans相较于hans_char用于整句输入效果更佳,此外我说明下,我没有用原版的构词码,我现在是全码连打,构词也是用的全码。

我的方案由两个(table)traslator和dict组成,一个cangjie6sc输入单字,开编码提示,不可造词,bin不含词;一个cangjie6scsup用于连打,无编码提示,可造词,导入八股文,bin含词。因为我只想单字有提示编码,同时又可以连打输入。

我说了这么多,其实是想大佬帮忙看看我的实现方法是否有可以优化的地方。我感觉我现在的做法有点复杂。

# encoding: utf-8
---
name: "cangjie6sc"
version: "2020.03.16"
sort: by_weight
#use_preset_vocabulary: false #允許使用「八股文」詞彙表
vocabulary: essay-zh-hans
columns:
  - text
  - code
  - stem
encoder:
  exclude_patterns:
    - '^x.*$'
    - '^z.*$'
...
日	a	a
昌	aa	aa
# encoding: utf-8
---
name: "cangjie6scsup"
version: "2020.03.16"
sort: by_weight
vocabulary: essay-zh-hans
max_phrase_length: 8 # 我們目前還沒能解決如何輸入8個字以上的詞的問題
min_phrase_weight: 0 # 八股文(essay.txt)中weight大於0的詞言(所有詞語)
columns:
  - text
  - code
  - stem
encoder:
  exclude_patterns:
    - '^x.*$'
    - '^z.*$'
  rules:
    - length_equal: 2
      formula: "AaAbAcAyAzBaBbBcByBz"
    - length_equal: 3
      formula: "AaAbAcAyAzBaBbBcByBzZaZbZcZyZz"
    - length_equal: 4
      formula: "AaAbAcAyAzBaBbBcByBzCaCbCcCyCzZaZbZcZyZz"
    - length_equal: 5
      formula: "AaAbAcAyAzBaBbBcByBzCaCbCcCyCzYaYbYcYyYzZaZbZcZyZz"
    - length_equal: 6
      formula: "AaAbAcAyAzBaBbBcByBzCaCbCcCyCzDaDbDcDyDzYaYbYcYyYzZaZbZcZyZz"
    - length_equal: 7
      formula: "AaAbAcAyAzBaBbBcByBzCaCbCcCyCzDaDbDcDyDzEaEbEcEyEzYaYbYcYyYzZaZbZcZyZz"
    - length_equal: 8
      formula: "AaAbAcAyAzBaBbBcByBzCaCbCcCyCzDaDbDcDyDzEaEbEcEyEzFaFbFcFyFzYaYbYcYyYzZaZbZcZyZz"
  tail_anchor: "'"
...
日	a	a
昌	aa	aa
grammar:
    language: zh-hans-t-essay-bgw
#    collocation_max_length: 2
#    collocation_min_length: 2

translator:
  dictionary: cangjie6sc
  enable_user_dict: false
  user_dict: cangjie6sc_userdb
  db_class: tabledb #plain_userdb
  enable_completion: true
  enable_charset_filter: false
  enable_sentence: false
  enable_encoder: false
  sentence_over_completion: false
  encode_commit_history: false
  strict_spelling: true
  max_phrase_length: 5
  contextual_suggestions: true
  max_homophones: 7
  max_homographs: 7
  preedit_format:
    - "xlit|abcdefghijklmnopqrstuvwxyz|日月金木水火土的戈十大中一弓人心手口尸廿山女田止卜片|"
  comment_format:
    - "xlit|abcdefghijklmnopqrstuvwxyz~|日月金木水火土的戈十大中一弓人心手口尸廿山女田止卜片・|"
  disable_user_dict_for_patterns:
    - "^z.*$"
    - "^yyy.*$"
    - "^[a-y]$"
    #- "^[a-y]{1,2}$"
  initial_quality: 0.25

cizu:
  dictionary: cangjie6scsup
  enable_user_dict: true
  user_dict: cangjie6sc_userdb
  db_class: tabledb #plain_userdb
  enable_completion: false
  enable_charset_filter: false
  enable_sentence: true
  enable_encoder: true
  sentence_over_completion: false
  encode_commit_history: false
  strict_spelling: true
  max_phrase_length: 5
  contextual_suggestions: true
  max_homophones: 7
  max_homographs: 7
  preedit_format:
    - "xlit|abcdefghijklmnopqrstuvwxyz|日月金木水火土的戈十大中一弓人心手口尸廿山女田止卜片|"
  comment_format:
    - "xlit|abcdefghijklmnopqrstuvwxyz~|日月金木水火土的戈十大中一弓人心手口尸廿山女田止卜片・|"
  disable_user_dict_for_patterns:
    - "^z.*$"
    - "^yyy.*$"
    #- "^[a-y]{1,2}$"
  initial_quality: 0.75

​可以嘗試改用 script_translator

​可以嘗試改用 script_translator

首先感谢您百忙中抽空回复。
script_translator则全部(单字和整句)不能编码提示,我打仓颉不是很熟练,碰到不会打的字,我会单独输入,看一下后续的编码,是否还有其它建议呢

感谢,我现在改用 script_translator,不用提示也可以打字了,连候选栏也隐藏了