NLPchina / ansj_seg

ansj分词.ict的真正java实现.分词效果速度都超过开源版的ict. 中文分词,人名识别,词性标注,用户自定义词典

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

ansj如何对英文粘连起来的词分词?

wanggenAi opened this issue · comments

ansj如何对英文分词? 比如这个term: iwantto
然后我想分成:i/自定义词性 want/自定义词性 to/自定义词性
这样改如何配置,需要改代码吗?

可以先分出来,词性是en,构造自定义词典,继承SmartGetWord,重写getAllWords、getFrontWords,处理父类SmartGetWord的checkNumberOrEnglish,之后自定义Recognition,在Recognition实现里,可通过以下代码拿到结果

MyGetWord getWord = new MyGetWord(myforest, "iwantto".toCharArray());
String word;
while ((word = getWord.getFrontWords()) != null) {
    // 词
    System.out.println(word);

    // 词性,权重,...
    String[] param = getWord.getParam();
    System.out.println(Arrays.toString(param));
}