ckiplab / ckiptagger

CKIP Neural Chinese Word Segmentation, POS Tagging, and NER

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

Allocation of xxx exceeds 10% of system memory

kiang opened this issue · comments

輸入的list裡面有太長的句子會很大地影響速度及佔記憶體,或許是這個原因。

可以考慮用換行斷句,例如:
pos([data['JFULL']]) -> pos(data['JFULL'].split("\n"))

commented

比較麻煩的也許是法院判決書習慣透過換行進行資料的排版,如果逐行輸入會不會有大量破碎的詞句產生誤判?