Unsupervised Word Segmentation with Neural Language Model
ニューラル言語モデルを用いた教師なし単語分割
発表原稿
(一部の人にしかダウンロードできないらしいです.)
発表資料: slide.pdf(第236回NL研)
不明点などあればメールか何かで聞いてください.
特許をとっているNPYLMを元にした研究です.
念のため研究目的以外での利用は控えてください.
https://twitter.com/daiti_m/status/851810748263157760
まだGPU対応してないです.
python 3.6.4
$ pip install chainer==4.1.0
$ pip install numpy==1.13.3
$ pip install gensim==3.4.0
$ mkdir result
$ cd src
$ python charVecTrainer.py --textPath ../data/kokoro.txt \
--resultPath ../result \
--embedSize 30 \
--windowSize 3 \
--epoch 100 \
$ python uniProbMaker.py --textPath ../data/kokoro.txt \
--resultPath ../result \
--maxLength 8
$ python segmentater.py --mode train \
--textPath ../data/kokoro.txt \
--pretrainPath ../result \
--resultPath ../result \
--beginEpoch 0 \
--endEpoch 50\
--batchSize 32 \
--samplingSizeK 100 \
--showSeg
学習データで未知の文字が含まれなければ,どのようなテキストでも可.
python segmentater.py --mode seg \
--textPath ../data/kokoro.txt \
--pretrainPath ../result \
--resultPath ../result \
--batchSize 8 \
> ../result/segedData.txt
python segmentater.py --mode vecAssign \
--pretrainPath ../result \
--resultPath ../result \
--segedTextPath ../result/segedData.txt