Tiger-0512 / nlp-preprcessing

自然言語処理におけるデータ前処理の基本のき

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

nlp-preprcessing

日本語の自然言語処理におけるデータ前処理の基本のき

動作確認環境

  • CentOS Linux 7
  • Windows 10 ver1909
  • macOS Catalina ver10.15.7

使用言語

  • python 3.7.6

使用ライブラリ

  • neologdn 0.4
  • emoji 0.6.0
  • mecab-python3 1.0.1

事前準備

上記のライブラリが入っていない場合、インストールします。

$ pip install neologdn
$ pip install emoji
$ pip install mecab-python3

但し、MeCabに関してはこれだけでは動作しません。更に下記の手順に従って、インストールを行ってください。
MeCab: Yet Another Part-of-Speech and Morphological Analyzer

管理者権限がない場合、下記の記事が非常に役に立ちます。
sudoが使えないマシンでmecabを使うまでの備忘録

使用方法

preprocessing.py内のpre_processing関数に対し、前処理を行いたい文を引数として与えてください。

About

自然言語処理におけるデータ前処理の基本のき


Languages

Language:Python 100.0%