データサイエンスに関する内容をPythonをベースにまとめていきます。 もし間違いやTypoがあればIssue/PRお待ちしております。
今後も変更する予定がありますが、とりあえず現在追加を考えているものも含めています。
- JupyterNotebook / numpy / pandas / matplotlib 入門
- Seabornを使った可視化
- 異常値・外れ値・欠損値
- 次元削減(主成分分析)
- 機械学習を勉強していく前に
- 回帰分析
- 決定木
- クラスタリング
- トピックモデル
- パターン認識
- パラメータ推定
- アンサンブル学習
- 分類器
- 日本語文書の感情分析(Sentiment Analysis)
- 日本語文書の分類(bag-of-word)
- レコメンド
- 画像のパターン認識
notebookの「View」>「Cell Toolbar」>「SlideShow」からスライドショーにした時の表示方法を編集できます。 ここに追加しているnotebooksはスライドショーの表示にも対応しているため、下記のコマンドによってスライド形式で表示することが可能です。
$ ipython nbconvert --to slides notebooks/getting-started.ipynb --post serve
下記の環境を用意してください。
- Python3.5
- GraphViz
- Jupyter Notebook
- Numpy / Scipy / Pandas
- seaborn / matplotlib
- Scikit-learn
$ pip install -r requirements.txt -c constraints.txt
Dockerを使って簡単に環境を用意することができます。 jupyter notebookは公式でdocker imageを公開してくれていますが、 ここにあるNotebooksでは一部その中に含まれていないパッケージ等を使用しているため、このRepositoryのDockerfileを使用してください。
$ docker build -t c-bata/datascience .
$ docker run -p 8888:8888 -v $PWD/notebooks:/home/jovyan/work c-bata/datascience