ottonove / voicevox_core

無料で使える中品質なテキスト読み上げソフトウェア、VOICEVOXのコア

Home Page:https://voicevox.hiroshiba.jp/

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

VOICEVOX CORE

VOICEVOX の音声合成コア。
Releases にビルド済みのコアライブラリ(.so/.dll/.dylib)があります。

(エディターは VOICEVOX 、 エンジンは VOICEVOX ENGINE 、 全体構成は こちら に詳細があります。)

環境構築

configure.py を用いて環境構築を行う場合

python configure.py
pip install -r requirements.txt
pip install .
configure.pyを使わない場合

GPU を使用する場合

CUDA

Releases から環境にあった CUDA 対応版の zip ファイルをダウンロードして展開してください。

コアライブラリのダウンロードと配置

まず Releases からコアライブラリが入った zip をダウンロードしておきます。

  1. まず Releases からダウンロードしたコアライブラリの zip を、releaseというディレクトリ名で展開する。
  2. core/lib/ディレクトリを作成する。
  3. release/内にある、自身の環境に対応したランタイムライブラリをcore/lib/にコピーする
# インストールに必要なモジュールのインストール
pip install -r requirements.txt
# pythonモジュールのインストール
pip install .

注意

GPU の使用について

CUDA

nvidia 製 GPU を搭載した Windows, Linux PC では CUDA を用いた合成が可能です。

python configure.py --use_cuda

を実行する必要があります

MacOS の場合、CUDA の macOS サポートは現在終了しているため、VOICEVOX CORE の macOS 向けコアライブラリも CUDA, CUDNN を利用しない CPU 版のみの提供となります。

サンプル実行

まず Open JTalk 辞書フォルダを配置します。 http://open-jtalk.sourceforge.net/ を開き、Dictionary for Open JTalk 欄の Binary Package (UTF-8)をクリックして「open_jtalk_dic_utf_8-1.11.tar.gz」をダウンロードします。 これを展開してできた「open_jtalk_dic_utf_8-1.11」フォルダを example/python に配置します。

  • バージョン 0.12 以降の voicevox_core, onnxruntime ライブラリ(配布ページ: https://github.com/VOICEVOX/voicevox_core/releases )を example/python に配置する
    • Linux の場合:voicevox_core-linux-{お使いのCPUアーキテクチャ}-cpu-{バージョン}.zip 内の 全ての so file
    • macOS の場合:voicevox_core-osx-{お使いのCPUアーキテクチャ}-cpu-{バージョン}.zip 内の 全ての dylib file
    • Windows の場合:voicevox_core-windows-{お使いのCPUアーキテクチャ}-cpu-{バージョン}.zip 内の 全ての dll file
cd example/python

# サンプルコード実行のための依存モジュールのインストール
pip install -r requirements.txt
python run.py \
    --text "これは本当に実行できているんですか" \
    --speaker_id 1

# 引数の紹介
# --text 読み上げるテキスト
# --speaker_id 話者ID
# --use_gpu GPUを使う
# --f0_speaker_id 音高の話者ID(デフォルト値はspeaker_id)
# --f0_correct 音高の補正値(デフォルト値は0。+-0.3くらいで結果が大きく変わります)

その他の言語

サンプルコードを実装された際はぜひお知らせください。こちらに追記させて頂きます。

API

Releasesにある zip ファイル内に core.h が入っているのでご確認ください

コアライブラリのビルド

Releases にあるビルド済みのコアライブラリを利用せず、自分で一からビルドする場合こちらを参照してください。ビルドには Rust (Windows での Rust 開発環境構築手順はこちら) と cmake が必要です。

model フォルダにある onnx モデルはダミーのため、ノイズの混じった音声が出力されます

cargo build --release

コアライブラリのテスト

cargo test

事例紹介

VOICEVOX ENGINE SHARP @yamachu ・・・ VOICEVOX ENGINE の C# 実装
Node VOICEVOX Engine @y-chan ・・・ VOICEVOX ENGINE の Node.js/C++ 実装

ライセンス

ソースコードのライセンスは MIT LICENSE です。

Releases にあるビルド済みのコアライブラリは別ライセンスなのでご注意ください。

About

無料で使える中品質なテキスト読み上げソフトウェア、VOICEVOXのコア

https://voicevox.hiroshiba.jp/

License:MIT License


Languages

Language:Rust 79.6%Language:Python 15.1%Language:C++ 4.2%Language:Shell 0.9%Language:CMake 0.2%