Whisperで音声を文字起こし、VOICEBOXで合成って感じのやつ。
完全ローカルで動かせるボイボ専用ゆかりねっとだと思っていただければOK。
認識精度がそこそこ良かったり、Google ChromeのSTTよりも応答がちょっと早い気がする。
当然そこそこの性能のGPUで動かしている場合は、という前提になる。
(RTX3080Tiで発声終了から3秒程度の遅延)
まあ当然未知語には弱いし、辞書機能みたいなのはちょっと実装が難しい。
あと長めの大きい物音が入ると「ご視聴ありがとうございました」してしまう。
これはWhisperの学習データがYouTube等の字幕データと仮定すれば合点がいく。
動画の最後の無音や物音が入った場所に「ご視聴ありがとうございました」と書いているデータが多かったのだろう。
VADを使えばどうにかなると思っていたが、VADを貫通する音だと普通に起こる。
ボイボ系の音声でトイレ離席時に視聴者に感謝してる配信者が居たら、これか同様のシステムを採用してるということだな。
一応基本機能は完成している。
CIとか全然組めてないのだけど、とりあえず公開という形だ。
流石に自動リリース出来るまでは頑張りたいのだけど、気力が足りない。
(多分やればすぐに出来るのだろうけども、Windows上での開発・リリースはよく分からん。)
そもそもの話、こういった形の開発は初めてだから若干ライブラリの選定とか現時点でミスってるんだよね。
Deno webviewは便利だけど音声出力先がWindowsのWebviewからになってしまうから配信やVCに使おうと思うと若干不便。
このあたりを解決するためにはだいぶ面倒なことをしなくちゃいけない。
ってわけで、このプロジェクトを元に誰かがもっと良いのを作ってくれることに期待しとこう。
ぶっちゃけ難しいこと全然してないから似たようなのは1日あれば作れるはず、初心者向け(?)プロジェクトってことで!