YYuX-1145 / Bert-VITS2-Integration-package

vits2 backbone with bert

Home Page:https://www.bilibili.com/video/BV13p4y1d7v9

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

bilibili@数列解析几何一生之敌

Bert-VITS2整合包

注意:本整合包是免费且无条件提供下载的!
整合包本体禁止商用,禁止二次分发。

继续使用代表你同意此条款

功能:整合包加入了标注功能。新加的WebUI可以让训练更加轻松。

下载链接和教程

(1.0版教程)【【Bert-Vits2】带标注功能的整合包!轻松训练属于你的“神之嘴”!-哔哩哔哩】 https://b23.tv/Ir2OG5d
2.0版简介和教程:https://www.bilibili.com/read/cv27647393/
本仓库的代码是为了给自己部署不成功的,代码报错的人一些参考,或者是用于快速更新整合包。云端训练请自己结合原项目把相关文件和目录补齐。并且我不解答云训练相关问题。

References|参考

本整合包禁止二次分发和商用

请留意:不要相信各类代训服务,不要购买任何模型。当然,如果你是富哥愿意送它们钱,我也没办法,反正损失的也不是我!

严禁将此项目用于一切违反《中华人民共和国宪法》,《中华人民共和国刑法》,《中华人民共和国治安管理处罚法》和《中华人民共和国民法典》之用途。由使用本整合包产生的问题和作者、原作者无关!!!

Bert-VITS2整合包打标组件

简介

为本整合包或其他项目配套制作的快速易用的打标工具包。支持whisper、FunASR和原神数据集快速处理。支持进度恢复,意外终止进度不丢失。其中FunASR支持多进程。

安装依赖

pip install -r transcribe_tools/requirements.txt

确保你的电脑里已安装C++工具包,否则某些依赖可能无法正常安装。

快速使用

和Bert-VITS2项目数据结构一致,按说话人分文件夹。音频必须为wav格式。

python auto_transcribe.py

可指定参数见代码。
请将auto_transcribe.py放入项目根目录内。
要使用本工具为GPT-SoVITS制作数据集,请将输出list的语言字母改为小写,用记事本打开按ctrl+f使用查找和替换。

  • 例如:|ZH|改为|zh|
  • 此外,JP需要改为ja

调用参考(见auto_transcribe.py):

    import transcribe_tools

    transcribe_tools.transcribe(
    engine= "whisper", 
    languages= "M",
    whisper_size= "large",
    transcription_path = None,
    in_dir= None,
    out_dir= None,
    sr= 44100,
    processes= 0,
    use_global_cache= True,
    use_path_ffmpeg= True
    ).run_transcribe()

engine:字符串,指定打标方式。可选:funasr、whisper、genshin(原始人重采样)
languages:字符串。通过包含字母C、J、E的字符串指定语言。例如:CJE、CJ、C。M表示多语言。具体效果和打标方式有关:
whisper:过滤未选择的语言。
funasr:会加载选中语言的模型。每个说话人只支持同一种语言。如果没有多语言多说话人的需求请只指定一种语言,否则加载用不到的模型会浪费显存。当指定多语言时,处理时会要求你输入每个说话人的语言。 genshin:同funasr。
whisper_size:字符串。whisper模型大小。large、medium、small。只在选择使用whisper时生效。
transcription_path:字符串。指定输出的list文件路径。
in_dir&out_dir:字符串。音频输入/输出路径。请注意:要按说话人分文件夹
sr:整数。设置重采样的采样率
processes:整数。funasr和genshin进程数量,增加这个值在一定范围内提高处理速度。当为0时,funasr默认进程数为1,genshin为逻辑处理器数量-4,且不低于1。whisper不支持多进程。
use_global_cache:默认启用。开启时,whisper和funasr缓存使用系统默认目录。否则会缓存在模块文件夹内。
use_path_ffmpeg:默认启用。开启时,whisper需要的ffmpeg从系统的环境变量读取,否则使用整合包模块目录内的ffmpeg。

以下为原项目的Readme:

LOGO

Bert-VITS2

VITS2 Backbone with multilingual bert

For quick guide, please refer to webui_preprocess.py.

简易教程请参见 webui_preprocess.py

请注意,本项目核心思路来源于anyvoiceai/MassTTS 一个非常好的tts项目

成熟的旅行者/开拓者/舰长/博士/sensei/猎魔人/喵喵露/V应当参阅代码自己学习如何训练。

严禁将此项目用于一切违反《中华人民共和国宪法》,《中华人民共和国刑法》,《中华人民共和国治安管理处罚法》和《中华人民共和国民法典》之用途。

严禁用于任何政治相关用途。

QQ Group:815818430

References

感谢所有贡献者作出的努力

About

vits2 backbone with bert

https://www.bilibili.com/video/BV13p4y1d7v9

License:GNU Affero General Public License v3.0


Languages

Language:Python 99.9%Language:Shell 0.1%Language:CSS 0.0%