w4123 / GenshinVoice

Voice dataset of Genshin Impact 原神语音数据集

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

更新计划

w4123 opened this issue · comments

V3.4

  • 更新
  • 使用文件名匹配获取npcName以避免受到游戏内错误元数据,NPC与说话者不一致以及每个角色有多个名称的问题

其他

  • 添加cleaned_text条目,表示已经去掉color tag和{NICKNAME}等并将它们替换成实际上说的内容以后的text。这一目标可能需要其他人一起来帮助完成。

提供一个 Merged_Chinese_Wav.zip 的百度网盘链接(Merged 这个应该是 v3.1 + v3.2 的整合?)
链接:https://pan.baidu.com/s/1bWlfNMd3aGlxeJgKE_wAZQ?pwd=ilkh
提取码:ilkh

@w4123 你好,请问对应文本,是在哪里呀,非常感谢

@Charlottecuc json 里头呀,

大概格式是这样

"60f17e4684ea0354": {
    "language": "CHS",
    "fileName": "Chinese\\VO_AQ\\VO_lisa\\vo_MDAQ032_2_lisa_04b_3.wem",
    "text": "所以,你们也可以多信任我一些喔。",
    "npcName": "丽莎"
},

不过 text 这个属性有些缺失,里头可能有些 xml 符号 <color=#00E1FFFF>风之翼</color>! , {NickName} 之类的

@Charlottecuc json 里头呀,

大概格式是这样 {'language': 'CHS', 'fileName': 'Chinese\\VO_AQ\\VO_ambor\\vo_MDAQ071_8_ambor_02.wem', 'text': '这样啊…那也就是说要暂时分别了吗…', 'npcName': '安柏'}

谢谢大师

@Charlottecuc json 里头呀,

大概格式是这样

"60f17e4684ea0354": {
    "language": "CHS",
    "fileName": "Chinese\\VO_AQ\\VO_lisa\\vo_MDAQ032_2_lisa_04b_3.wem",
    "text": "所以,你们也可以多信任我一些喔。",
    "npcName": "丽莎"
},

不过 text 这个属性有些缺失,里头可能有些 xml 符号 <color=#00E1FFFF>风之翼</color>! , {NickName} 之类的

目前fetters部分的text是缺失的,会近期加上。

@Charlottecuc json 里头呀,

大概格式是这样

"60f17e4684ea0354": {
    "language": "CHS",
    "fileName": "Chinese\\VO_AQ\\VO_lisa\\vo_MDAQ032_2_lisa_04b_3.wem",
    "text": "所以,你们也可以多信任我一些喔。",
    "npcName": "丽莎"
},

不过 text 这个属性有些缺失,里头可能有些 xml 符号 <color=#00E1FFFF>风之翼</color>! , {NickName} 之类的

还有很多缺失的可能是游戏内已经实际上删除了对应的语音,但是reference还在里面。

新的resultv32.json已经上传,可以看一下有没有什么问题
更新内容:

  1. 添加Fetters相关的text
  2. 添加DungeonReminder相关的text
  3. 对于Dialog条目,即使找不到对应的text也尝试添加对应的npcName
  4. 尝试区分空/荧而不是使用旅行者
  5. 修复了一点由于游戏中多余的错误数据导致的错误条目 (如VO_AQ\VO_CS\vo_OP_CS_kiana_01.wem)

merge 的我理解是 v31 和 v32 版本的合并去重对吧?

提供一个 使用ModelScope生成带CMU音素标注的美式英文数据1男1女 ,跟原神数据混合训练可以得到中英混读模型

https://gist.github.com/Jackiexiao/b2193b2390eeab2366cfe7488884a74d

ps: 有些数据是双声道的音频,使用的时候需要注意

commented

大佬你好,期待更新3.4版本,非常感谢~

@w4123 请问下,大部分音频数据的最后1s有缺失,有一种仓促结束,突然被截断的感觉,这样训练出来的模型尾音很奇怪很像方言。请问下您有没有什么好的建议?
可以确定不是您数据集的问题,我自己扒出来的原始音频也是这样

commented

@w4123 请问下,大部分音频数据的最后1s有缺失,有一种仓促结束,突然被截断的感觉,这样训练出来的模型尾音很奇怪很像方言。请问下您有没有什么好的建议? 可以确定不是您数据集的问题,我自己扒出来的原始音频也是这样

事实上数据的最后一点都是完整的,但是我明白你的意思。在部分播放器(比如Windows默认的)上,这些文件会听起来有一种戛然而止,缺失的感觉,我认为是这些播放器没有正确解码和播放最后一个buffer导致的(只是猜测,没有实际测试过)。你可以换一个播放器尝试,我自己尝试的话使用VLC等就能够完整正确的播放而没有突然结束的感觉。对于训练来说这应该不是问题,因为文件本身是完整的。如果你担心会有问题,你可以训练的时候把读入的文件数组后面手动加一些0。你也可以用特殊的符号代表语音中的停顿来进行训练以实现可以手动控制停顿等更复杂的功能。

感谢您的用心回答,我换了个播放器确实就没这个问题了,说明音频文件是好的。。。那我就需要找找看为什么模型训练出来的语调有点奇怪了,我目前用全量音频跑了100个epoch,并且看loss也不太下降了,现在的语调像是日本人念中文。。。感觉可能是派蒙的音频占比太高导致的,我把其他角色的语音上采样再试试看

提供一个 使用ModelScope生成带CMU音素标注的美式英文数据1男1女 ,跟原神数据混合训练可以得到中英混读模型

https://gist.github.com/Jackiexiao/b2193b2390eeab2366cfe7488884a74d

您好,请问下如果训练中英混读模型,是需要单独处理cleaner吗? 如果是inference的句子中英混合,是需要拆分后分clean之后再拼起来,然后生成音频是吗

@moxiegushi 要改cleaner, 你用ModelScope的TTS前端 生成 拼音&CMU音素就行,无论是推理还是训练