fishaudio / fish-speech

Brand new TTS solution

Home Page:https://speech.fish.audio

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

[BUG] 1.0版本仍有非常严重的缺字问题

aixiaodewugege opened this issue · comments

input text
作者使用了LPIPS等指标来评估渲染图像的质量。其中,PSNR用于量化像素颜色误差,SSIM用于衡量渲染图像与真实图像的感知相似性,而LPIPS则用于衡量更高层次的感知相似性。
image

吞字母是么, 目前得在英文字母旁边手动加入空格, 不然有概率吞. 未来会在数据上优化.

好的,请问fishspeech demo网站用的哪个模型?感觉效果更好一些

用的 medium sft

@leng-yue 感谢,还想请教一下,如果我要用1小时的数据微调的话,是在pretrain还是sft基础上?

此外,我发现在没有英文的情况下也存在比较严重的吞字问题。。
text:目前,英特尔已经与 150 多家产业伙伴,推出以数据为中心的软、硬一体解决方案,为零售、工业、交通、金融、医疗、能源、教育等众多垂直领域,基于行业需求,从云到端布局算力产品组合。因此完整产业链的建立,对英特尔和其合作伙伴业务的开展至关重要。在设计生产产品的时候,英特尔不光要向这些产业伙伴提供处理器和芯片组,往往还要提供许多其他外设,比如机械转轴、电源管理、摄像头模组、音频解决方案等。“英特尔除了核心的处理器技术需要对他们沟通支持之外,我们还要在这些方面对他们进行一些全方位的技术支持。我们把这些客户称为 CTE(生态链合作伙伴)客户”宗晔说到。

微调是在 sft 基础上. 我测了几次这个文本, 只有 150 这里漏了. 能否提供下详细的推理参数?

我使用的是默认参数,在 huggingface demo page 上推理的

结果如下:
https://github.com/aixiaodewugege/temp/blob/main/audio1.wav

感觉是概率问题, 我重新生成没有丢失 英特尔除了核心的处理器技术需要对他们沟通支持之外. 看看后面 dpo 能否改善.

ok,还想请教下,finetune的时候 gan和llama有先后顺序吗?

没有

微调的llama微调时候,不是要用 用gan提取语义 token吗?如果这俩都想微调的话,是不是要用微调之后的gan来提取?

不用, 微调会锁定 encoder 部分