[BUG] 1.0版本仍有非常严重的缺字问题

Question

[BUG] 1.0版本仍有非常严重的缺字问题

aixiaodewugege opened this issue a month ago · comments

shuchen.wu commented a month ago

input text
作者使用了LPIPS等指标来评估渲染图像的质量。其中，PSNR用于量化像素颜色误差，SSIM用于衡量渲染图像与真实图像的感知相似性，而LPIPS则用于衡量更高层次的感知相似性。

Leng Yue commented a month ago

没有

Leng Yue · Answer 1 · Sun May 05 2024 16:46:41 GMT+0800 (China Standard Time)

吞字母是么, 目前得在英文字母旁边手动加入空格, 不然有概率吞. 未来会在数据上优化.

shuchen.wu · Answer 2 · Sun May 05 2024 20:26:24 GMT+0800 (China Standard Time)

好的，请问fishspeech demo网站用的哪个模型？感觉效果更好一些

Leng Yue · Answer 3 · Mon May 06 2024 08:51:22 GMT+0800 (China Standard Time)

用的 medium sft

shuchen.wu · Answer 4 · Mon May 06 2024 16:22:13 GMT+0800 (China Standard Time)

@leng-yue 感谢，还想请教一下，如果我要用1小时的数据微调的话，是在pretrain还是sft基础上？

此外，我发现在没有英文的情况下也存在比较严重的吞字问题。。
text：目前，英特尔已经与 150 多家产业伙伴，推出以数据为中心的软、硬一体解决方案，为零售、工业、交通、金融、医疗、能源、教育等众多垂直领域，基于行业需求，从云到端布局算力产品组合。因此完整产业链的建立，对英特尔和其合作伙伴业务的开展至关重要。在设计生产产品的时候，英特尔不光要向这些产业伙伴提供处理器和芯片组，往往还要提供许多其他外设，比如机械转轴、电源管理、摄像头模组、音频解决方案等。“英特尔除了核心的处理器技术需要对他们沟通支持之外，我们还要在这些方面对他们进行一些全方位的技术支持。我们把这些客户称为 CTE（生态链合作伙伴）客户”宗晔说到。

Leng Yue · Answer 5 · Tue May 07 2024 09:07:34 GMT+0800 (China Standard Time)

微调是在 sft 基础上. 我测了几次这个文本, 只有 150 这里漏了. 能否提供下详细的推理参数?

shuchen.wu · Answer 6 · Tue May 07 2024 11:02:10 GMT+0800 (China Standard Time)

我使用的是默认参数,在 huggingface demo page 上推理的

结果如下：
https://github.com/aixiaodewugege/temp/blob/main/audio1.wav

Leng Yue · Answer 7 · Tue May 07 2024 16:49:44 GMT+0800 (China Standard Time)

感觉是概率问题, 我重新生成没有丢失 英特尔除了核心的处理器技术需要对他们沟通支持之外. 看看后面 dpo 能否改善.

shuchen.wu · Answer 8 · Wed May 08 2024 16:51:18 GMT+0800 (China Standard Time)

ok，还想请教下，finetune的时候 gan和llama有先后顺序吗？

shuchen.wu · Answer 9 · Fri May 10 2024 14:09:50 GMT+0800 (China Standard Time)

微调的llama微调时候，不是要用用gan提取语义 token吗？如果这俩都想微调的话，是不是要用微调之后的gan来提取？

Leng Yue · Answer 10 · Fri May 10 2024 14:26:21 GMT+0800 (China Standard Time)

不用, 微调会锁定 encoder 部分