🤖本仓库致力于实现一款能用于对话的智能机器人

⏲️2021.11.all

🚀借助讯飞开放平台音频识别，文字翻译技术

🌉借助腾讯云音频合成与聊天机器人

🎯Audio2Audio文件夹中包含语音相关的所有功能

:microphone:录音功能getAudio.py

:bread:语音转文字main.py（融合了其他功能作为主函数）

:smile_cat:中文转英文CHN2Eng.py

:smiling_imp:文字聊天机器人text2text.py

:cat2:通过文字合成音频text2Audio.py

合成结果为Audio2Audio/temp.wav

⏲️2021.12.14

🍦wav2lip模型能够将一段视频和一段音频进行匹配，从而使图片中的人物达到张嘴的效果。

:a:wav2lip/tests文件夹中存储用于合成的音频和视频

:b:wav2lip/results中存储合成结果

🐔log中为运行记录

👐舍弃了腾讯云音频合成技术

🐰原因：实践过程中发现，wav2lip模型在音频为人声时匹配效果较好，使用腾讯云TTS技术生成的语音时，嘴唇匹配效果欠佳。考虑腾讯云合成语音与人声有一定差距

🐯改进：Real-Time-Voice-Cloning-master模型的输入为一个几秒钟的音频文件和一段文字，输出为利用该人声说出该段文字的语音

🏃过程中遇到的问题：

😄结果：使用该模型合成的语音作为wav2lip的音频输入效果较好，同直接利用人声输入差别不大

😁检查所有功能，实现一键运行

😢在Real-Time-Voice-Cloning-master/demo_cli.py中可修改音频克隆原始声音和文字

🐩配置完成后运行Audio2Audio/main.py即可实现所有功能

🐶requirements中使用conda + pip，若无法直接安装，可查看各文件夹内requirements文件进行环境配置