ShiyuNee / AI-Practice

人工智能实践应用项目仓库

Geek Repo:Geek Repo

Github PK Tool:Github PK Tool

🤖本仓库致力于实现一款能用于对话的智能机器人

⏲️2021.11.all

🚀借助讯飞开放平台音频识别,文字翻译技术

🌉借助腾讯云音频合成与聊天机器人

🎯Audio2Audio文件夹中包含语音相关的所有功能

​ :microphone:录音功能getAudio.py

​ :bread:语音转文字main.py(融合了其他功能作为主函数)

​ :smile_cat:中文转英文CHN2Eng.py

​ :smiling_imp:文字聊天机器人text2text.py

​ :cat2:通过文字合成音频text2Audio.py

合成结果为Audio2Audio/temp.wav

⏲️2021.12.14

✋增加了wav2lip模型Rudrabha/Wav2Lip: This repository contains the codes of "A Lip Sync Expert Is All You Need for Speech to Lip Generation In the Wild", published at ACM Multimedia 2020. (github.com)

🍦wav2lip模型能够将一段视频和一段音频进行匹配,从而使图片中的人物达到张嘴的效果。

​ :a:wav2lip/​tests文件夹中存储用于合成的音频和视频

​ :b:wav2lip/results中存储合成结果

🐔log中为运行记录

⏲️ 2021.12.19

👐舍弃了腾讯云音频合成技术

✋增加了 Real-Time-Voice-Cloning-master模型CorentinJ/Real-Time-Voice-Cloning: Clone a voice in 5 seconds to generate arbitrary speech in real-time (github.com)

🐰原因:实践过程中发现,wav2lip模型在音频为人声时匹配效果较好,使用腾讯云TTS技术生成的语音时,嘴唇匹配效果欠佳。考虑腾讯云合成语音与人声有一定差距

🐯改进:Real-Time-Voice-Cloning-master模型的输入为一个几秒钟的音频文件和一段文字,输出为利用该人声说出该段文字的语音

🏃过程中遇到的问题:

😄结果:使用该模型合成的语音作为wav2lip的音频输入效果较好,同直接利用人声输入差别不大

⏲️2021.12.21

😁检查所有功能,实现一键运行

😢在Real-Time-Voice-Cloning-master/demo_cli.py中可修改音频克隆原始声音和文字

🐩配置完成后运行Audio2Audio/main.py即可实现所有功能

🐶requirements中使用conda + pip,若无法直接安装,可查看各文件夹内requirements文件进行环境配置

About

人工智能实践应用项目仓库


Languages

Language:Python 68.8%Language:HTML 24.0%Language:C 4.7%Language:C++ 2.1%Language:CSS 0.3%Language:Shell 0.0%