免费

AudioGPT:理解和生成语音、音乐、声音和说话

AudioGPT,一种多模态AI系统,将ChatGPT与音频基础模型相结合,以处理复杂的音频信息和支持口头对话,在多轮对话中展现出强大的音频理解和生成能力,使用户可以轻松地创建丰富多样的音频内容。

此外,AudioGPT 对不同说话人和噪声环境也比较鲁棒。 AudioGPT 通过将transformer语言模型与音频模型结合,实现了聊天机器人的语音交互功能。 它打通了语言和音频的鸿沟,使聊天机器人的能力更加丰富多样。 AudioGPT 为开发多模态语言模型提供了有价值的设计理念和框架。

音频转换

任务 支持的基础模型 地位
文字转语音 FastSpeech、SyntaSpeech、VITS 是 (WIP)
风格转换 通用语音 是的
语音识别 耳语,塑形者 是的
语音增强 ConvTasNet(转化塔斯网) 是 (WIP)
语音分离 TF-网格网 是 (WIP)
语音翻译 多解码器 在制品
单声道到双耳 神经翘曲 是的

音乐生成

任务 支持的基础模型 地位
Text-to-Sing(文本到唱歌) DiffSinger,VISinger 是 (WIP)

音频处理

任务 支持的基础模型 地位
文本到音频 Make-An-Audio(音频制作) 是的
音频修复 Make-An-Audio(音频制作) 是的
图像到音频 Make-An-Audio(音频制作) 是的
声音检测 音频变压器 是的
目标声音检测 TSDNet的 是的
声音提取 LASSNet(拉斯网络) 是的

相关地址

项目:https://github.com/AIGC-Audio/AudioGPT

演示:https://huggingface.co/spaces/AIGC-Audio/AudioGPT

论文:https://arxiv.org/abs/2304.12995