AudioGPT,一种多模态AI系统,将ChatGPT与音频基础模型相结合,以处理复杂的音频信息和支持口头对话,在多轮对话中展现出强大的音频理解和生成能力,使用户可以轻松地创建丰富多样的音频内容。
此外,AudioGPT 对不同说话人和噪声环境也比较鲁棒。 AudioGPT 通过将transformer语言模型与音频模型结合,实现了聊天机器人的语音交互功能。 它打通了语言和音频的鸿沟,使聊天机器人的能力更加丰富多样。 AudioGPT 为开发多模态语言模型提供了有价值的设计理念和框架。
音频转换
任务 | 支持的基础模型 | 地位 |
---|---|---|
文字转语音 | FastSpeech、SyntaSpeech、VITS | 是 (WIP) |
风格转换 | 通用语音 | 是的 |
语音识别 | 耳语,塑形者 | 是的 |
语音增强 | ConvTasNet(转化塔斯网) | 是 (WIP) |
语音分离 | TF-网格网 | 是 (WIP) |
语音翻译 | 多解码器 | 在制品 |
单声道到双耳 | 神经翘曲 | 是的 |
音乐生成
任务 | 支持的基础模型 | 地位 |
---|---|---|
Text-to-Sing(文本到唱歌) | DiffSinger,VISinger | 是 (WIP) |
音频处理
任务 | 支持的基础模型 | 地位 |
---|---|---|
文本到音频 | Make-An-Audio(音频制作) | 是的 |
音频修复 | Make-An-Audio(音频制作) | 是的 |
图像到音频 | Make-An-Audio(音频制作) | 是的 |
声音检测 | 音频变压器 | 是的 |
目标声音检测 | TSDNet的 | 是的 |
声音提取 | LASSNet(拉斯网络) | 是的 |
相关地址
项目:https://github.com/AIGC-Audio/AudioGPT
演示:https://huggingface.co/spaces/AIGC-Audio/AudioGPT
论文:https://arxiv.org/abs/2304.12995