AudioGPT,一种多模态AI系统,将ChatGPT与音频基础模型相结合,以处理复杂的音频信息和支持口头对话,在多轮对话中展现出强大的音频理解和生成能力,使用户可以轻松地创建丰富多样的音频内容。
此外,AudioGPT 对不同说话人和噪声环境也比较鲁棒。 AudioGPT 通过将transformer语言模型与音频模型结合,实现了聊天机器人的语音交互功能。 它打通了语言和音频的鸿沟,使聊天机器人的能力更加丰富多样。 AudioGPT 为开发多模态语言模型提供了有价值的设计理念和框架。
音频转换
| 任务 | 支持的基础模型 | 地位 |
|---|---|---|
| 文字转语音 | FastSpeech、SyntaSpeech、VITS | 是 (WIP) |
| 风格转换 | 通用语音 | 是的 |
| 语音识别 | 耳语,塑形者 | 是的 |
| 语音增强 | ConvTasNet(转化塔斯网) | 是 (WIP) |
| 语音分离 | TF-网格网 | 是 (WIP) |
| 语音翻译 | 多解码器 | 在制品 |
| 单声道到双耳 | 神经翘曲 | 是的 |
音乐生成
| 任务 | 支持的基础模型 | 地位 |
|---|---|---|
| Text-to-Sing(文本到唱歌) | DiffSinger,VISinger | 是 (WIP) |
音频处理
| 任务 | 支持的基础模型 | 地位 |
|---|---|---|
| 文本到音频 | Make-An-Audio(音频制作) | 是的 |
| 音频修复 | Make-An-Audio(音频制作) | 是的 |
| 图像到音频 | Make-An-Audio(音频制作) | 是的 |
| 声音检测 | 音频变压器 | 是的 |
| 目标声音检测 | TSDNet的 | 是的 |
| 声音提取 | LASSNet(拉斯网络) | 是的 |
相关地址
项目:https://github.com/AIGC-Audio/AudioGPT



