AudioGPT：理解和生成语音、音乐、声音和说话

AudioGPT，一种多模态AI系统，将ChatGPT与音频基础模型相结合，以处理复杂的音频信息和支持口头对话，在多轮对话中展现出强大的音频理解和生成能力，使用户可以轻松地创建丰富多样的音频内容。

此外,AudioGPT 对不同说话人和噪声环境也比较鲁棒。 AudioGPT 通过将transformer语言模型与音频模型结合,实现了聊天机器人的语音交互功能。它打通了语言和音频的鸿沟,使聊天机器人的能力更加丰富多样。 AudioGPT 为开发多模态语言模型提供了有价值的设计理念和框架。

任务	支持的基础模型	地位
文字转语音	FastSpeech、SyntaSpeech、VITS	是（WIP）
风格转换	通用语音	是的
语音识别	耳语，塑形者	是的
语音增强	ConvTasNet（转化塔斯网）	是（WIP）
语音分离	TF-网格网	是（WIP）
语音翻译	多解码器	在制品
单声道到双耳	神经翘曲	是的

任务	支持的基础模型	地位
Text-to-Sing（文本到唱歌）	DiffSinger，VISinger	是（WIP）