免费

Whisper: 确率最高的通用语言语音识别

Whisper是 OpenAI 2022年发布的一款语音预训练大模型,集成了多语种ASR、语音翻译、语种识别的功能。它在网络上收集了680,000小时的多语种和多任务监督数据进行训练,使得它可以将多种语言的音频转文字。

不同于Wav2Vec等使用无监督方法训练的预训练语音大模型,Whisper使用弱监督训练的方法,可以直接进行多任务的学习,而不需要针对特定任务的finetune。下面从数据、模型、测试效果等几个方面尽可能全面的介绍一下Whisper

Whisper的好处是开源免费、支持多语种(包括中文),有不同模型可供选择,最终的效果比市面上很多音频转文字的效果都要好

相关地址

GitHub: https://github.com/openai/whisper

论文地址: https://arxiv.org/pdf/2212.04356v1.pdf

chatgpt: http://chat.menganhealth.cn/