免费

Whisper: 确率最高的通用语言语音识别

2024年 4月 5日
AI研究所

阅读数：3234

智能翻译语音模型

Whisper是 OpenAI 2022年发布的一款语音预训练大模型，集成了多语种ASR、语音翻译、语种识别的功能。它在网络上收集了680,000小时的多语种和多任务监督数据进行训练，使得它可以将多种语言的音频转文字。

不同于Wav2Vec等使用无监督方法训练的预训练语音大模型，Whisper使用弱监督训练的方法，可以直接进行多任务的学习，而不需要针对特定任务的finetune。下面从数据、模型、测试效果等几个方面尽可能全面的介绍一下Whisper

Whisper的好处是开源免费、支持多语种（包括中文），有不同模型可供选择，最终的效果比市面上很多音频转文字的效果都要好。

相关地址

GitHub： https://github.com/openai/whisper

论文地址： https://arxiv.org/pdf/2212.04356v1.pdf

chatgpt： http://chat.menganhealth.cn/

Tags: 代码开发编程

You may also like...

发表回复取消回复

要发表评论，您必须先登录。

资源入口

前沿资讯

副业变现

本站声明