全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2022-10-11_OpenAI 宣布开源多语言语音识别系统 Whisper,英文识别能力接近人类水平

您的位置:首页 >> 新闻 >> 行业资讯

OpenAI 宣布开源多语言语音识别系统 Whisper,英文识别能力接近人类水平 作者 | 刘燕 9 月 21 日,OpenAI 宣布,已经训练并开源了一个名为 Whisper 的神经网络,它在英语语音识别方面接近人类水平的鲁棒性和准确性。 Whisper 是一个自动语音识别 (ASR) 系统,它使用从网络上收集的 680,000 小时多语言和多任务监督数据进行训练。使用如此庞大且多样化的数据集可以提高对口音、背景噪音和技术语言的鲁棒性。此外,它还支持多种语言的转录,以及将这些语言翻译成英语。 OpenAI 开源了模型和推理代码,以作为构建有用应用程序和进一步研究稳健语音处理的基础。 查看论文:https://cdn.openai.com/papers/whisper.pdf 开源代码:https://github.com/openai/whisper 查看模型卡:https://github.com/openai/whisper/blob/main/model-card.md Whisper 架构是一种简单的端到端方法,实现为编码器 - 解码器 Transformer。输入音频被分成 30 秒的块,转换成 log-Mel 频谱图,然后传递到编码器。解码器被训练来预测相应的文本标题,并与特殊标记混合,这些标记指导单个模型执行诸如语言识别、短语级时间戳、多语言语音转录和英语语音翻译等任务。 其他现有的方法经常使用更小、更紧密配对的音频 - 文本训练数据集,或使用广泛但无监督的音频预训练。因为 Whisper 是在一个庞大而多样的数据集上训练的,没有针对任何特定数据进行微调,所以它无法击败专门研究 LibriSpeech 性能的模型,这是语音识别领域一个著名的竞争基准。然而,当我们在许多不同的数据集上测量 Whisper 的零样本性能时,我们发现它比那些模型更健壮,并且错误率降低了 50%。 Whisper 的音频数据集中大约有三分之一是非英语的,它被轮流分配任务,将原始语言转录或翻译成英语。并且优于 CoVoST2 到英语翻译零样本的监督 SOTA。 Whisper 的高精度和易用性能够让开发者将语音界面添加到更广泛的应用程序中。 你也「在看」吗? ??

上一篇:2021-12-23_甲骨文成立以来最大手笔:300亿美元收购Cerner进军医疗保健领域 下一篇:2022-11-30_智能化与低码化在兴盛优选的应用与实践

TAG标签:

15
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价