全国免费咨询:

13245491521

VR图标白色 VR图标黑色
X

中高端软件定制开发服务商

与我们取得联系

13245491521     13245491521

2021-01-03_PyTorch+Kaldi、专注E2E语音识别,腾讯AI Lab开源轻量级语音处理工具包PIKA

您的位置:首页 >> 新闻 >> 行业资讯

PyTorch+Kaldi、专注E2E语音识别,腾讯AI Lab开源轻量级语音处理工具包PIKA 机器之心报道 作者:魔王、杜伟 PyTorch + Kaldi,腾讯 AI Lab 开源轻量级语音处理工具包 PIKA,专注于端到端语音识别任务。 Kaldi 是一个开源的语音识别系统,由 Daniel Povey 主导开发,在很多语音识别测试和应用中广泛使用。但它依赖大量脚本语言,且核心算法是用 C++ 编写的,对声学模型的更新和代码调试带来一定难度。 语音识别系统架构 「Kaldi 之父」Daniel Povey 表示正在打造下一代 Kaldi。去年夏天在 WAIC 开发者日上,Daniel 分享了他对下一代 Kaldi 的期望,希望能够基于 PyTorch 甚至 TensorFlow 构建语义识别模型。 学术界和业界也都在努力改进语音识别流程,加快技术迭代。此前,Yoshua Bengio 团队成员 Mirco Ravanelli 等人开发了一个新型开源框架——PyTorch-Kaldi,试图继承 Kaldi 的效率和 PyTorch 的灵活性,弥补 PyTorch 和 Kaldi 之间的鸿沟:在 PyTorch 中实现声学模型,在 Kaldi 中执行特征提取、标签 / 对齐计算和解码。 近日,腾讯 AI Lab 开源了一个基于 PyTorch 和 (Py)Kaldi 的轻量级语音处理工具包 PIKA。PIKA 首个版本专注于端到端语音识别,开发团队以 PyTorch 作为深度学习引擎,使用 Kaldi 进行数据格式化和特征提取。 项目地址:https://github.com/tencent-ailab/pika 具体而言,PIKA 具备以下特征: 即时数据增强和特征加载器; TDNN Transformer 编码器,以及基于卷积和 Transformer 的解码器结构; RNNT 训练和批解码; 利用 Ngram FST 的 RNNT 解码(即时重评分、aka 和 shallow fusion); RNNT 最小贝叶斯风险(MBR)训练; 用于 RNNT 的 LAS 前向与后向重评分器; 基于高效 BMUF(块模型更新过滤)的分布式训练。 安装和依赖 PIKA 开发团队推荐使用 Anaconda,因为它包含大多数的依赖项。其他主要依赖如下: PyTorch 用户可前往 PyTorch 官网自行安装,代码和脚本应能够在 PyTtorch 0.4.0 及以上版本运行。但为了确保与 RNNT 损失模块兼容,PIKA 开发团队推荐使用 PyTorch 1.0.0 以上版本。 Pykaldi 和 Kaldi 开发团队使用 Kaldi 和 PyKaldi(Kaldi 的 python 包装器)进行数据处理、特征提取和 FST 操作。用户可前往 Pykaldi 网站自行安装,为提升效率请确保使用 ninja 构建 Pykaldi。完成所有 pykaldi 安装流程后,Kaldi 和 Pykaldi 依赖项即准备完成。 CUDA-Warp RNN-Transducer 对于 RNNT 损失模块,开发者采用了 warp-rnnt(https://github.com/1ytic/warp-rnnt)项目中的 pytorch 绑定。 使用方法 在使用 PIKA 之前,我们需要先检查 egs 目录中的所有训练和解码脚本。 数据准备和 RNNT 训练 egs/train_transducer_bmuf_otfaug.sh 包括数据准备和 RNNT 训练。用户需要准备训练数据并指定训练数据目录: #training data dir must contain wav.scp and label.txt files#wav.scp: standard kaldi wav.scp file, see https://kaldi-asr.org/doc/data_prep.html #label.txt: label text file, the format is, uttid sequence-of-integer, where integer# is one-based indexing mapped label, note that zero is reserved for blank, # ,eg., utt_id_1 3 5 7 10 23 train_data_dir= 继续 MBR 训练 有了 RNNT 训练模型后,用户可以使用 egs/train_transducer_mbr_bmuf_otfaug.sh 继续 MBR 训练(假设使用的训练数据相同,则可以省略数据准备步骤)。用户需要确保指定初始模型: --verbose \--optim sgd \--init_model $exp_dir/init.model \--rnnt_scale 1.0 \--sm_scale 0.8 \ 训练 LAS 前向与后向重评分器 用户可以利用 egs/train_las_rescorer_bmuf_otfaug.sh 为 RNNT 模型训练 LAS 前向与后向重评分器。LAS 重评分器将与 RNNT 模型共享编码器部分,并使用两层 LSTM 作为额外的编码器。用户需要确保指定编码器共享: --num_batches_per_epoch 526264 \--shared_encoder_model $exp_dir/final.model \--num_epochs 5 \ 该工具还支持双向 LAS 重评分,即前向与后向重评分。后向重评分(自右至左)通过训练 LAS 模型时反转序列标签来实现。通过以下代码,用户可以轻松执行 LAS 后向重评分训练: --reverse_labels 解码 egs/eval_transducer.sh 是主要的评估脚本,包含解码 pipeline。指定以下两个模型可以实现 LAS 前向与后向重评分: ##########configs##############rnn transducer modelrnnt_model=#forward and backward las rescorer modellasrescorer_fw=lasrescorer_bw= PIKA 工具包中的所有训练和解码超参数都基于大规模训练和内部评估数据。用户可能需要调参以获得最优性能。此外,WER (CER) 评分脚本基于中文普通话任务,处理不同语言的用户可以重写评分脚本。 ?THE END 转载请联系本公众号获得授权 投稿或寻求报道:content@jiqizhixin.com

上一篇:2023-04-10_你要的对象,宜家都承包了 下一篇:2019-03-12_【乘用车广告】2019年乘用车全媒体广告投放以负增长9%开局

TAG标签:

21
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设网站改版域名注册主机空间手机网站建设网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。
项目经理在线

相关阅读 更多>>

猜您喜欢更多>>

我们已经准备好了,你呢?
2022我们与您携手共赢,为您的企业营销保驾护航!

不达标就退款

高性价比建站

免费网站代备案

1对1原创设计服务

7×24小时售后支持

 

全国免费咨询:

13245491521

业务咨询:13245491521 / 13245491521

节假值班:13245491521()

联系地址:

Copyright © 2019-2025      ICP备案:沪ICP备19027192号-6 法律顾问:律师XXX支持

在线
客服

技术在线服务时间:9:00-20:00

在网站开发,您对接的直接是技术员,而非客服传话!

电话
咨询

13245491521
7*24小时客服热线

13245491521
项目经理手机

微信
咨询

加微信获取报价