2021-01-03_PyTorch+Kaldi、专注E2E语音识别，腾讯AI Lab开源轻量级语音处理工具包PIKA-行业资讯-网站开发软件制作-北京网站开发_Ui设计_软件开发_YOLO_3D高斯_云服务器购买浙江网站建设-浙江网站开发|浙江网站制作|浙江网络公司-网络科技有限公司--北京网站开发_Ui设计_软件开发_YOLO_3D高斯_云服务器购买浙江网站建设-浙江网站开发|浙江网站制作|浙江网络公司-网络科技有限公司-

PyTorch+Kaldi、专注E2E语音识别，腾讯AI Lab开源轻量级语音处理工具包PIKA 机器之心报道作者：魔王、杜伟 PyTorch + Kaldi，腾讯 AI Lab 开源轻量级语音处理工具包 PIKA，专注于端到端语音识别任务。 Kaldi 是一个开源的语音识别系统，由 Daniel Povey 主导开发，在很多语音识别测试和应用中广泛使用。但它依赖大量脚本语言，且核心算法是用 C++ 编写的，对声学模型的更新和代码调试带来一定难度。语音识别系统架构「Kaldi 之父」Daniel Povey 表示正在打造下一代 Kaldi。去年夏天在 WAIC 开发者日上，Daniel 分享了他对下一代 Kaldi 的期望，希望能够基于 PyTorch 甚至 TensorFlow 构建语义识别模型。学术界和业界也都在努力改进语音识别流程，加快技术迭代。此前，Yoshua Bengio 团队成员 Mirco Ravanelli 等人开发了一个新型开源框架——PyTorch-Kaldi，试图继承 Kaldi 的效率和 PyTorch 的灵活性，弥补 PyTorch 和 Kaldi 之间的鸿沟：在 PyTorch 中实现声学模型，在 Kaldi 中执行特征提取、标签 / 对齐计算和解码。近日，腾讯 AI Lab 开源了一个基于 PyTorch 和 (Py)Kaldi 的轻量级语音处理工具包 PIKA。PIKA 首个版本专注于端到端语音识别，开发团队以 PyTorch 作为深度学习引擎，使用 Kaldi 进行数据格式化和特征提取。项目地址：https://github.com/tencent-ailab/pika 具体而言，PIKA 具备以下特征：即时数据增强和特征加载器； TDNN Transformer 编码器，以及基于卷积和 Transformer 的解码器结构； RNNT 训练和批解码；利用 Ngram FST 的 RNNT 解码（即时重评分、aka 和 shallow fusion）； RNNT 最小贝叶斯风险（MBR）训练；用于 RNNT 的 LAS 前向与后向重评分器；基于高效 BMUF（块模型更新过滤）的分布式训练。安装和依赖 PIKA 开发团队推荐使用 Anaconda，因为它包含大多数的依赖项。其他主要依赖如下： PyTorch 用户可前往 PyTorch 官网自行安装，代码和脚本应能够在 PyTtorch 0.4.0 及以上版本运行。但为了确保与 RNNT 损失模块兼容，PIKA 开发团队推荐使用 PyTorch 1.0.0 以上版本。 Pykaldi 和 Kaldi 开发团队使用 Kaldi 和 PyKaldi（Kaldi 的 python 包装器）进行数据处理、特征提取和 FST 操作。用户可前往 Pykaldi 网站自行安装，为提升效率请确保使用 ninja 构建 Pykaldi。完成所有 pykaldi 安装流程后，Kaldi 和 Pykaldi 依赖项即准备完成。 CUDA-Warp RNN-Transducer 对于 RNNT 损失模块，开发者采用了 warp-rnnt（https://github.com/1ytic/warp-rnnt）项目中的 pytorch 绑定。使用方法在使用 PIKA 之前，我们需要先检查 egs 目录中的所有训练和解码脚本。数据准备和 RNNT 训练 egs/train_transducer_bmuf_otfaug.sh 包括数据准备和 RNNT 训练。用户需要准备训练数据并指定训练数据目录： #training data dir must contain wav.scp and label.txt files#wav.scp: standard kaldi wav.scp file, see https://kaldi-asr.org/doc/data_prep.html #label.txt: label text file, the format is, uttid sequence-of-integer, where integer# is one-based indexing mapped label, note that zero is reserved for blank, # ,eg., utt_id_1 3 5 7 10 23 train_data_dir= 继续 MBR 训练有了 RNNT 训练模型后，用户可以使用 egs/train_transducer_mbr_bmuf_otfaug.sh 继续 MBR 训练（假设使用的训练数据相同，则可以省略数据准备步骤）。用户需要确保指定初始模型： --verbose \--optim sgd \--init_model $exp_dir/init.model \--rnnt_scale 1.0 \--sm_scale 0.8 \ 训练 LAS 前向与后向重评分器用户可以利用 egs/train_las_rescorer_bmuf_otfaug.sh 为 RNNT 模型训练 LAS 前向与后向重评分器。LAS 重评分器将与 RNNT 模型共享编码器部分，并使用两层 LSTM 作为额外的编码器。用户需要确保指定编码器共享： --num_batches_per_epoch 526264 \--shared_encoder_model $exp_dir/final.model \--num_epochs 5 \ 该工具还支持双向 LAS 重评分，即前向与后向重评分。后向重评分（自右至左）通过训练 LAS 模型时反转序列标签来实现。通过以下代码，用户可以轻松执行 LAS 后向重评分训练： --reverse_labels 解码 egs/eval_transducer.sh 是主要的评估脚本，包含解码 pipeline。指定以下两个模型可以实现 LAS 前向与后向重评分： ##########configs##############rnn transducer modelrnnt_model=#forward and backward las rescorer modellasrescorer_fw=lasrescorer_bw= PIKA 工具包中的所有训练和解码超参数都基于大规模训练和内部评估数据。用户可能需要调参以获得最优性能。此外，WER (CER) 评分脚本基于中文普通话任务，处理不同语言的用户可以重写评分脚本。 ?THE END 转载请联系本公众号获得授权投稿或寻求报道：content@jiqizhixin.com

上一篇：2023-04-10_你要的对象，宜家都承包了

下一篇：2019-03-12_【乘用车广告】2019年乘用车全媒体广告投放以负增长9%开局

TAG标签：

网站开发网络凭借多年的网站建设经验，坚持以“帮助中小企业实现网络营销化”为宗旨，累计为4000多家客户提供品质建站服务，得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线：13245491521 13245491521 ，我们会详细为你一一解答你心中的疑难。项目经理在线

13245491521

与我们取得联系