斩获四项第一,华为翻译团队最新语音到语音同传技术大揭秘!
01
任务说明
国际口语机器翻译比赛(International Conference on Spoken Language Translation ,简称IWSLT)是国际上最具影响力的口语机器翻译比赛之一,聚焦于语音翻译领域热点问题和应用难题,通过每年设定一些研究任务,并向外界提供公开的数据集,吸引全球各地的科研团队参与比赛,以此推动语音翻译技术创新和知识共享。本届IWSLT共设置了7个任务,分别是同步语音到文本翻译(同声传译)、离线语音到文本翻译(离线语音翻译)、低资源语音到文本翻译、语音到语音翻译、方言语音翻译、等长口语翻译和口语风格翻译。其中,华为翻译在语音到语音翻译、离线语音翻译和等长口语翻译三个任务上共获得四个语言方向的第一。语音到语音翻译任务是将一段一种语言的音频信号自动翻译成另一种语言的音频信号。该任务是在本届IWSLT首次提出,并只设置了英-德语言方向。该任务采用两种评估方式,自动评估和人工评估。其中,自动评估是将各团队提交的语音结果再使用一个ASR系统转录成文本,然后计算转录文本和真实文本之间的BLEU和chrF;人工评估是对各团队提交的语音结果的翻译质量(Translation Quality)进行人工评测。最终排名以人工评估结果为主。下图展示了“语音到语音翻译”任务的评测结果。可以看到,华为翻译提交的结果,以显著的优势获得第一,翻译质量远高于其他系统。并且,在自动评估的结果中,华为系统的chrF指标也是第一。
注:HW-TSC:华为翻译(华为文本机器翻译实验室+华为诺亚语音语义实验室联队);MLLP-VRAIN:西班牙瓦伦西亚理工大学(Universidad Politécnica de València);UPC:西班牙加泰罗尼亚理工大学离线语音到文本翻译任务(以下简称为离线语音翻译)是将输入的一段音频信号自动翻译成另一种语言的文本,此类翻译任务对翻译延时无严格要求。业界一般采用BLEU作为离线语音翻译质量的评价指标,BLEU值越高表示翻译出的文本质量越好。下图展示了2022年IWSLT“离线语音翻译英-日方向”不同参赛团队的BLEU值得分情况。其中,华为翻译(HW-TSC)的BLEU值得分最高,超第二名1.1分,翻译质量远高于其他系统。
注:HW-TSC:华为翻译(华为文本机器翻译实验室+华为诺亚语音语义实验室联队);USTC-NELSLIP:科大讯飞与中科大语音国家工程实验室联合团队;YI:YiTrans团队;KIT:德国卡尔斯鲁厄理工学院;UPC:西班牙加泰罗尼亚理工大学;ALEXA AI:亚马逊Alexa AI组等长口语翻译任务是指在保证翻译质量的前提下,尽可能生成与原文长度一致的译文。该任务从翻译流畅度(Smoothness)和长度合规性(LC)两个维度对各系统提交的结果进行人工评测并给出排名,Smoothness越高表示翻译的文本质量越好, LC越高表示译文与原文的长度一致性越高。等长翻译有广泛的现实应用,可以改善自动配音、字幕观影等体验。下图展示了“等长口语翻译英-法方向&英-西方向”赛道的评测结果。在受限任务上,华为翻译提交的结果在英法和英西两个方向上都超过其他系统,均为第一。并且,在长度合规性维度,华为系统的LC指标大幅度领先其他系统。
注:STRONGBASELINE:非受限数据下的官方强基线;WEAKBASELINE:受限数据下的官方弱基线;HW-TSC:华为翻译(华为文本机器翻译实验室+华为诺亚语音语义实验室联队);APV:APV-team;NUV:Navrachana University,印度巴罗达的大学在所有比赛任务中,又以“语音到语音翻译”任务最为引人注目。下文将详细介绍华为翻译团队在该任务上的技术细节。02技术解读语音到语音翻译领域存在两种主流的技术路线:一种是端到端技术方案,即直接从源语音音频到目标音频的生成即使用一个模型S2ST直接将源语音音频翻译成目标音频;另一种是级联的技术方案,即先从源语音音频经过一个ASR模型识别为源文本,再将源文本送入MT模型翻译生成目标文体,最后将目标文本由TTS模型生成目标音频。目前工业界语音到语音翻译(S2ST)系统以级联技术方案为主。
1.端到端技术方案Translatotron是学术界提出的首个端到端语音翻译模型。该模型基于Seq2Seq网络架构,将源声谱图(Spectrograms )作为输入,生成目标语言的翻译内容的声谱图。
图片来源:https://arxiv.org/pdf/1904.06037.pdfTranslatotron额外训练了两个独立的组件:一个Speaker Encoder,可用于在合成翻译语音中保持源语音的声音特征;另一个是Vocoder,可以将输出声谱转化为时间域波形。通过结Speaker Encoder,Translatotron的输出保留了原说话者的声音特征,这使得翻译的语音听起来更自然。整体结构如下图所示。
图片来源:https://arxiv.org/pdf/1904.06037.pdf端到端的模型相比级联系统有以下一些优势:推理速度快、自然地避免了识别和翻译之间的复合错误,能够在翻译后保留原说话者的声音特征,以及能够更好地处理不需要翻译的单词。端到端的解决方案目前是学术界中的研究热点,比如Translatotron 2.0,UWSpeech等。华为翻译也基于Translatotron 2.0做了一些实验性质的探究和改进。但是在实验对比中,华为翻译发现级联的技术方案在质量表现上更优。2. 级联技术方案在本次比赛中,华为翻译最终提交的结果采用的是级联语音翻译技术方案,即分别独立的训练ASR模型、MT模型和TTS模型。下面将详细介绍我们的技术方案。
①技术点一:Domain controlled ASR Decoding
众所周知,通过海量训练数据和大模型,可以很好提升ASR模型的性能。但是,训练和测试数据之间可能会因录音设备、环境的不同差异以及讲述的内容有着相似却不匹配的分布,导致 ASR 模型测试时的识别精度下降。针对这个问题,华为翻译提出Domain Controlled Training & Decoding的策略,即添加Domain Tag标签作为Prefix Token,引导模型解码出具有Domain风格的文本。例如,标签会引导模型生成MuST-C风格的文本,而标签会引导模型生成LibriSpeech风格的文本。
下表是在各测试集上,有无Domain Tag下的ASR识别结果的WER值对比。可以看到,在各个测试集下,有Domain Tag引导下的解码结果,WER的值都更低,证明了该方法的有效性和通用性。
②技术点二:Context-aware MT Re-ranking
参考文档翻译中NoisyChannel Model的一些技术方案,华为翻译采用了类似的策略来改进长文本的翻译结果。华为翻译对解码过程和评分函数进行了一些简化,具体地说,是将上下文限制为一个滑动窗口,在固定的滑动窗口内对翻译结果使用LM重打分排序。整体的Context-aware Reranking方案如下。
③技术点三:Pre-trained TTS Re-produce
对于最终的语音生成,华为翻译采用的是VITS预训练语音合成模型。VITS含两个子系统:基于 VAE 的变声系统以及基于 Flow 的语音合成系统。其中,VAE 擅长捕捉句子整体的韵律特征,而 Flow 擅长重建音频的细节特征。VITS模型直接合成目标音频而不是 MEL 谱,实现真正意义的端到端语音合成,并且采用类似于GAN网络的对抗训练模式,有效的提高了合成音频质量。VITS的架构如下:
图片来源:https://arxiv.org/pdf/2106.06103.pdf
03产品落地华为文本机器翻译实验室隶属于华为2012实验室-研发能力中心-翻译中心,专注机器翻译的研究和落地。华为诺亚语音语义实验室隶属于华为2012实验室-中央研究院,致力于人工智能语音和自然语言处理的研究和创新。从统计机器翻译 (SMT) ,到神经网络机器翻译 (NMT) ,再到语音翻译 (SLT),我们始终扎根机器翻译技术,吸收宇宙能量,致力于为用户提供更好的翻译体验。我们提供的多语言翻译能力,已广泛应用在Harmony OS、HMS Core和华为云上。1.华为手机用户
作为华为手机用户,您的手机可以秒变翻译笔和翻译机,提供拍照翻译、全屏翻译、面对面同传翻译、Al字幕翻译等翻译功能。2. 非华为手机用户
如果您使用的手机不是华为手机,可以到各大应用市场搜索并下载“花瓣翻译官”。
3. 华为开发者
如果您是华为开发者,可以访问:https://developer.huawei.com/consumer/cn/hms/huawei-mlkit了解HMS Core MLKit提供的多语言翻译能力,并集成到您的应用中。4. 华为云用户
如果您是华为云用户,可以访问https://www.huaweicloud.com/product/nlpmt.html了解并订购华为云提供的多语言翻译能力。04参考文献[1] Findings of the IWSLT 2022 Evaluation Campaign. https://aclanthology.org/2022.iwslt-1.10v2.pdf
[2] The HW-TSC’s Speech to Speech Translation System for IWSLT 2022 Evaluation. https://aclanthology.org/2022.iwslt-1.26.pdf
[3] The HW-TSC’s Offline Speech Translation System for IWSLT 2022 Evaluation. https://aclanthology.org/2022.iwslt-1.20.pdf
[4] The hw-tsc’s offline speech translation systems for IWSLT 2021 evaluation. https://arxiv.org/abs/2108.03845
[5] Direct speech-to-speech translation with a sequence-to-sequence model. https://arxiv.org/pdf/1904.06037.pdf
[6] Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech. https://arxiv.org/abs/2106.06103
[7] ESPnet2-TTS: Extending the Edge of TTS Research. https://arxiv.org/abs/2110.07840
[8] YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone. https://arxiv.org/abs/2112.02418
[9] Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis. http://proceedings.mlr.press/v80/wang18h/wang18h.pdf
[10] Hierarchical Generative Modeling for Controllable Speech Synthesis. https://arxiv.org/abs/1810.07217
[11] Conditional End-to-End Audio Transforms. https://arxiv.org/abs/1804.00047
[12] MuST-C: a Multilingual Speech Translation Corpus. https://aclanthology.org/N19-1202/
[13] CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus. https://arxiv.org/abs/2002.01320
[14] TED-LIUM 3: Twice as Much Data and Corpus Repartition for Experiments on Speaker Adaptation. https://arxiv.org/pdf/1805.04699.pdf
今天的分享就到这里,谢谢大家。
你也「在看」吗???
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。 项目经理在线