秦皇岛seo博主拥有多年seo,网络营销推广经验,曾服务于多家中大型企业,众多成功案例,可为您提供专业的网站seo,网络营销推广,网站建设等服务。点击这里给我发消息

谷歌揭秘自家翻译系统:如何利用AI技术提高翻译质量

交互体验 秦皇岛seo 988℃ 0评论

对于机器翻译来说,如果一种语言中有更多的文本材料可用,那么人工智能模型训练的翻译效果会更好。然而,并非所有的语言都有丰富的文本材料可供培训。因此,如何在缺乏数据的情况下培养更好的翻译人才成为机器翻译领域需要解决的问题之一。

最近,谷歌在其博客上推出了最新的翻译创新技术,改善了谷歌翻译的用户体验。目前,谷歌翻译可以支持108种语言,平均每天翻译1500亿字。

谷歌翻译首次出现在2006年。在过去的13年里,翻译水平有了很大的飞跃。谷歌表示,其翻译突破不是由单一技术推动的,而是一系列技术突破,如低资源语言、高资源语言、整体质量和推理速度。从2019年5月到2020年5月,根据人工评估和BLEU(基于翻译系统翻译和人工参考翻译之间的相似性度量),谷歌翻译在所有语言中平均增加了5分以上,在语料库资源最少的50种语言中平均增加了7分以上。

混合模型和数据挖掘器

在这一系列技术突破中,谷歌首先提到了混合模型和数据挖掘。

混合模型是指由变压器编码器和递归神经网络(RNN)解码器组成的模型。在机器翻译中,编码器通常将单词和短语编码为内部表示,而解码器将它们生成为所需的语言文本。谷歌研究人员在2017年首次表示,翻译质量的提高主要取决于编码器。谷歌团队表示,这可能是因为RNN和变形金刚被设计用来处理有序的数据序列,但变形金刚不需要按顺序处理序列。换句话说,如果所讨论的数据是自然语言,那么Transformer在处理结尾之前不需要处理句子的开头。

然而,RNN解码器在推理时间上仍然比变压器中的解码器“快得多”。谷歌翻译团队意识到了这一点,因此在将RNN解码器与Transformer编码器耦合之前,它优化了RNN解码器,以创建一个比以前使用的RNN神经机器翻译模型具有更低延迟、更好质量和稳定性的混合模型。

除了新颖的混合模型架构,谷歌还升级了爬虫工具,它可以从数百万个样本翻译中收集编译训练数据。升级后,谷歌嵌入了14个大的语言对,而不是简单地基于字典数据。也就是说,它使用实数向量来表示单词和短语,并且更注重准确性(检索数据中的相关数据)而不是检索(实际检索的相关数据的总量)。就输出效果而言,谷歌表示,数据挖掘器提取的句子数量平均增加了29%。

“嘈杂”数据与迁移学习

提高谷歌翻译性能的另一个技术突破来自于更好地处理训练数据中的“噪音”。“噪音”是指含有大量无法正确理解或解释的信息数据的噪音数据,从而破坏了语料库资源丰富的语言翻译。因此,谷歌翻译团队部署了一个系统,该系统使用一个经过训练的模型来给翻译范例打分,然后过滤掉“纯”数据。事实上,这些模型首先基于所有数据进行训练,然后逐渐基于更小更纯的数据子集。这种方法在人工智能研究领域被称为课程学习。

对于机器翻译,它传统上依赖于源语言和目标语言中成对句子的语料库统计。对于资源较少的语言,谷歌在谷歌翻译中采用了反向翻译机制来加强并行训练数据,即一种语言中的每个句子都与其翻译相匹配。该机制将训练数据和合成的并行数据自动对齐,目标文本为自然语言,源文本由神经翻译模型生成。因此,谷歌翻译充分利用单一语言中更丰富的数据来训练模型,谷歌声称这对于提高翻译流畅性特别有帮助。

此外,谷歌的翻译团队还建立了一个M4模型。M4模型是该团队在2019年提出的。在用100多种语言训练了250亿对句子后,M4模式提高了30多种低资源语言的翻译质量。该模型也证明了迁移学习技术可以用于机器翻译。这也意味着收集高资源的语言,包括法语、德语和西班牙语,它们有数十亿个平行的例子,经过培训后,它们可以应用于翻译低资源的语言,如约鲁巴语、信德语和夏威夷语,这些语言只有数万个例子。

机器翻译的未来

谷歌表示,自2010年以来,翻译质量每年都在提高,但机器翻译绝不是翻译问题的“终结者”。谷歌承认,即使是增强的模式也容易出错,包括混合一种语言的不同方言,导致太多的字面翻译,以及在特定主题、非正式或口语方面表现不佳。

谷歌试图以不同的方式解决上述问题。该公司公布了一项招募志愿者的计划,通过检查翻译的单词和短语是否正确来帮助提高低资源语言的翻译性能。今年2月,谷歌翻译在与新兴的机器学习技术结合后取得了进展。他们提供了只有7500万人使用的五种语言的翻译,如基尼亚卢旺达语、奥迪亚语、鞑靼语、土库曼语和维吾尔语。

谷歌不是唯一一个追求真正通用翻译的公司。2018年8月,脸书发布了一个人工智能模型,它结合了逐字翻译、语言模型和反向翻译,在语言匹配方面表现良好。最近,麻省理工学院计算机科学和人工智能实验室的研究人员提出了一个无监督模型,即一个可以从没有明确标记或分类的测试数据中学习的模型。该模型可以在两种语言之间翻译文本,而不需要两种语言之间的直接翻译。

出发地:余新闻

转载请注明:老街华纳公司开户-MD62333 » 谷歌揭秘自家翻译系统:如何利用AI技术提高翻译质量

喜欢 (0)or分享 (0)
发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址