分析印度杂志
现在读
为什么语音对语音翻译对谷歌如此重要
分析印度杂志

为什么语音对语音翻译对谷歌如此重要

  • 人工智能辅助的跨语言对话是一个具有挑战性的问题。为此,谷歌在2019年推出了Translatotron。
谷歌翻译

谷歌刚刚发布了其最令人垂涎的项目之一的升级版本——Translatotron,它向通用翻译又迈进了一步。开发能够打破语言障碍、与几乎任何人交流的技术,是全世界人工智能和机器学习研究人员的终极梦想。这项技术被称为通用翻译,并在科幻电影和书籍中多次展示,被《麻省理工科技评论》(MIT technology Review)的一份报告列为在不久的将来将受到高度重视的十大技术之一。

为了实现这一目标,人们一直在进行大量的研究,以促进流利的语对语翻译。这种系统的主要组成部分是自动的语音识别将源语音转录为文本,机器翻译将转录文本翻译为选择的语言,文本-语音合成生成目标语言的语音。

注册AWS数据分析会议>>

谷歌在S2ST的努力

AI-assisted跨语言会话是一个具有挑战性的问题。为此,谷歌在2019年推出了Translatotron。Translatotron是一种直接的语音到语音的翻译,具有序列到序列的模型。这个模型不依赖于中间文本表示(与传统系统的情况一样)。Translatotron的优势包括提高推理速度,从而避免识别和翻译之间的复合错误。这意味着翻译是直接的,保留了原始说话者的声音,并处理了不需要翻译的单词。

也就是说,尽管Translatotron的能够产生听起来很自然的高保真语音翻译,与强大的基线级联语音到语音翻译系统相比,该模型表现不佳。

信贷:谷歌

为了解决这个问题,谷歌被释放了Translatotron 2今年7月。新版本采用了一种将源说话人的声音转换成翻译语音的新方法,是对原文的改进。在翻译质量和预测语音自然度方面,它比Translatotron有一定的优势。它还通过减少胡言乱语和长时间停顿来提高输出语音的鲁棒性。

Translatotron 2

原始的Translatotron可能会被滥用以任意内容来恶搞音频,就像我们在深度虚假视频中看到的那样。Translatotron 2仅使用一个负责语言理解和声音捕获的语音编码器就克服了这一挑战。这样,经过训练的模型就无法再现非源声音。

谷歌& Babel Fish

在《银河系漫游指南》一书中,作者道格拉斯·亚当(Douglas Adam)提到了巴别鱼(Babel Fish)。巴别鱼是一种黄色的小水蛭状生物,以从周围环境接收到的脑波能量为食。Babel Fish的实际效果是,当你把它放在耳朵里时,你就能听懂任何语言的讲话了。

长期以来,研究人员一直致力于将像巴别鱼一样的设备变成现实。图灵奖获得者Raj Reddy教授今年早些时候表示,在十年的时间里,我们将拥有一个数字巴别鱼,它将能够翻译世界上所有的语言。对于不熟悉语音识别系统的人来说,雷迪教授是语音识别系统领域的先驱。他的研究工作导致了几项开创性创新的发展,包括苹果Siri。雷迪教授的“巴别鱼”预言很快就遭到了一些批评人士的抨击,称其为“愚蠢的技术乐观主义”。

另请参阅

虽然我们可能还要再等上10年才能知道雷迪教授的预测是否正确,但这并不是说没有努力实现这一点。

说到谷歌,这家科技巨头在2017年宣布了一套名为像素耳机的蓝牙耳机。它最显著的特点是,使用Pixel智能手机可以在40种不同的语言之间进行即时翻译。亚当咬牙切齿当时担任谷歌产品经理的他在公司博客中写道:“就好像无论你走到哪里,都有自己的翻译。假设你在小意大利,你想像行家一样点意大利面。你所要做的就是按住右边的耳机并说,“帮我说意大利语”。

谷歌像素芽

不仅仅是蓝牙耳机,语音对语音翻译也是谷歌翻译的重要组成部分。谷歌也希望通过Translatotron进一步推动这一领域的发展。这项技术将极大地影响严重依赖翻译或语音合成的个人和企业。根据公司的说法,谷歌翻译在1蓝色但自动翻译仍然是一个主要的挑战。即使是最强大的模型,当涉及到一种语言的不同方言时,也会产生非常字面的翻译,当涉及到非正式语言或口语时,表现很差。

你怎么看?

加入我们的不和服务器。加入一个有吸引力的在线社区。加入这里


订阅我们的通讯

通过分享你的电子邮件获得最新的更新和相关的优惠。

188BET网页

滚动到顶部
Baidu