机器翻译
不久前,一个实时翻译视频风靡网络,视频中两名分别说着英语和西班牙语的人借助Skype软件的实时翻译功能竟然实现了无障碍交流。
这种之前只在科幻片中存在的场景如今已成现实,而这一切都得益于机器翻译技术。
那么什么是机器翻译呢?机器翻译(machine translation),又称为自动翻译,是利用计算机把一种自然语言转变为另一种自然语言的过程。
机器翻译的实现方法
随着科技和社会经济的快速发展,全世界的互联互通已经成为不可阻挡的发展趋势,那么不同国家之间如何实现低成本的有效交流呢?
人工翻译所耗费的成本巨大,也许最好的解决方法就是:充分利用机器翻译技术提供智能自动翻译服务。机器不会累、学习快,一个系统同时掌握十几种语言互译也不是问题,也许永远不会像人一样出现翻译盲点。
但是语言的复杂性众所周知,人尚且会有误解的时候,那么冰冷的机器究竟是怎么翻译一种语言的呢?它会思考吗?
下面我们就来探讨一下机器翻译技术的实现方式。
目前机器翻译的主流方式叫“统计翻译”。
统计机器翻译的基本原理是:从语料库大量的翻译实例中自动学习翻译知识,然后利用这些翻译知识自动翻译其他句子。
比如,为了让机器顺利实现中英文之间的翻译,首先需要收集大量中英文双语句对,然后使用计算机从这些双语句对中统计并学习翻译知识。
看到这里你也许会觉得,机器翻译好像也不难,不就是要收集到足够多的词汇和例句吗?
当!然!不!是!
让机器学习翻译知识可不是一件简单的事。
人类语言具有很大的复杂性。首先,很多用词和表达方式是多义的、模糊的、跟特定应用环境相关的。即使是同一个句子,在不同语境下的意思也不相同。例如,碰到这样的情况,不仅仅是老外,机器估计也会“迷茫”。
其次,不同语言的语序也不一样。例如“最好的朋友之一”,翻译成“one of the best friends”,其中“之一”的翻译被提前了。
再者,对于同一个句子,它可能有很多种正确的翻译方法。这样增加了机器学习过程的不确定性。例如“你好”可以被翻译成“Hello”,或者“How do you do”等。
因此,一个优秀的机器翻译系统,对于词的翻译知识,短语的翻译知识、语法结构的翻译知识、语义的翻译知识等等全部都要掌握。
以中英翻译方向为例,系统首先要掌握中英文之间词、短语、语法结构的翻译知识。有了这些翻译知识之后,系统就会把这个中文句子切分成各种词、短语、或者语法结构的组合(这个过程中,有成千上万种切分可能,每个单元也有多种翻译备选),然后分别翻译每一个单元,最后组合起来形成最终的英文翻译。
万万没想到吧,在电光火石的一瞬间,系统已经经历了这么一个“千回百转”的过程。
机器翻译的过去
在现在看来,机器翻译毫无疑问是一项被公认为具备广泛应用前景的技术方向,但纵观该技术的发展史却并非一帆风顺,其可行性和实用性曾不断遭受质疑。
但机器翻译技术的这段历史走的却并非一帆风顺,甚至曾一度被视为是天方夜谭,其可行性和实用性不断遭受质疑。纵观机器翻译技术发展史,大致可分为草创、萌芽、沉寂、复苏、发展共5个阶段。
机器翻译的研究历史最早可以追溯到二十世纪三四十年代。二十世纪三十年代初,法国科学家G.B.阿尔楚尼提出了用机器来进行翻译的想法。
1946年,世界上第一台现代电子计算机ENIAC诞生。随后不久,信息论的先驱、美国科学家Warren Weaver于1947年提出了利用计算机进行语言自动翻译的想法。1949年,Warren Weaver发表《翻译备忘录》,正式提出机器翻译的思想。
<!--[if !vml]-->
1954年,美国乔治敦大学在IBM公司协同下,用IBM-701计算机首次完成了英俄机器翻译试验,向公众和科学界展示了机器翻译的可行性,从而拉开了机器翻译研究的序幕。
(图:IBM-701计算机的英俄翻译)
随后十年左右的时间内,机器翻译研究热度不断上升。美国、前苏联及一些欧洲国家均对机器翻译研究给予了相当大的重视,机器翻译一时出现热潮。
然而,正当一切有序推进之时,尚在萌芽中的“机器翻译”研究却遭受当头一棒。
1964年,美国科学院成立了语言自动处理咨询委员会(Automatic Language Processing Advisory Committee)。委员会经过2年的研究,于1966年公布了一份名为《语言与机器》的报告。
该报告全面否定了机器翻译的可行性,并宣称“在近期或可以预见的未来,开发出实用的机器翻译系统是没有指望的”。受此报告影响,各类机器翻译项目锐减,机器翻译的研究出现了空前的萧条。
进入二十世纪七十年代中后期,随着计算机技术和语言学的发展以及社会信息服务的需求,机器翻译才开始复苏并日渐繁荣。业界研发出了多种翻译系统,例如 Weinder 、EURPOTRAA、TAUM-METEO等。
其中于1976年由加拿大蒙特利尔大学与加拿大联邦政府翻译局联合开发的TAUM-METEO系统,是机器翻译发展史上的一个里程碑,标志着机器翻译由复苏走向繁荣。
1993年IBM的Brown和Della Pietra等人提出的基于词对齐的翻译模型,标志着现代统计机器翻译方法的诞生。
2003年爱丁堡大学的Koehn提出短语翻译模型,使机器翻译效果显著提升,借助同时期Franz Och提出的对数线性模型及其权重训练方法,短语翻译模型在工业界开始广泛采用。
2005年David Chang进一步提出了层次短语模型,同时还有多个大学和研究所在基于语法树的翻译模型方面研究也取得了长足的进步。
机器翻译的现状
随着全球互联互通日益频繁,几乎人人都渴望着实时翻译这一“逆天”技术能早日变成现实,伴随这一代代科学家们不懈的努力,科幻正一步步照进现实。
为了实现机器翻译的梦想,以IBM、谷歌、微软为代表的国外科研机构和企业均相继成立机器翻译团队, 专门从事智能翻译研究,矢志打破语言障碍。我们科大讯飞也在做这方面的研究。
IBM从2001起就开始大规模开展该领域的研究,并在英语、阿拉伯语和中文之间的互译领域进行重点投入 。2009年9月IBM正式推出了ViaVoice Translator机器翻译软件,为自动化翻译奠定了基础。在此之后, IBM所从事的这项研究项目无明显进展,不就后被放弃。
自2011年开始,伴随着语音识别、机器翻译技术、DNN(深度神经网络)技术的快速发展和经济全球化的需求,口语自动翻译研究成为当今信息处理领域新的研究热点。
Google于2011年1月正式在其Android系统上推出了升级版的机器翻译服务,现在,谷歌翻译已经可以在超过70种语言之间进行互相翻译。在2012年,谷歌翻译的用户使用量大约为2亿次。到目前为止,这项服务还是免费的。但对于一项自动化的翻译服务来说,跨国公司将会乐于使用这种服务,从而为其带来很高的价值,这意味着在未来谷歌几乎肯定可以通过这种翻译工具获取大量收入。
2012年微软研究部门全球负责人里克·拉希德(Rick Rashid)在中国召开的一次会议上宣布了机器翻译 项目的成功。当时他用英语讲话,而一台微软计算机同时将他说的话翻译成普通话,而且是以拉希德自 己的声音说出来的,从这点上来看,微软的这个翻译程序已经沾染上了一丝人性。微软的Skype于2014年 12月宣布推出实时机器翻译的预览版、支持英语和西班牙语的实时翻译,并宣布支持40多种语言的文本 实时翻译功能。本文开头提到的聊天软件Skype中使用的正是微软的机器翻译技术,Skype翻译背后最重要的技术就是语音识别的巨大提升,使用微软神经网络语音识别技术与机器翻译相结合,允许用户可以在一对一不同语言交流时可以更好的翻译。
机器翻译的未来
随着机器翻译技术的进步,另一种担心也在悄然蔓延:“机器会抢同声传译的饭碗吗?会让从事这一行业的人类失业吗?
科大讯飞的工作人员认为,目前担心这个问题还为时尚早。虽然现在可以通过一些实用的技术让机器去模拟人的智能活动,模拟人对语义的理解,但相对于彻底的人工智能和语义理解,还有相当长的道路。如果有一天机器真的能够实现准确的实时翻译,它们的角色更可能是辅助相关产业的工作人员更轻松、便捷地开展工作,而不是取代他们。