计算机能否打破人类不同语言的壁垒?

pic

计算机能否帮助人类打破不同语言的藩篱?答案是可能的。

近日,Facebook宣布其研究团队已经开发出一种基于卷积神经网络的新语言翻译技术,其翻译速度及准确度均超越了谷歌翻译。这是继去年9月,谷歌采用循环神经网络机器翻译技术来支持英语、西班牙语、葡萄牙语、法语、德语、土耳其语、中文、日语和韩语等语言的翻译后,机器翻译技术取得的又一重大进展。

一些研究人员认为,随着人工智能中自然语言处理技术的不断进步,能代替人类“高翻”的机器翻译技术很可能在未来全面普及。

绵延而曲折的人类机译之梦

“机器翻译听起来比较陌生,但实际上我们平时使用的一些在线翻译工具都属于这一技术在现实中的应用。”省科学院应用数学研究所王志强博士表示,机器翻译是指运用机器,通过计算机程序,将一种以书写或声音为形式的自然语言,翻译成另一种以书写或声音为形式的自然语言。

“虽然名字乍听起来好像只跟计算机有关,但机器翻译其实是一个交叉学科,涉及语言学、计算机科学和数学等多个学科领域。”王志强进一步解释道。

人类的机译之梦很早就开始了,而且绵延不绝。早在17世纪,笛卡尔、莱布尼茨等就提出了机器字典的设想。随着计算机的发明,1947年,美国科学家瓦伦·韦弗提出使用计算机来对自然语言进行翻译,这一年也因之被称为机器翻译诞辰年。

人类靠自己翻译不就很好吗,为什么还要开发机器翻译呢?

“传统的人工作业方式虽然可以很好完成一些翻译工作,但随着科学技术的发展和国际交流的日趋频繁,传统的人工作业方式已经远远不能满足需求,迫切地需要一种工具来帮助人类从事翻译工作,更好地实现交流。在此背景下,机器翻译走上了历史舞台。”王志强称。

那么计算机翻译人类语言的第一句话是什么呢?

“是一句俄文:我们通过语言传递思想。翻译这句话的那个系统可是世界上第一个机器翻译系统,它实现了机器翻译从科学设想到现实应用的变化。”王志强称,该系统出现在1954年,由IBM和乔治敦大学成功研制,是一个可以完成基于6项语法规则和250个词汇的俄英翻译系统。当时还进行了公开演示,此后机器翻译研究便开始在美国、日本、意大利、英国、德国等国展开。

不过机器翻译的发展并非一路凯歌,有一度竟被判了“死刑”。

据介绍,由于早期的机器翻译系统相对简单、功能有限,研究者们陷入了研发困境。1964年美国政府的自动语言处理委员会在对机器翻译研究后,发布了一份报告称机器翻译速度较慢且不够准确,看不到任何前景。这让很多人放弃了对机器翻译的研究,机器翻译走入低谷。

“20世纪80年代初,机器翻译的研究开始复苏。”王志强表示,近年来,随着计算机科学、语言学研究的发展,特别是计算机硬件技术的大幅提高以及人工智能在自然语言处理上的应用,机器翻译的发展进入了一个前所未有的新时期,成了人类在翻译活动中不可或缺的得力帮手。

人工神经网络助机器翻译实现变革

“Facebook研究团队实现的新技术是一种基于人工神经网络的机器翻译。”省科学院应用数学研究所崔彦军研究员表示,它与以往传统的机器翻译方式有明显不同。

据了解,机器翻译的实现方式有多种,传统的机器翻译方式有基于规则的机器翻译和基于统计的机器翻译,两种翻译方式都建立在由词汇和语句构成的庞大语料库之上。

基于规则的机器翻译在工作时,会通过一定规则将句子分解成若干词语,再对每个词语进行一一对应的翻译。而基于统计的机器翻译要高级一些,它通过搜集大量翻译实例建立庞大的语料库,翻译过程中计算机同样把要翻译的句子切分成各种词、短语,或者语法结构的组合。不过计算机会在成千上万种翻译备选方案中,根据文本间的对应概率,找到关联度最高的翻译方法来完成最终的翻译。

“传统的机器翻译模型中每个模块都只能按各自的功能完成目标,再机械地将翻译结果拼装在一起。”崔彦军称,因为无法理解不同词汇融合后产生的含义,所以其翻译结果常常令人啼笑皆非、不知所云。

不满足于这种翻译效果,科学家决定利用其他手段开展机器翻译,于是人工神经网络被引入机器翻译之中——神经网络机器翻译出现了。

“神经网络机器翻译是以数学方式粗略模拟人类脑神经网络运作方式,在计算机内部建立一种人工神经网络。”崔彦军表示,人工神经网络具有很多独立的层,还有相应的数据传导方向。工作时,人工神经网络内的一些小型数学函数,会在计算机指令下运算,帮助计算机来完成相应的翻译任务。

据介绍,神经网络机器翻译在翻译时,人工神经网络会从基础层开始,每一层都对从上一层接收来的信息进行抽象,自动识别出语言的规则、模式,决定某一特定信息是否可以通过并传输到下一层神经元。

“在选择下一个翻译的单词时,人工神经网络会考虑到目前为止所做的翻译,通过放大某一部分的翻译或者整体的大意,确保接下来的翻译选择符合语境。”崔彦军解释道,这种机制类似于人在翻译时的断句,系统在翻译时会回看和多次看整个句子来选择下一个翻译的词语,做出最符合的翻译。

据了解,神经网络机器翻译的另一个特点是能够在翻译过程中实现自我学习。计算机会将翻译过的所有材料存入语料库,翻译时系统会自动对电子文档进行分析,100%匹配的句子可以自动替换,部分匹配的句子可根据匹配度提出翻译建议,新句子则通过系统提供的翻译建议进行人工翻译。而且,每次翻译又为以后积累句子,相同的句子永远不需要翻译第二遍,从而提高了工作效率。

“区别于传统的机器翻译方式,神经网络机器翻译模型更像一个有机体,模型里面所有的参数都是为同一个目标来调整和优化的,神经网络机器翻译能把一句话中所有词汇的语意融合在一起分析和理解,从而使机器翻译的准确性得到了大大提升。”王志强称,从传统机器翻译到神经网络机器翻译的变革,可以比喻成从“手工针线活儿”到“缝纫机”的变革,它带来了机器翻译质量的大幅提升。

“不同于之前谷歌器翻译系统采用的循环神经网络,此次Facebook使用的卷积神经网络要更为复杂。”崔彦军称,循环神经网络在处理分析数据时,严格按照句子从左到右的顺序一个字一个字进行翻译。而卷积神经网络可以同时从不同角度捕捉数据,更好地契合机器图形处理器硬件系统。

种种因素制约“完美翻译”实现

“虽然机器翻译技术取得了长足进步,但在短期内仍无法达到人工翻译的水平。”王志强称,目前的机器翻译只限于结构简单规范的短句子,还无法应用篇章的连接手段来组织和安排句子,还需要后期大量的人工进行修改和润色。

首先是因为自然语言的复杂性。自然语言是人类最伟大的发明之一,我们至今还没有发现任何其他更为复杂的符号系统。语言的用法、词的功能等就像棋子的走法一样,是无穷多的,这种复杂性很难用严格的数学公式加以描述。王志强表示,自然语言“复杂特征”的形式化描述不是一朝一夕的事情,况且人类对这种复杂性的认识也需时日,这本身就决定了机器翻译研究必须经过一个漫长而艰辛的过程。

障碍还来自于自然语言的多义处理。王志强介绍,自然语言在词汇、句法、语义、语用等各个层面都充满歧义,这些不同的意思需要对应不同的语境来进行翻译。“更难的是,语言交流是在一定的环境中进行的,一句‘你干得不错呀’,可以表示赞赏,还可以表示讽刺,这种言外之意及其背后的条件及语境,在目前情况下计算机是无法分析的。”这种整体语境观念目前是超出机器处理能力的。

另外,计算机难以感知文化。自然语言是文化的重要组成部分,也是文化赖以传播的物质表达形式。翻译工作中译者可能经常遇到这样的情况:如果不懂得与原文有关的文化背景知识,在翻译时,会觉得原文理解起来不知所云。这就需要译者在翻译的过程中,结合文化、历史、地理、风俗习惯等背景知识对文字内容进行“重组”。

崔彦军表示,机器翻译的工作原理是建立在串行二值逻辑基础上的,只能在限定的范围内进行一对一的选择,因此就不可避免地会出现令人费解的译文。要让机器翻译通顺,就必须教会计算机尽可能详尽的各种文化知识,以目前的人工智能发展水平,这显然是不可能的。

自然语言的收集也是制约机器学习发展的一个重要原因。“现今能够实现机器翻译的自然语言,都是国际交流中常用语种,而大量小语种并未包含其中。”崔彦军认为,这主要是因为目前的机器翻译需要依赖于大量数据的收集、录入、标记学习,而许多小语种的数据收集存在困难,因此无法实现翻译范围的全覆盖。

“机器翻译水平想要得到质的提升,需要实现人工智能、机器认知能力、机器模拟人脑思维等多领域技术的突破。”王志强表示,“当然,我们也不排除在未来的某一天,计算机能够实现准确的‘完美翻译’。不过人类也不必过分担心,因为它们的角色只是辅助人类轻松、便捷地开展工作,而不是取而代之。”