从AI到机器翻译

pic

自2010年谷歌退离中国市场后,尽管谷歌翻译网页版在中国可用,但App端一直未对中国大陆用户开放。最近,谷歌翻译最新至5.8版本,终于再度面向大陆用户开放了完整的谷歌翻译服务。这也引发中国互联网的一阵骚动,有人猜测,莫非这是谷歌要回归中国的迹象?

  事实上,谷歌翻译app完成这次开放的技术原理也十分简单——只是把接入点从translate.google.com改为了translate.google.cn,从而允许了大陆用户的访问。另据谷歌方面透露,谷歌翻译App的维护方是一家谷歌在中国的合资公司,也将接受相关内容的请求和审查。

  显然,整件事情与谷歌能否回归中国没有任何瓜葛,这可能会让部分谷歌迷们失落。但很多人似乎执迷于这件事的象征意义,而忽略了事情本身——谷歌希望更多的中国用户能完整使用它的翻译产品(从网页到APP)。这体现出谷歌正在越来越重视翻译类产品。

  用人工智能做机器翻译 谷歌不敢输

  我们常用的翻译服务其实是机器翻译的一个形态,根据百度百科的释义,机器翻译又称自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。显然,无论是中英互译、中日互译抑或是日英互译,都是机器翻译。

  20世纪三十年代,法国科学家阿尔楚尼就提出了用机器来进行翻译的想法,后来美国科学家W. Weaver 提出用计算机进行语言自动翻译的想法,并于1949年正式发表机器翻译的思想。再到后来,各种互联网翻译工具的出现,逐渐把历史悠久的机器翻译变成了互联网的基础性服务。

  你每天使用,但你并不觉得它有多么重要,或者需要多么巨大的改变,就像是机器翻译。直到人工智能技术的出现,机器翻译的变革时代终于开启。

  2016年9月,谷歌宣布此前开发的神经网络机器翻译系统(GNMT:Google Neural Machine Translation),正式被应用到谷歌翻译中。据了解,区别于传统的基于短语的翻译(PBMT),GNMT选取了更广泛的文本样本来帮助得出最准确的翻译结果,人工智能的运用则让机器翻译更符合人类的思维模式和语法结构。

  谷歌当时表示,与之前采用的算法相比,神经机器翻译系统(GNMT) 能降低55%-85%的翻译错误,并且十分接近人类译员的翻译水平。彼时,距离谷歌人工智能程序AlphaGo大败围棋高手李世石只过了半年,业界对于同样应用人工智能技术的谷歌翻译充满了好奇。

  雄心勃勃的谷歌计划将这套神经网络机器翻译推广到103种语言,解决人类交流的语言障碍。不过业内人士曾分析,神经机器翻译作为端到端的学习架构,它能从数百万的实例中学习,大幅提升翻译效果。然而,跨语种的训练仍然困难,尤其是要挑战103种语言全部采用神经机器翻译技术。

  通过搜索引擎查阅到谷歌神经机器翻译系统的进展,笔者发现主要有这两个节点:一个是去年11月15日,GNMT支持了英语与其他八种语言的互译,包括英语和法、德、西班牙葡萄牙、中、日、韩及土耳其语之间的互译;最新的是在今年3月初,GNMT增加了对印地语、俄国和越南语的翻译,从而将支持语种增加到了11个。

  可见,GNMT要想实现覆盖103个语种的野心,既要耐心、也要做好更多应对挑战的准备。比如,谷歌翻译APP开放对大陆用户的服务后,大部分人欢呼雀跃,但仍有不少用户表达了失望,认为它在一些场景的翻译质量“不敢恭维”。

  强大如谷歌,骄傲如谷歌,在做出用GNMT全面取代PBMT的决定后,它就已经押上自己在人工智能领域的招牌。谷歌不想输,也不敢输。

  从AI到机器翻译 百度、谷歌延续宿敌较量

  当前的机器翻译领域,已经明显形成了中美科技巨头竞赛的格局。在美国,谷歌、微软均明确宣布,将神经网络技术全面应用于机器翻译,并且都积极推广至全球更多的语种。而在中国,以百度为第一梯队,科大讯飞(002230,股吧)等为第二梯队的技术型企业,也纷纷把发力人工智能和机器翻译提升到了战略层级。

  去年12月份,百度技术委员会联席主席、自然语言处理部技术负责人吴华对外表示,百度早在一年多前就率先发布了世界上首个神经网络的机器翻译系统(NMT),NMT技术克服了传统方法将句子分割为不同片段进行翻译的缺点,而是充分利用上下文信息,对句子进行整体的编码和解码,从而产生更为流畅的译文。

  除了百度,专注于语音交互技术的科大讯飞去年也推出多语种翻译功能,实现五种语言同步翻译成汉语,还发布了智能翻译产品“晓译翻译机”,预计今年上半年量产。

  不过在我看来,科大讯飞等公司目前主要围绕机器翻译的某个单点进行突破,从而形成差异化的产品优势,比如科大讯飞将语音翻译技术推广到法院等行业领域。

  若综合考量包括技术、产品、资源、应用等多维度因素,百度依然是国内机器翻译的引领者,也是谷歌最强大的对手。百度翻译现支持全球28种语言互译、756个翻译方向、每天响应近亿次翻译请求,这些成绩都把国内对手甩在了身后。那么,百度的机器翻译与谷歌相比又会有哪些异同呢?

  吴华曾深入对比过谷歌翻译与百度翻译,她表示:百度NMT技术本质上还是解决数据稀疏的问题,因为它的机制可以多个语言一起学习。谷歌GNMT也是在这个技术上,用多个语言一起训练然后共享参数,共享参数的目标是为了借鉴其他语种语料的优势,来解决语料稀疏的翻译质量问题。

  在笔者看来,目前百度做机器翻译相较于谷歌翻译存在两点显性优势。

  首先,在中国市场,百度的机器翻译更加本土化。重返大陆市场的谷歌翻译APP之所以没能取悦本土用户,主要就有两个原因:一个是英汉互译本身就是比较难的语种转换,尤其是中文博大精深,词义极为多样化,谷歌对于中国文化的理解肯定还略浅;第二点也是最重要的,自谷歌退出中国后,多数中国用户习惯于首选最懂中文搜索的百度,其次选择有道等产品,谷歌对于中文语料大数据的收集和训练程度已经远远落后于对手。

  其次,百度在机器翻译上的长期投入和专注度更是惊人的。百度董事长李彦宏已经放话,互联网只是一道“开胃菜”,真正的“主菜”是人工智能。All in人工智能的百度对于机器翻译自然也是决心最大、看的最长远的。神经网络翻译技术从2014年9月提出,百度2015年5月上线首个互联网NMT系统。今年9月,谷歌、微软等公司才相继发布NMT系统。如此看来,百度当之无愧是最早发掘NMT技术的价值并将其全面应用的科技公司。

  百度攻克机器翻译技术难题已经有七年的历史,先后荣获2014年钱伟长中文信息处理科学技术一等奖、2015年度国家科学技术进步奖二等奖等殊荣。截至目前,百度机器翻译早已从高深的实验室走向开放,通过和相关企业合作“飞入寻常百姓家”,除了支持百度翻译,还支持了华为金山、OPPO、敦煌网等上万家第三方翻译应用,在全球拥有超过5亿用户。

  吴华故有此评价,谷歌翻译在基于统计的机器翻译上做得很好,处于领先地位,但是在基于神经网络的机器翻译上,百度走在了前面。并且,谷歌翻译是以英语为中心的,百度翻译的中心是中文。另外,在语音的翻译上,百度要领先一些。

  写在最后

  实事求是的讲,作为非专业人士,笔者对于吴华的观点尚不能做确切的考证。也可能会有人讲,百度是不是在吹牛?但在我看来,在人工智能等前沿技术领域,中国科技企业的确应该有“亮剑”精神。对于谷歌,我们可以确定它是全球范围最流行的搜索引擎,而谷歌翻译是最流行的翻译软件。但至于谷歌的机器翻译是否全面超越了百度的机器翻译技术,甚至于谷歌的人工智能是否就是技术最强大的......这些都还有相当大的问号,国内科技公司也有时间和空间证明自己的实力。

  在去年的乌镇世界互联网大会上,李彦宏描述了机器翻译对未来的改变——“未来的若干年,我们很容易想象语言的障碍会完全被打破,现在做同声翻译的人可能将来就没有工作了。”或许,当人工智能技术日臻完善,机器翻译真的就会更通人性,取代翻译机器甚至是同声传译也未尝不可。