Why Russian to English is difficult for Machine Translation
当我们考虑机器翻译的历史,即计算机自动从一种人类语言翻译成另一种语言的科学时,我们看到许多科学都是从俄语开始的。最早提到的自动翻译之一涉及俄罗斯的Peter Troyanskii,他提交的提案包括双语词典和处理语言之间语法角色的方法,基于世界语的语法系统,甚至在计算机可用之前。
第一套基于计算机的机器翻译提案是由洛克菲勒基金会研究员沃伦·韦弗于1949年提出的,他现在着名的“翻译备忘录”。在这里引用的着名备忘录中,他说:“用俄语书写的这本书只是一本用英语编写的书,很容易被写成俄文代码。”这些提案基于信息理论,代码成功。第二次世界大战期间的破裂,以及关于自然语言的普遍原则的理论。但韦弗的备忘录并不是这个新兴领域的唯一推动者。真正启动研究的是冷战恐惧以及美国分析师希望轻松阅读和翻译俄罗斯技术论文。沃伦·韦弗(Warren Weaver)激励语言编织者的创始人在21世纪初以他的名字命名自己,该公司是第一个将统计机器翻译(SMT)商业化和产品化的公司,也是SMT后续创新的源头。其校友继续启动谷歌翻译,摩西,影响亚马逊MT / AI计划,该公司及其知识产权现在由SDL Plc拥有。
最初的乔治城实验,包括在1954年成功地将60多个俄语句子全自动翻译成英语,是最早记录的MT项目之一。乔治城实验的研究人员断言他们认为机器翻译将在三到五年内解决问题。这种声称能够在五年内解决MT问题一直是MT社区的常见问题,而近七十年后我们看到MT仍然是一个具有挑战性的问题。神经MT的最新进展受到欢迎并且确实取得了重大进展,但MT仍然是人工智能领域最具挑战性的研究领域之一。正如70年来正在进行的MT研究工作的结果所示,机器翻译问题确实是自然语言处理(NLP)领域中最难解决的问题之一。值得考虑的是为什么会这样,因为它解释了为什么它需要70年才能到达这里,以及为什么它仍然需要更多的时间才能达到“永远完美”的MT,即使在这些令人兴奋的NMT突破时期。将MT与自动语音识别(ASR)挑战进行对比可能是有用的,以说明难度。如果我们采取一个简单的句子,“今天,我们很高兴地宣布我们正在进行的MT研究取得重大突破,特别是因为它涉及俄语到英语的翻译。”就ASR而言,实际上只有一个正确答案,计算机要么识别出正确的单词,要么找不到正确的单词,即使它没有正确识别单词,也可以从上下文和其他正确预测的单词中理解。
当问题产生二元结果时,计算机表现良好,事情要么是正确的,要么计算机倾向于比“答案”不那么明确的问题更有效地解决这些问题。如果我们将所讨论的句子视为翻译,那么这是一个非常不同的计算挑战。语言是复杂多变的,完全相同的东西可以用很多不同的方式来表达和翻译。所有这些都可以被认为是正确的。如果您要添加略微错误或严重错误翻译的可能性,您可以看到存在大量的排列可能性。有问题的句子有许多可能正确的翻译,这就是问题所在。除了通过概率计算和测量统计数据密度之外,计算机还没有办法评估这些变化,而统计数据密度几乎总是由您训练的数据完全定义。如果您训练的数据集不包含所有可能的翻译,那么您将错过一些可能性。事实是,我们永远不会在每个可接受的翻译上训练引擎。
Michael Housman,RapportBoost.AI的首席数据科学官和Singularity大学的教员。他解释说,机器学习和人工智能的理想场景是固定规则和成功或失败的明确衡量标准。他将国际象棋命名为一个明显的例子,并指出机器能够击败最好的人类Go玩家。由于游戏的规则非常清晰,动作有限或可定义,因此发生的速度比任何人都预期的要快。