机器翻译传奇
还在计算机降临人世之前,人类就萌生出一种极富魅力的梦想,希望有一
天能够制造出一种机器,请它在讲不同语言人中间充当翻译。把这种翻译机器
揣在衣兜里就能走遍天下:到了英国,它讲英语,到了法国,它又会讲法语…,无论操何种语言的外国人与你谈话,只要拨一下开关,它都能在两种不同语言
间充当"第三者",准确地表情达意。人类有了它,又何愁"天下谁人不识君"呢?
20世纪20年代,有位俄国人想动手实现这一梦想,他造了一台机械装置,试图通过那些齿轮的转动把俄语翻译成英语,终于以失败而宣告结束。20世纪40年代,电子计算机的发明又重新勾起了人们美好的憧憬。1949年,美国学者沃伦·韦弗向大约200名友人发出一份备忘录,他热情地指出,用计算机完全
能够解决语言的翻译问题。他认为,人们可以让计算机模拟人类翻译家的作法,使用一部两种语言对照的词典作工具,用一种语言的单词去查出另一种语言的
等价词,然后编排整理成文。这种翻译机至少可以用来帮助解决世界范围的文
献翻译。
韦弗先生的设想简单明晰,却颇有吸引力,引起了美国科学界人士极大的
兴趣。当历史跨入50年代后,美国人甚至有点迫不急待。因为在激烈的世界科技竞争面前,大部分美国科学家和工程师都不能阅读俄语书,而大部分前苏联
科学家和工程师却都精通英语。美国科学家十分担心自己会根不上俄国人定期
发布的优秀科技论文的水平。机器翻译的研究项目因此受到了高度重视并获得
大量的经费资助。美国计算机界铆足了劲,要一举摘下机译的皇冠。从1954年实力雄厚的计算机公司IBM和乔治城大学研究小组合作的首次试验起,韦弗设
想的那种"词对词"的计算机翻译系统开始了它的蹒跚学步。
粗略想一想,在两种语言间实现"逐词替换"似乎并不困难。比如,想把英
语句子翻译成汉语,只需把英语句子分解为单词,用对应的汉语单词顶替,然
后按汉语语法规则整理成句式。"This is acomputer"是一个英语句子,分别把"this"用"这"、"is"用"是"、"a"用"一台"、"computer"用"计算机"顶替,不就翻译成汉语句子"这是一台
计算机"吗?这里所需要的是大量储存并快速搜索两种语言的对应词汇,而"大量储存""快速搜索"恰好是计算机的拿手好戏。美国人
初期开发的机译系统正是"俄英翻译",他们也确实把俄语文献翻译成了英语版本。
可惜好景不长,早期从事机译的人们很快就沮丧地发现,通过逐词替换,
大约可完成80%的翻译工作,还有20%的文字根本"顶替"不下来。更不能容忍的是,整个翻译过程极慢,甚至达不到人工翻译的速度;同时,机器翻译的文章
公园露出
必须由人进行整理才能读得通,还不如让人自己来干。当时的机器翻译闹出了
不少笑话。据说,当美国人向计算机里输入一个英语谚语"心有余而力不足"时,输出的俄语意思却变成"酒是好的,但肉已经变质"。再输入一则英语谚语"眼不见,心不烦",你知道机器把它译成了什么?输出俄语的意思实在叫人啼笑皆非--"眼睛失明,精神失常",大概就是那台翻译机器的自我写照吧。这样一来,计算机翻译背上了一个很糟糕的名声,人们的热情一落千丈。连美国政府也于
1966年发布了一本黑皮书《语言和机器》,认为这种研究得不偿失。黑皮书给
刚出襁褓的翻译机泼了一大盆凉水,同时撤消了对机器翻译项目的大部分资助,不少研究课题组纷纷下马,最后仅留下5个单位惨淡经营,机器翻译从此进入
低谷时期。机器翻译的先驱者们大都陷入了迷茫:象计算机这种无生命的机器,真的能够完成只有人类大脑才能承担的翻译工作吗?
在60年代的研究低潮中,机译界的人们并没有完全停止耕耘,不过,的确需要认真地反思,找出问题的症结所在。用逐词顶替的方法为什么不能得到满
意的翻译结果?可以设想一下,人类自己担任翻译时,是否也只是做了这种替代呢?显然,任何一个人,哪怕他把一本《双语词典》背得滚瓜烂熟也当不成翻译,关键在于理解所翻译文章的意思,还要掌握各种相关知识。而在"词对词"机译
系统中,把"computer"一词用"计算机"一词替代,担任翻译的机器并不理解"计算机"或"computer"是什么东西。换言之,让电脑"理解"人类语言应该是机译突破的焦点。
让机器理解人类的语言谈何容易!语言是人类进行思维判断和相互交际最
主要的工具,有了语言,人类才最终从动物里划分出来,成为真正的人。今天
我们为计算机编制程序的语言都是"人工语言",而人类自己使用的语言却都叫"自然语言"。如果说,机译实现的唯一通路在于"自然语言理解",那么,成功的希望已经寄托在"人工智能"的研究之上,让机器增加智能,象人那样学会用自
潮目
黄渤个人资料
然语言"思维"。当然,还特别需要借助语言学家、心理学家的协助和支持,它必须成为一门综合性学科。
接触过计算机的人都知道"人机对话"这一术语,象BASIC那样的语言还被加上了"人机对话语言"的桂冠,似乎机器早就可以与人"交谈"。千万不要把这种"高级语言"想象得神乎其神,其实,人机之所以能够对话,是人学会了计算机语言,而不是计算机学会了人的语言。
经过漫长的历史岁月,人类语言已发展到极其复杂的阶段。一个人即使想要掌握本国的母语,从出世开始,直到小学中学,甚至上了大学还得孜孜不倦地学习。以汉语为例,除了书面语之外,还有大量不规范的口语方言俚语。在一个传统的相声段子里,逗捧双方的演员打赌,看谁能用最短的话表现一个情节:小孩夜间起床小便,家人问他干什么。结果,用河南方言的表演者令人叫绝,他只用了四个字:
"谁?""俺。""啥?""尿。"
这种精练到家的语言,叫机器如何理解?
喷空
为了帮助机器初步学习理解人类语言,人工智能的研究者作过各种实验,开始艰难的探索历程。例如,1961年美国曾发表过一个名叫"棒球"的系统。通过技术处理,这一系统能够回答人们用英语提出
的有关美国棒球锦标赛的一些问题。如"红队7月在哪里比赛?","蓝队曾在一节中赢过6分吗?"等等,还只能算是雕虫小技。
在这类实验性的研究中,1966年美国麻省理工学院的威森鲍姆编写的"伊莉莎"(ELIZA)可能是最有趣的语言程序之一。"伊莉莎"取名于英国著名戏剧家肖伯纳的戏剧《偶像》中的角色,它能够使计算机与人用英语谈话。在自然语言理解技术尚未真正取得突破性进展时,这是一个令人费解的现象。请看"伊莉莎"在计算机上与一位姑娘的谈话摘要:
姑娘:男人们全都一样。
伊莉莎:在哪些方面?
姑娘:他们总找借口躲避我们
伊莉莎:你能举个例子吗?
姑娘:好吧,我的男朋友要我到你这里来。
伊莉莎:哦,你的男朋友要你到我这里来。
姑娘:他说我很烦闷。
伊莉莎:你很烦闷,这使我很难过。
根据上述对话,"伊莉莎"不仅听懂了姑娘的讲话内容,而且很有同情心,
象知心朋友一样给人以安慰。这个程序发表后,许多心理学家和医生都想请它
为人进行心理治疗,一些病人在与它谈话后,对它的信任甚至超过了人类医生。这种状况令程序编制者和人工智能专家们深感忧虑:一台机器居然让一些受过
良好教育的人和它进行长时间的亲密交谈,而机器其实完全不理解人的喜怒哀乐!
仔细分析"伊莉莎"与人对话的内容,一旦明白了其中的奥妙,对话人可能
会大呼上当。"伊莉莎"对人说的话,只不过是颠倒一下谈话人的语序,为其中
的某些"关键词"匹配上合适的"对应词",然后再返回给谈话人。当然,它的编
排相当巧妙,比如你说"很烦闷",它就说"很难过";你说"我想哭",它就问"为什么想哭"。当它找不到合适的对应词回答问题时,为了避免出洋相,它就机敏地讲一些无关痛痒的废话搪塞一下,如"这很有意思,请继续说",或者"请你说详细点好吗?"从技术观点看,"伊莉莎"程序与人的对话,不是在对句子理解的
基础上进行的,顶多给人们开了一个小小的玩笑。"伊莉莎"的作者后来也承认说:"我没有想到,一个简单的计算机程序,在极短的时间内会在用正常方式思考的人们中间引起了如此大的误会,今后在解决问题时需要考虑这种因素"。
机器翻译,本质上是对人类思维和语言活动的模拟。解决这一难题的途径
是对人类的语言作出科学的分析,获取人类思维活动的材料,然后才能正确地
构造可以解释人类行为的计算机程序。在这一点上,语言学家给了人工智能研
究很大的支持。
自1957年美国语言学家乔姆斯基发表著名的《句法结构》始直到70年代,语言学中的"乔姆斯基革命"不断发展,不仅极大地推动了现代语言学科的成熟,而且使得"自然语言理解"的研究不同程度地涉及到句法、语义和语用三大语言休学理由
学领域,机器翻译从此开始走向复兴。这里,我们不得不占用一些篇幅,结合"自然语言理解"早期研究中的成果,对三个语言学中的概念作一点趣味性的说明。
让计算机学习人类的语言,入门的练习似乎可以象小学生那样从"填空"学起。准备几种类型的单词,在事先造好的句式中故意留下几个空格,要求计算
血糖低症状机有选择地填入。例如,对于下列句式:开往_的_列车在_时从_站台发车。计蚩尤传奇
算机只要在4个空格处分别填入表示地点、车别、时间和站台的词汇即可。实
际上,某些火车站就利用语音合成装置以这种方式进行广播。填满空格后的句
子可能成为:开往纽约的特快列车在13时从3站台发车。然而,在计算机没有理解上述句子意义之前,人们必须为它准备与每个空格对应的适当词汇,否则,任它自由填入一些单词,句子可能变成:开往地狱的疯狂列车在午夜时从魔鬼
站台发车。不管哪个火车站的广播里报出这种通知,恐怕都会把旅客们吓得半死。
人类语言中的词汇是不能随心所欲加以组合的。词汇不仅有名词、动词、
代词、形容词、副词等词性区别,它们的组合还必须遵循一定的规则。例如,
汉语中的代词"我"、名词"饭"和动词"吃",按上述顺序排列成"我饭吃",谁看
了也不会认为是汉语中的句子。这三个词必须按照汉语的句法,分别充当句中
的某一成分,"我"充当主语,"饭"充当宾语,"吃"只能作谓语,组成"我吃饭"即"主--谓--宾"句式。这就
是句法分析,当然,更多的句子要比"我吃饭"复杂
初三寄语得多。但是,即使我们完全遵守句法规则造句,也不一定就能够得到有意义的
句子。例如在上句里交换"我"和"饭"的位置,造出一个"饭吃我"的句子,句法
上挑不出一点毛病,但不好理解,或者说这是一个句法正确但没有意义的句子,它表明了句法和语义是语言学中不同的知识领域。
为了便于机器翻译,首先需要把自然语言的句子经过句法分析,分解为不
同的成分。然而,一些句子可以有不同的分解方法,不同的分解会产生不同的
语义。请看下一句子的两种分解法:咬死了猎人--的狗。咬死了--猎人的狗。
前一分解法应解释为:狗把猎人咬死了;后一分解法则应解释为:把猎人的狗
给咬死了。这就叫"句法歧义"。会产生歧义的句子在语言中比比皆是,再比如: