机器翻译出错闹笑话的段子数不胜数,但大数据的应用却令这种技术手段日趋完善。甚至有支持者认为,机器翻译终将取代人力,让人类克服语言障碍交流。然而,技术真能参透人类语言的丰富和微妙之处吗?
大数据优势
初级机器翻译更像一部电子词典,擅长翻译单个字词和简单句子,但对多义词却束手无策。正因如此,尽管发展多年,纯粹的机器翻译仍然错漏百出。大数据时代的来临,可能彻底改写这种局面。
如今的机器翻译系统依据统计学原理工作。通常,设计者向机器翻译系统录入优质人工翻译文本。比对源语言和目标语言文本之后,系统能够自动识别,某种语言中的X在另一种语言中是Y。结合上下文,机器翻译系统还能识别在何种语境之下,X应该翻译成Z,而不是Y。
牛津大学研究机器翻译的专家菲尔·布隆索姆因此认为,机器翻译就是猜。“电脑其实根本不懂这门语言或任何语法,只不过依据统计学原理确定,应该是‘一条狗’而非‘狗一条’,”他说。
这意味着,输入的文本资料越多,机器翻译的准确率越高。“各门语言的情况不一样,建立一个机器翻译模式,通常需要3000万单词或者100多万个句子,”布隆索姆说。多亏有联合国和欧盟这样的机构存在,其翻译人员历经多年积累起丰富的平行语料库(也称翻译记忆库),为机器翻译研发人员省去不少麻烦。
这也解释了,以数据和资料庞大著称的谷歌为何在机器翻译领域表现卓越。谷歌的机器翻译专有系统堪称业界典范,能够实现63种常用语言的交互翻译。由于擅长摘取、利用网络资源,谷歌翻译还能实现某些罕见小语种的翻译。
“网络上有各种人翻译的多种语言文本,有些是高质量的翻译,有些不是,”知名机器翻译专家、谷歌翻译团队负责人弗兰泽·奥赫说,“各种类型我们都会用到,因为获取数据的量至关重要。”
山头林立
研究人员发现,如果将机器翻译应用于某一特定领域,其准确率将显著提高。因为这些专业用词精准、简洁。平时用途广泛、含义丰富的单词在该领域只有一个意思。
机器翻译发展因此呈现“山头林立”的局面,各企业开发出各自不同的专有系统。在这些翻译系统中,同一个词的意思往往大不相同。
以英文单词die为例,在生活用语中意为“死”,但在不同行业翻译系统中的意思大相径庭。适用工业领域的专有系统将这个词翻译为“硬模”“一种金属工具”;玩具制造商的专有系统则将其译作“每面带点的方块”;宠物店用这个词则可能指“上等品”。
这些专有系统的存在,再辅以后期人工编辑,令机器翻译不光是背包客自助学外语的工具,更成为可靠、专业的翻译工具。
欧盟委员会已经广泛应用机器翻译。对于人而言,欧盟机构和法规的术语拗口难记,而这却是机器翻译的长项。
电脑公司“戴尔”运用机器翻译系统、辅以人工编辑,在官方网站上提供28种语言阅读版本。戴尔因此缩减了40%的翻译时间,自2011年以来削减四成翻译支出。公司负责相关项目的官员韦恩·布兰估计,戴尔对机器翻译投资的回报高达900%。
专有系统提高了机器翻译的准确率,却限制了这种技术手段的通用性。今年6月,机器翻译专家、使用者和开发商在爱尔兰都柏林参与一个资源共享平台的聚会。主办者希望,越来越多开发者参与其中,共享各自的专有系统,这将极大增强机器翻译的应用前景。
技术局限
随着电脑运行更快、储存设备更便宜、翻译软件更智能,机器翻译的热爱者忍不住憧憬:会不会有那么一天,人们将彻底告别学习外语的苦恼,借助机器翻译,实现跨越语言障碍的自由交流?
对于主要居住在国内、只和本国人打交道的多数人而言,机器翻译会是一个不错的选择。随着技术完善,机器翻译将更为准确可靠,足够偶尔使用外语的人使用。
然而,人类语言如此复杂、微妙,远非平行语料库能够囊括。“如果涉及比喻或者任何诗意的语言,就非常困难,”牛津大学学者布隆索姆说“如果用到一个翻译系统从未见过的双关语,电脑只会字面直译。”
如果考虑各种语言的出处和文化差异,有些字词无法翻译,即所谓的不可译性现象,则根本不能指望机器翻译取代人工翻译。
另一方面,如果完全依赖机器翻译,会出现所谓的“谷歌漩涡”现象。谷歌翻译之所以备受推崇,因为其借助网络资源摘取了海量人工翻译资源。然而,随着机器翻译应用渐广,越来越多机器翻译的“二手”材料也混入其中。
“我们试图鉴别一段译文是否出自自己的系统,”谷歌机器翻译负责人奥赫说,“这意味着,我们将停在过去,不停地重复错误,(系统)却不停地将其显示为正确。”谷歌因此开发了一套特定网络算法,试图分辨从网络摘取的翻译资料是否出自自己的翻译系统。
发展机器翻译的终极目标是,人类借助机器,无视语言差别,实现书面和口头的自由交流。然而,对于大部分机器翻译系统而言,口译仍然是一片鲜有涉足的“无人区”。
“口语与书面语不同,句子里包含了不少‘嗯’、‘呃’,”剑桥大学信息工程学者比尔·拜恩说。“口语开头可能就是错的,提及以前说过的事情,当然还有些口语根本无法书面表达。”
■相关链接
少见的机器口译
虽然已历经数年开发,可用的口语机器翻译系统并不多,其中一种被美国军方采用。该系统储存约2500个常用语阿拉伯语译法,供驻扎伊拉克的美国士兵与当地人交流。
谷歌的一款手机应用是大众可用的一款口译工具。这款应用植根于谷歌的网络工具,可识别17种语言。
开启应用程序之后,主要用户对手机讲话,其语音将被录制并传送至谷歌的语音识别服务器,接着被转化为文本文件,并利用谷歌的网络工具予以翻译。翻译后的文件将再次转化为音频,经由互联网发送至用户手机。完成整个过程只需数秒。
谷歌的这款口译应用程序不尽如人意。背景音、口音或者含义模糊都可能导致最终结果出错。除此之外,该应用还有一个致命问题:对互联网的依赖。由于处理的数据量极大,最强大、先进的智能手机都无法单独完成整个口译过程。
“我们开发的语言模式如此庞大,以至于必须分别储存于多个电脑终端,占据许多许多许多G的内存,”奥赫说。