本文共 5885 字,大约阅读时间需要 19 分钟。
大家一看题目就知道它来自中国的一句成语,叫做“巧妇难为无米之炊”。“巧妇”指好的算法,“大米”是大数据,好的算法遇上了大数据,当然还得有一个灶台,灶台就是强大的计算能力。这三件事放到一起,对于机器翻译就会产生很多有趣的事情。
今天分享大概分四部分,第一部分叫做机器翻译波澜史。这几十年的发展一波三折,非常有意思。第二部分是讲机器翻译现在主流的技术——神经机器翻译,它仍然是可以改进的,并不是谷歌就做到头了,后面我会给大家举一些例子。第三部分的主要内容是应用拓展,就是技术实际上是通用技术,拥有一般性的原理,可以放到很多的领域,我会用计算机自动创作古诗为例仔细谈谈。最后会给个结语。
下面这张图是几个月前谷歌发布的机器翻译系统,此系统实际上是完全基于神经网络的一个深度神经网络系统。它挺有意思,最上面perfect是最佳境界,但这个即使是人也做不到完美。谷歌翻译是绿色的 ,从Spanish到English和人做得差不多,但中文到英文和英文到中文差别比较大。实际上中文是世界上最难让人处理的语言之一,所以肯定做不好,但是不管怎样这个结果已非常震撼,我当时试了一些句子,发现效果确实不错,和我自己说的差不多。
在这稍微回顾一下历史,这个历史很有趣,这个研究应该不是凡夫俗子启动的,而是有大智慧的人做的——机器翻译之父Warren Weaver。他很了不起,他在1949年和信息论之父写过一本书,就是和相同的信息论两本书合著。1947年3月4日他写信给控制论之父Norbert,在里面提出了机器翻译的可能性,翻译叫做信达雅,他说达雅做不到,信还是可能的。1949年写了一个《翻译》备忘录,不长,但是提出了系统翻译的思想,里面有四条比较关键,我简称WW建议。
第一条谈到了意义和上下文。比如说语言中有歧义,歧义要在一个窗口里解决,就是上下文的想法,这其实和后面马可福语言链是对应的。第二语言与逻辑,这就离不开句法语义分析,因为得到语义数分析数才能抽到逻辑,这点强调了语言分析对机器翻译的重要性。第三条是从信息论和密码学角度提出要研究语言的统计语义性质,这是从香农的信息论角度出发,那个时代做密码实际上是主流要从统计学研究一个东西,后来我们几十年以后叫马尔夫模型、野马模型走的大概是这个路子。第四条提出了普遍语言问题,也就是语言之间有通用性。在机器翻译中有个领域叫基于中间语言,当时他好像漫不经心写了个备忘录,这个备忘录我看了这四条,机器翻译到现在,这几十年的发展历史,基本是按他的框架做的,这个人还是非常了不起。
所以我把1947—1956年叫大潮初起。机器翻译后来全世界都在做,但当时研究的都是世界上最好的公司,如IBM、麻省理工学院就为组来做。沿着路线一和三,基本是统计,我们后来叫它经验主义;二和四是基于规则,我们称之为理性主义。最初都沿着规则的系统走,也可以理解,因为做语言处理总要循着人类的语言处理分析做词法分析、语义分析,很自然地要走这条道。1954、1955年就有这种实验,主要在美国和前苏联。实际上和冷战有关系,大量的与军事、情报相关的东西需要被翻译。但很快,大概到1957—1966年就开始从第一次波峰跌到了波谷。其实刚开始做得还是很好的,像哈佛、伯克利都在投入,包括中国做机器翻译也很早,1958、1959年我们就做出了俄中一些机器翻译系统。
但系统出来后大家可以看到结果,审视结果后觉得没有那么乐观。最著名的就是1960年以色列著名哲学家、数学家和语言学家Bar-Hillel发表的一篇文章。他最初做机器翻译是很积极的,全世界第一次机器翻译国际会议也是他组织的,但他在文章里给了一个判断,就是机器翻译不行,做不了。他举了一个很简单例子,“Little John was looking for his toy box. Finally he found it. The box was in the pen. ”因为pen有两个意思,一个是笔,一个是围栏,到底是钢笔放在盒子里,还是盒子放在围栏里,这里面很复杂,你需要看更远的上下文,你需要知识才能解决,所以他的观点是比较悲观的。另外,当时还有一个故事,也很有趣,还是一个测试,英文输入“The spirit is willing but the flesh is weak”— —“ 精神是愿意的,但肉体确实不愿意”。这句话经过机器翻译成俄文,再把它翻译回英语,得到了令人啼笑皆非的结果——“伏特加酒是好的,但肉却腐烂了”。这个例子虽然发表了,但据说是假的,有人质疑其真实性,不过确实能说明那时机器翻译水平。美国政府成立了一个机构,由权威人士组成,对当时美国机器翻译情况进行评价,这个报告非常有名,有人称之为机器翻译的黑皮书,基本宣布机器翻译是不可行的。报告结论是全自动机器翻译基本否定,建议做机器辅助翻译。此外,机器翻译还遇到了难以克服的语义屏障问题,需要加强对计算机语言学研究。所以这部分实际上是对过去到1966年之前的一个终结。
下一个阶段是1967—1989年。我称之为波澜不惊水长流,因为美国停下来又转到了加拿大和欧洲,其实还是沿着理性主义这条道路走的,对WW4加强了。因为欧洲语言你要处理很多种,中间语言就加强了,并且还有一些商用系统出现,特别是用在国防,不过不是面向公众。这个期间对句法语义分析研究大量的出现,实际上为完美的实现基于理性主义的想法创造了非常好的技术。
下面是1990年到现在,实际上形成了一个新的波峰,是通过两个冲击波上来的。1990年对计算有划时代的意义。在赫尔辛基的第13届国际计算语言学大会开始提出处理大规模真实文本的战略任务,也就是说大数据的思想是做自然语言处理,我认为这差不多是第一个提出的,在整个科学领域它提出的最早,整个研究基于大规模真实语料。这部分内容别的领域提的很少,我认为自然语言处理是最早用的,因为那时开始有了大量的真实语料,包括双语语料成规模的出现,所以第一个冲击波叫做统计机器翻译模型,也就是最著名的IBM模型1-5。IBM还是老大,最早的机器研究也是它,划时代的也是它。不过后面产生了像谷歌、百度这种互联网的翻译服务,是因为以前的翻译服务是面向特定用户的,后来是面向广大用户的。当时很有名的一个学者叫Och,有一句话非常著名,说“只要给我充分的并行语言数据,对于任何两种语言,我都可以在几小时之内构造一个机器翻译系统,我靠统计翻译方法就可以做出这个事情。”这彻底摒弃了以前的沿理性主义道路,开始全面改成经验主义,这里面基本语言学家没有什么机会,只要你给我双语料就可以做出系统,谷歌几十种语言都是机器翻译,都是很容易做出来的,所以我叫理性终结主义。
但很快,大概2014年左右推出了神经机器翻译,就把刚才的终结者一终结了。终结者一统计机器翻译就像下围棋大概入段,而神经机器翻译一下子就九段,把那个终结了。像谷歌、百度现在已经用神经统计机器翻译系统替代纯粹的统计翻译系统,所以其实发展到这就是好多神经网络算法,有大数据,还有GPU,就做出这件事来了,这是一个发展的历程。这个历程我觉得还是挺有意思的。
这是nature的一篇文章,这三位都是做深度学习的大牛,就是有神经的机器翻译系统我不需要做语言的处理了,这是一个很深刻的问题。
但神经机器翻译系统还是有很多问题,我们刚才讲的“精神是愿意的,但肉体是虚弱的”,我拿谷歌翻译成中文,翻译结果是“精神是愿意的,但肉体是软弱的”。
翻译成俄文再翻译回来基本也是原话,翻译成苗语再翻译回来,一来一去一看质量确实翻的不错,但是它仍然存在问题,比如说in the box那个问题还是不行的,现有模型就是双语语料,肯定做不对。你随便测试一些东西,也不用太难为它,比如我说阎肃是个好同志,阎肃是一个作家,它就完了。
你再看翻译泰戈尔的《飞鸟集》,他在吟诵泰戈尔的《飞鸟集》,他在翻译《飞鸟集》都是不对的,所以不完美,有很多需要改进。
我简单说一下清华大学的工作,我们科技组有一个刘老师,在机器翻译方面做了很多的研究。
比如我们可以把最小风险的训练,不是用最大MSE,把这个东西嵌入到函数里,最后这个结果就非常好。比如说像BLEU值是0.333 8,这是最小的翻译值,我们可以做到0.409 1。
举个例子,美国代表团包括来自斯坦福大学的一位中国专家、两名参院外交政策助理以及一位负责与平壤当局打交道的前国务院官员。这句话翻译结构挺难的,靠统计机器翻译做不好,你看效果就很差,这是我们SMT的效果:
你用SMT传统有一些毛病,但我们可以避免这个问题。
这个是我们的系统和谷歌、百度等的翻译效果对比。比如一个句子,“Two field measurements fos atmospheric fine particles were wconducted in Baoan district of Shenzhen during the summer and winter in 2004”。谷歌的翻译是:“大气细颗粒两个现场测量在深圳市宝安区2004夏季和冬季期间进行”,我们 的翻译:“2004年夏季和冬季在深圳市宝安区对大气细颗粒物进行了两次实地测量”,要比那个顺。
再往下,还有一个改进就是基于它的机制,我们是中到英、英到中尽量一致,有一些策略,一来一去应该尽量一致。现在的方法是你孤立地看不一致,你再去看它的对齐,就会对的比较好,对的好以后效果也会好,你看中到英,独立训练是BLEU值23.63,联合训练就是26.42,效果比较好。还有一个改进,双语语料要用,因为它获得比较难;单语语料比较容易,你做中文的单语语料和英文的单语语料放到这个模型里效果也会提高。
比如,你看如果不用单语语料值大概31.74、15.14,如果使用了任何一种单语语料,效果从31.74就可以到36.45,很显著地提升。
我想说的是谷歌的翻译系统不是把事情做完了,你仍可以提出很多创新性的想法,提高系统性能,这块对研究还是大有用武之地的。
这是我们的三篇论文,都发表在这个领域顶级的会议上,大家可以去读一读。
下面我讲讲,我们拿这个通用模型做古诗创作。这个工作是和我的两个本科生同学合作完成的,这种通用方法对很多行业都是一个机会。现在人工智能的气候已经形成,基本方法就摆在这,比如LSTM模型,现在是到了收获季节,看谁去摘桃子。你拿这个东西赶快去摘,找对问题,把桃子赶快摘下来,晚了就没了。
从研究角度来说,第一个做这个事情是好的研究,第二个做的就变成作业了,所以一定要快,我们相当于做的比较快,做了一个古诗创作。实际上,你去算古诗的复杂度不比下围棋低,而且它是从人文角度反应,我不知道在座各位多少还能作古诗,不过80%应该做不过我这个系统。
我们用的是LSTM,但是有改进,不是在上面跑就可以做出这个效果。我给大家看结果,这个模型可以比较好地捕捉到词之间的相似性、句子之间的相似性,有些的词创作非常有意思。
你送给系统上句叫“江上西风一棹归”,下句是自动生成的“夕阳不见客舟低”。江上的风浪不小,船到下面看不到夕阳了,感觉意境还是不错的。再比如,“又听西风堕叶声”,下面是计算机产生的“万事尽随天籁起”,这两句诗你查古人没有想过,是计算机创作出来的。
对仗性,第一个叫“星垂平野扩,月落远林疏”,对的还是挺好的。比如给一个主题词,随便说给“秋叶”,下面系统创作出来的“白蘋江上惊秋雁”。我们把所有的古诗送进去训练(这个掌声应该给两位同学)。我们也做过评测,和人比还是要差一点,古诗多了,上百万首,其实分别不算太远,但是比古人做的还是有差异的。
机器还可以做藏头诗,因为撒贝宁的名字有点怪,你给我弄个撒贝宁酷,计算机做的“撒手离亭送别情,贝叶无梦到孤城,宁知梅岭遥相望,酷似清风入夜生”,还挺有意境的。其实你可以随便迁入,计算机做这个事情容易。
我们还做了一个自动做集句诗,这其实是古代考察这个人书读得够不够的一个方式。就是你做一首诗都是古人做的,听起来要有意境。这是一个很经典的叫“枫叶芦花并客舟,烟波江上使人愁,劝君更进一杯酒,昨日少年今白头”,这是我们做的五绝,“江南杨柳春,二月芳草新,千里一回首,青青向故人”。这也是拼的,都是古人的诗。我们还在摘桃子,但是也在改进。你会看到有了这么通用的工具,其实是我们花半年的努力,搞一两个比较行的学生,就已经有可能把桃子摘下来,所以我呼吁大家赶紧摘桃子。
你去看机器翻译整个历史,这句话特别贴切,“山重水复疑无路,柳暗花明又一村”。我们遇到很多次这种情况,有时候做感觉做到头了,但是又有新的路出来,不是靠技术细枝末节的积累,是靠创新性方法。是创新性终结性的方法把境界不断地提高,所以创新特别重要,这里面有很多的挑战,其实包括“一带一路”。你神经网络分析基本假设没了,大数据没了,因为双语不会那么多,这里有很多挑战。这块我认为理性主义和经验主义将来还会在某种程度实现回归,不可能完全都是经验主义往前走,不过这个问题就更深了。
总的想法就是要创新,你看机器翻译历史上,我们中国人的创新很少,基本都是跟着人家跑。像谷歌的深度学习神经网络出来以后,当时看到报道,这个模型几乎人家都做出来了,我还觉得这个事儿不可思议,这就是差距。为什么?因为那个模型,比如说把你们这些人打一个包,一压缩以后分解成那边的那波人,相当于做这样一个映射,这边人捆成一个向量变换成那边一群人,成一个向量,一大堆压成一个单体,再单体产生一大堆,逻辑还要保持,这个事儿一想非常不可思议,但是确实靠很大的模型就建立了这么一个复杂的映射,我们的创新能力确实不够。所以创新能力要注意,有创新能力才能创造一个季节,就像春夏秋冬,你才能到秋季,才能创造收获的季节。
最后,既然到了秋季就赶快摘桃子,创新能力不够,但是毕竟是收获季节,你利用人家的创造还是可以做很多创新性的事儿,就像刚才的古诗。
(本报告按现场速记整理)
清华大学计算机科学与技术系教授,系党委书记。2007—2010 年任该系系主任。主要研究领域为自然语言处理、互联网智能、机器学习、社会计算和计算教育学。国家重点基础研究发展计划(“973”计划)项目首席科学家。国家社会科学基金重大项目首席科学家。在国际刊物、国际会议、国内核心刊物上共发表论文 150 余篇,其中顶级国际会议和刊物以及 SCI 索引论文 60 篇左右。主持完成文本信息处理领域 ISO 国际标准两项。
转载地址:http://uidfa.baihongyu.com/