机器翻译与人工翻译的区分
(1)机译归根结底是一个语言处理问题,系统需要强大的语言知识的支持;首先机器词典要有足够的词汇量,常用词语以英语或汉语论应不低于4万;为词典中每个词语给出的信息愈丰富愈好,一般分为词法、句法和语义信息。我国甚至早期的系统在这方面已有明确的体现,如当时有"类属组"三级信息。
(2)语言规则的获取来自真实的、尽可能多的语料,而不只限于教科书的例句。中国的具有代表性的系统都是这样做的,如70年代在中国科技情报所开发的两个题录系统是以5000条双语冶金题录为调查语料的。邮电科研院系统的词语和语法规则都来自于对INSPEC磁带数据的调查。随着近10年来语料库利用的发展,更加充分地但又是清醒地利用好语料库,善于从中获取知识的方法是很可取的。
另外,大规模语料库对于机器翻译所必需的词语正确搭配的遴选也是很有效的资源。
(3)描写性的语言规则会比过程性的语言规则更好。后者由于同加工过程紧密相关,会增加编写规则的难度和系统调试的难度。
(4)源语言分析中采用多结点、多叉树、多标记的中间表达被证明是可取的,它优于简单标记的方法。
(5)把语言数据同程序分开,是普遍采用的方法。这样做便于系统的调试、完善,有利与系统的扩充。
源语言分析将是大语境的、基于理解的。如今的分析都是孤立的一个句子一个句子进行的,即单个句子为处理的基本单位。未来的分析将是以句群为单位的。如今的分析求出的是句法关系树,充其量是概念的语义关系图,而不是对文本给出的意思的求解。有人说,简单的都做不到,那么复杂的就更不可能了。其实不然,正是"简单"了,有些问题才变得无法解决的。现在认为"简单"的,几十年前,不是很复杂的吗?
随着因特网的出现和发展,机器翻译的应用前景将更为诱人,也会带来更好的商机。但应该提醒的是:今天机译系统的翻译质量还很差。50年来译文质量应该说还未取得实质性的突破,这在世界范围内都如此。机器翻译不但是一个语言处理问题,也可以说是一个知识处理问题。没有点点滴滴的、艰苦的知识和经验的积累,是不可能开发出实用的机译系统的。现在之所以有的开发周期缩短了,一则是因为开发者有长期的经验积累,一则是得到可以共享的资源,而绝不是有什么"绝招"。实际上机器翻译要能真正满足人们的需求,还有很长的路要走。展望下一个世纪,我们做这样的预测,实际上也可以说是我们应该争取的突破点
|