计算语言学与传统语言学的区别

  冯志伟在翻译《自然语言处理综论》(修订本)

计算语言学与传统语言学的区

 冯志伟

   1964年我在北京大学中文系读研究生的时候,向我的导师岑麒祥教授提出了一个在当时看来很奇特的要求:我要求把“语言研究中的数学方法”作为我的研究生毕业论文题目。

   当我提出这个奇特的要求时,岑麒祥教授用疑惑的眼光看着我,严肃地质问:“冯志伟,你究竟是不是还想研究语言学?”

   在岑麒祥教授看来,语言学是纯粹的人文科学,在语言学这样的学科中,采用数学方法是一种离经叛道的行为。

  我向岑麒祥教授辩解:“老师,我确实是在研究与语言学呀!用数学方法研究语言,正是为了发展语言学。”

  我在北大中文系读本科时,曾经听过岑麒祥教授的“语言学史”课程,我这门课程的考试成绩是100分,名列全班第一,岑麒祥教授对此还记忆犹新,因此他把我收为他的弟子。我向岑麒祥教授提起我考100分的事,使得岑麒祥教授觉得我还是一个有资格学习语言学的人,才非常勉强地同意我研究这个在他看来是十分奇怪的题目。

  计算语言学在发展初期确实是步履维艰,甚至于连岑麒祥教授这样的语言学泰斗也不能理解。

  47年过去了,计算语言学在狭缝中成长,终得到了大多数语言学家的承认,成为了语言学的一个分支,尽管计算语言学经常被语言学的权威们边缘化,但是,这门新兴学科仍然在语言学的边缘地带不断地发展着。计算语言学就像在打“游击战”,尽管它不是“正规军”,却显示出其顽强的生命力。

  那么,计算语言学与传统语言学究竟有什么区别呢?

  计算语言学的研究对象是自然语言。自然语言是人类区别于其它动物的重要标志之一。人借助于自然语言交流思想,达到互相了解,组成人类社会生活;人还借助于自然语言进行思维活动,认识事物的本质和规律,创造了人类的物质文明和精神文明。

   自然语言是人脑的高级功能之一。心理学研究表明,人脑的语言功能具有一侧化的性质,它主要定位在大脑左半球,由大脑左半球所控制。因此,自然语言是人类特有的一种最重要的智能。

  计算语言学与传统语言学的区别          

                                 人脑的语言功能具有一侧化的性质

   最近IBM设计的计算机沃森(Wattson)在人机对决中战胜了人,显示了电子计算机的智能化水平。智能化电子计算机的研究离不开计算语言学,计算语言学的研究水平,在智能化计算机的研制中,起着举足轻重的作用。我们中国的计算语言学研究人员,应该站在电子计算机智能化这样的高度,以战略的眼光来看待计算语言学的研究,把我国的计算语言学提高到一个新的水平。

   在电子计算机软件中,早已设计了许多人工语言,如BASIC, PASCAL, COBOL,PROLOG, LISP,JAVA等程序设计语言,这些人工语言与自然语言一样,都遵循着形式语言的规律和法则。计算语言学与传统语言学的区别

                                         程序语言

   美国语言学家乔姆斯基(N. Chomsky)的形式语言理论,既适用于人工语言,也适用于自然语言,这有力地说明,自然语言与人工语言之间,在形式描述方面,确实存在着某些共同的性质。正如美国著名的逻辑学家蒙德鸠(R. H. Montague)在《英语作为一种形式语言》一文中所说的:“我并不认为形式语言和自然语言之间在理论上存在着重要的区别。”

    计算语言学与传统语言学的区别

                       世界自然语言的分布比例

   但是,自然语言毕竟是人类历史长期发展而约定俗成的产物,它带着几千年人类历史的痕迹,比人工语言要复杂得多,因而用计算机处理起来也就困难得多。

   自然语言起码在下面四个方面与人工语言大相径庭:

   (1) 自然语言中充满着歧义,而人工语言中的歧义则是可以控制的;

   (2) 自然语言的结构复杂多样,而人工语言的结构则相对简单;

   (3) 自然语言的语义表达千变万化,迄今还没有一种简单而通用的途径来描述它,而人工语言的语义则可以由人来直接定义; 

   (4) 自然语言的结构和语义之间有着千丝万缕的、错综复杂的联系,一般不存在一一对应的同构关系,而人工语言则常常可以把结构和语义分别进行处理,人工语言的结构和语义之间有着整齐的一一对应的同构关系。

   由于自然语言的这些独特性质,使得计算语言学成为当代科学技术一个难题。计算语言学的种种难题常常使研究者们感到心力交瘁,进退维谷,往往使他们陷入束手无策、一筹莫展的困境中。然而,恰恰因为计算语言学的这些难题,也吸引了许多专门探索难题的研究者,他们以克服困难为乐,以克服困难为荣,每当他们在艰苦的探索中有所前进的时候,就会产生“山穷水尽疑无路,柳暗花明又一村”的清新之感,体验到胜利者的欢乐。有志于计算语言学的探索者就像科学战线上的侦察兵,对于侦察兵来说,没有道路的路,才是世界上最好的路。计算语言学的研究有如一条充满艰险的荆棘之路,这条荆棘之路一旦被勇于探索的侦察兵开通了,披荆斩棘之后,前面就是一马平川的坦途。正是这种对未来的坚强信念,鼓舞着国内外无数不怕艰险的探索者,向计算语言学的高峰努力攀登,50余年的探索,成绩斐然,使他们真正地体会到了“无限风光在险峰”的愉快。

我们欢迎语言学工作者加入计算语言学研究的行列,来与我们共同体味攀登荆棘之路的艰险,共同享受“科学有险阻,苦战能过关”的欢乐。

   但是,当一位语言学工作者参加计算语言学研究的时候,你应该注意到计算语言学的研究与传统语言学的研究的不同。这些不同主要是:

  第一,计算语言学要面对整个的自然语言现象,因此,它必须研究计算机处理语言的带有普遍性和总体性的一般问题, 在研究语言时必须全局在胸;而传统的语言学家喜欢深入研究某一特殊的语言现象,更加重视研究语言中的某个特殊问题。研究计算语言学好比使用望远镜,应该“通观全局,大处落墨”;而研究传统语言学好比使用显微镜,应该“明查秋毫,精雕细刻”。

  第二,计算语言学的研究结果必须要通过计算机自然语言处理来检验,计算语言学的结论要做得通, 更重视理论的实用性,要求研究者“躬行实践,身体力行”;而传统语言学家则要求讲道理,传统语言学的结论要说得通,更重视逻辑的完美性,要求研究者“自成一家,词严义密”。

 第三,计算语言学研究语言时必须先分析后理解,在分析之初,计算机不可能懂得或理解所分析的语言片段的意思,理解是分析的结果;而传统语言学研究语言时,往往是先理解后分析,在分析之初,研究语言的人根据自己的语感和内省的经验,早已知道并且理解了所分析语言片段的意思,理解是分析的必要前提。

 第四,计算语言学是边缘交叉学科, 要求研究者具有语言学、数学和计算机科学的全面的知识, 这就要不断地进行知识更新的再学习;而传统语言学一般不涉及数学和计算机科学,但需要具备语言学和人文科学的深厚功底,才能得心应手地进行研究。

   我们在从事计算语言学研究的时候,应该注意到计算语言学的这些特点,就可能收到事半功倍的效果。


原文地址:http://blog.sina.com.cn/s/blog_72d083c70100pjc4.html

微信扫描二维码
扫一扫二维码,即可分享文章到微信!
<!--统计代码-->