

传统方法陷入泥淖
大正语言技术负责人强调指出,公司之所以能够在困难重重的中文信息处理领域开创出一条全新之路,原因在于:
在长期的研究中,很多专家早已意识到我国中文自然语言处理普遍采用西基于拉丁语系的“关键词”技术,以此来分析理解中文是行不通的。因为中文本身的特点决定 它与西语之间巨大的区别,举例来说:西语词间有间隔,汉语词间无间隔;汉语形态不发达,句尾没有形态标记;同音字多增加了机器识别的难度;汉语语义灵活, 由于形态不发达,所以语序无规律。
一位著名的人工智能专家说:“按‘主-谓-宾’或‘名-动-名’这一规则,计算机可显出‘牛吃草’,也可显出‘草吃牛’。从语法格式上看,‘草吃牛’也不错,但这句话是说不通的。人依靠自己的经验可以判断,机器如何来判断呢?
目 前,我国搜索引擎所沿用的“关键词”技术势必使中文信息处理陷入泥淖,如果按照国内外普遍采用的语法分析、语法语义分析、语料统计等传统的技术路线继续搞 下去,计算机永远不可能理解人类的语言。而从单一的语言研究转变为跨接语言学与计算机机科学的交叉研究才是计算机语言学发展的必然出路。
大正语言很早看到了这一状况,一直坚持创新、潜心研究,力图挖掘出更符合中文规律的认知方法。在具体实践中,摸索出一条交叉学科的创新之路。
交叉学科创新––中文信息处理的沃土
除了中文本身的特点之外,大正语言在研究过程中还发现,以往的中文信息处理,存在这样的尴尬:学计算机的不懂语言学,学语言学的又不懂计算机,两者之间的鸿沟将现代汉语研究领域和计算机领域隔绝开来。隔绝,这个“致命”的弱点使两个领域的英雄们都无用武之地,阻碍了语言学和计算机学一起向着所需要的一切学科延伸。
打破两者的界限才能使中文信息处理步入新的轨道。语言学与计算机科学结合的序幕是1989年3月4日在清华大学召开的一次联席会议上拉开的,此次会议
社会实践是检验创新的试金石
具有划时代的意义,两个学科的重要人物坐在了一起,共同商讨语言学和计算机科学的合作与发展问题。
著名语言学家林杏光先生在多篇报告中提出:“信息时代的语言研究工作者要承担为计算机研究语言的任务,在研究课题中要考虑计算机处理语言的需要,并不断向计算机的需要靠拢,同时要迎接信息革命的重大挑战。”
大 家一致认为只要科学发展沿着全面认识自然规律的道路前进,它就必然会进入交叉学科阶段。特别是在知识经济的时代背景下,要揭示高难研究对象,以往单科独进 的科研模式已经难以维系,天体物理、地球物理、量子化学、分子生物学等新学科的创立,无不是学科间的大交叉及多学科理论和方法大综合的“联袂”结晶。
大正语言所秉承的HNC理论从中文语言特性出发,除集合了计算机语言学的学科理论知识,还联袂了哲学、社会学及自然学的知识创新,打破了传统的语法结构框架,从语义表达的主线出发,把自然语言知识中的概念知识抽取出来处理,从而解决了完全采用语法和词汇原则来理解文字信息的死循环。可以说,HNC理论是多学科沃土成长起来的一门新兴学科,自诞生之日就引起了学术届的广泛关注。
中国计算语言学专业委员会第一届主任鲁川先生,在《有关“科学”和“语言”的畅想––浅谈HNC的学科定位》一文中写到,HNC是自然科学跟人文科学交叉的新兴“智慧科学”的一个典型代表。 在此理论之上,经过七年多的努力,一个拥有核心交叉学科的研究队伍、资产上千万、并处于国内中文信息处理领先地位的北京大正语言知识处理有限公司发展起来,先后承担了“八五”科技攻关、973项目、863计划等多项国家及地方重大项目,在基础和应用基础研究、新技术研发、人才培养和成果转化等方面都取得了可喜进展。HNC技术成果已成功应用于智能检索、机器翻译、信息智能过滤等多领域,并得到了国家及社会的认可和好评。2004年大正公司获得北京科学技术委员会颁发的“双软认定”。
在探索过程中,北京大正根据社会生产需求拓展研究领域,以理论研究促进方法学的创新,以应用方法学创新催生应用成果,用成果转化反哺基础研究,使创新逐步走上了良性循环的道路。