
他山之石
基于全信息的自然语言理解方法论
中文信息处理在学术上属于人工智能中"自然语言处理与理解"领域的一个分支,不过,这里关注的自然语言特指"中文(汉语)"。
自然语言处理与理解的根本目标是使机器能够"在一定程度上理解"人类的自 然语言。其中对于自然语言进行的各种处理,目的是为了要理解自然语言。换言之处理只是手段,理解才是目的。一旦机器可以在较好的程度上理解人类的自然语言, 就可以给人类社会带来以下两方面的巨大贡献。
第一,随着全球化的推进,平常百姓都有频繁的机会同外国人打交道。然而, 世界上至少有100多种不同的自然语言,想要让每个老百姓都那么多不同的外国语 言,肯定是不可的事情。可是,让小巧玲珑的"翻译机"提供若干种比较流行的自然语言的翻译却是轻而易举的事。这样,人们从此可以不必花那么多的时间去学习 外语,而把节省下来的时间用来学习科学技术。因此,自然语言理解的研究有力地支持了全球化的需要,又为人们节约了大量宝贵的时间和精力。
第二,具有理解人类自然语言能力的机器,是一种智能机器,可以充当人类劳 动者与其它(担负劳动何工作任务的)智能机器之间的理解中介,因此,传统上人类 劳动者依靠简单的"控制指令"来同机器合作的局面就可以大为改观,从而可以做到人和机器之间的合理分工和默契合作。这对于整个社会生产力和促进人类劳动者 从自然力的束缚下获得越来越多的解放具有伟大的意义。
这些目标当然不可能一蹴而就。本课题的目标是为"机器理解人类自然语言" 寻求 比较科学、比较可行的方法论。国内外关于自然语言的处理与理解方法的研究, 长 期专注于"语法"层次的研究;20世纪末期以来,进到了"语义"的层次。然而,自然语言是语法、语义、语用三者的"有机统一体",整体不等于部分和,因此, 目前"语法加语义"的研究不可能满意地解决自然语言理解的问题。出路是要充分利用"语法、语义、语用三位一体"的全信息。这就是本课题《基于全信息的自然 语言理解方法论及应用研究》立论的根据。但是,本项研究将不希望泛泛地研究《全信息自然语言理解方法论》问题,因为这样一般性的研究结果往往难以验证它的 结果。为了避免这种情况,本项课题拟结合实际应用研究项目-网络信息内容安全监控系统-展开研究。众所周知,传统意义的信息安全主要利用密码学方法解决, 通过编制密码把信息内容保护起来,没有授权(因而没有解密密钥)的第三方不能解码,因此不能接触被 保护的信息内容。但是,近年来,由于Internet的广泛应 用,一种同样重要(如果不是更重要的话)的信息安全问题被突现出来,这就是" 信息内容的安全问题"。 一般而言,信息内容安全问题包罗的范围很广,其中最 受关注的信息内容安全问题是:抑制不良信息(如反动信息、黄色信息、暴力信息 等等)在网络上的传播。这 是当前人们最为关注的信息内容安全问题。 显然,采 用密码学方法来解决信息内容安全问题,将无济于事。解决信息内容安全问题的关键是必须能够准确"理解"信息的内容,在理解的基础上才能判断一项 信息是否 符合安全的要求。而且,网络(包括电子邮件)上的信息通常都是用"自然语言"书写的。因此,这里就用上了"自然语言理解"的方法,舍此没有别的更 好的办 法。 自然语言,是人类用来"表达信息"的工具。因此,理解自然语言的实质是要通过分析自然语言来获得自然语言所表达的信息。而自然语言所表达的信息具有 一定 的层次体系:自然语言的形式结构所表达的是"语法信息";这种形式结构所包含的逻辑内容所表达的是"语义信息";这种形式结构及其包含的逻辑内容 一起所体 现的(对于特定目的而言的)价值是它的"语用信息";而语法信息、语义信息和与用信息三者的有机整体,则是自然语言所表达的"全信息"。于是, 如果能够获 得自然语言的"全信息",就可以理解它的内容和价值,就可以判断它是否符合安全要求。
由此可以确定,本课题要研究的问题主要包括以下方面:
(1)在理论上阐明自然语言理解的本质;
(2)阐明全信息的理论,研究全信息的表示方法;
(3)揭示"全信息与自然语言理解之间的关系";
(4)建立"全信息自然语言理解的方法理论";
(5)研究"全信息自然语言理解方法"的实现技术。
基于全信息的自然语言理解方法论研究是一项前沿研究课题,国内外还没有见 到同类的研究,在整体方法论上具有重要的创新意义。
正因为如此,它具有很大的研究难度。特别是上述的(1)至(4)是研究中的难点所在。关于"全信息自然语言理解方法"的技术实现途径,将结合《智能型信 息内容安全监控系统》的研究来进行。