大正语言HNC搜索技术简介
一、简介
当前流行的检索技术是以拉丁语系为出发点的关键词检索技术,基于自然语言的语义检索一直是该领域追求的目标。大正语言HNC搜索技术以HNC理论为基础,通过语义处理技术进行搜索,使搜索结果更为准确。
HNC认为基于自然语言的检索技术可以分为四个层次。层次越高,语义分析的深度和形式化程度越高,检索的精度也会越高。每个层次都自成一个子系统,并且需要形成一个个组件嵌入到已有的检索系统中。
第一层次是智能分词技术。除了能切分出词表中已有的词以外,还能同时识别出句子中的专名、数量词(含时间)等等。得到这一层次的分析结果,能较为合理的控制基于关键词检索的粒度,对于结构和语义上紧密关联的词团块(如专名、时间词),将作为整体来检索,而不进行更细的切分,有效的提高了检索精度。
第二层次是概念与短语的智能近义扩展。在分词的基础之上,将每个词映射到概念空间,利用HNC概念层次语义网络,进行概念激活和联想,形成以源概念为中心的词簇。我们可以利用此技术构造词簇索引。另一方面,我们对检索语句进行分析,选择核心概念进行词簇扩展,形成基于词簇检索要求。另外,词簇是可分层、可扩张和可缩小的,因此可以根据检索结果的多少自动决定词簇的规模。比如,仅搜索“电脑”,得到的结果可能非常非常多,这个时候,算法可以由此决定不使用词簇扩展,而检索“用电脑解决股市行情的自动预测”,这个时候,返回的结果比较少,这时算法可以决定拓展“电脑”、“行情”、“预测”。这一层次,大大拓展了检索的广度,提高了检索的招回率,同时提供了一定的智能性和灵活性。
第三层次是基于语义检索的初级形态。上面两个层次,以及现有的基于关键词的搜索技术,都孤立的看待每个关键词、概念,用户检索要求中所体现的概念间的语义关系完全被剔除,搜索结果中匹配上关键词(概念)但是没有匹配上搭配关系,最终造成返回结果根本不符合要求的情况非常普通。这种例子举不胜举,这是现在造成现在搜索引擎返回垃圾太多的一个最根本原因。在第三层上,我们提出以概念为基础,基于句子(短语)语义结构(搭配结构)的检索技术。此技术以HNC句类分析系统返回的语义分析结果为基础,一方面对库中文本进行基于语义结构的索引,另一方面对用户检索要求进行语义分析,形成一个语义检索框架。使用此框架在索引中进行检索,大大提高了检索的正确率,配合第二层次的概念(短语)拓展,将使检索的性能在正确率、召回率方面都有质的飞跃。实现垃圾信息更少,有用信息更多的检索梦想。
第四层次是基于语义检索的高级形态。第三层次,我们依据的是句子的语义结构,在第四层次,我们将依据篇章的语境框架。语境框架中包含了文章的背景、情景、领域等丰富信息,我们能依据此框架,建立基于时间轴的,基于地点方位的,基于事件类型的等多种性质和形态的高级索引。这些索引的存在,将使搜索引擎真正体现出人的部分智能。检索系统的好坏将不再仅仅使用召回率和正确率来评价,语义检索系统的所能提供的语义索引种类与质量,将成为新的业界标准。
另外,我们还有面向结构化数据库的自然语言检索技术。简单的说,这个技术可以将用户的检索转换成结构化数据库的标准SQL查询语句,应用到各种类型的检索系统中,完成对当前各类检索系统的升级。
二、与通用搜索引擎技术的对比
中文处理理论的支撑 VS 拉丁语系的理论基础
拉丁语系带空格的语言处理方法,在应对以中文为代表的东方语系时,不可避免地遇到语言结构、文化背景、思维逻辑等方面的限制,中文处理的理论研究已经进行了多年,在国内也形成了多种流派,都在很大程度上促进了中文处理的理论水平提升,因而在中文处理上大大优于当前流行的拉丁语系处理方式。
基于语义的索引库建立VS.基于统计中文分词的索引库
中文由于其独特的结构,产生了当前语言处理中的诸多难题,如歧义、模糊等。基于统计分词的索引建立方式,在建立索引的时候就会形成错误的信息基准。而基于语言的索引建立,则可以在源头上便将错误的信息进行准确的处理
基于语义的检索VS.
基于关键词的搜索
关键词检索目前暴露出来的问题已然显现,大量非有效信息充斥其间。而通过对检索信息的语义处理,则会大大提高非有效信息的过滤程度。
基于语义相关性的排序规则VS.基于Page rank的排序规则
基于Page rank的排序先天的缺陷已经导致了目前SEO(Search Engine Optimization搜索引擎优化)的泛滥,而通过严格的语义相关性,则可避免此情况的发生。
基于语义的范畴识别VS统一信息反馈
现在搜索引擎要做的事不仅是找出你想要的,还有一个去除你所不要的功能。基于语义的范畴识别,可以将不需要的领域信息过滤,使得有效信息更为集中地呈现。相较当前通过搜索引擎的关键字比对反馈来说,大大提高用户体验,提高搜索的指定性和准确性。
大正语言HNC检索技术是基于语义相关度的计算方式,提供了一个以内容为主的评价方式,通过对网页文本语义的深入分析,形成语义相关的索引数据库,在搜索过程中以内容相关性为基准进行排序,从根本上解决了互联网上多种离散信息的整合问题,使得信息不再是以“形似”、“貌似”来组合,而是以基于语义的“神似”来为信息检索者提供信息的反馈。不仅提高非相关信息的过滤能力,在信息反馈结果的表现上更符合人类自身的习惯,提高用户体验。
三、HNC检索技术的应用方向
HNC检索技术的应用方向非常广泛,包括但不仅限于如下几个方面:
基于互联网的公众通用检索
基于互联网的行业垂直检索
基于互联网的主题跟踪汇集
基于局域数据库的信息检索
基于规模信息的自分类应用
基于定制化的商业信息挖掘
基于海量内容的审查和去重
目前,北京大正语言知识处理科技有限公司已经确定的方向包括农业信息智能检索、专利文献智能检索、互联网出版审查、网络舆情检索和分析等方面,并在这些领域取得突出的应用成果。由于HNC引擎的构建和检索方式均与别不同,是根据自然语言的特点以及篇章语义进行内容理解的,因此,针对不同的领域,HNC检索技术不仅可以做到挖掘关键词无法发现的隐藏信息,还可以去除无用信息干扰,呈现更精准的检索结果。
四、大正语言在农业搜索和专利检索领域的突破
大正语言已有的技术积累和审慎的市场评估,推出了农业信息智能搜索系统“华农在线”以及专利文献智能检索系统,目前已经取得令人瞩目的市场业绩。
(一) 农业信息智能搜索系统
华农在线是一个智能搜索在农业领域的应用项目,通过构建农业领域的专业词库,整合农业科研院所资源,系统可进行智能的自然语言长句问讯检索,同时整合各种农业专业信息,实现多种形式的智能化检索。
相较而言,网站系统在自然语言问讯查询方面取得了非常大的进展,可实现自然语言提问,返回符合用户期望的结果。与当前常规搜索引擎不同的是,常规搜索引擎是输入的描述性语言越多,返回的结果越是杂乱,而农业信息智能问讯的项目课题中,输入的描述性信息越多,返回的结果则更具有针对性。系统的研发在问句中的多动词和语义块感知处理技术、问句的句类分析、多元逻辑组合技术和时序性分析技术均取得突破性进展。
系统首先对输入问句首先进行中心词的判断,并根据辅助修饰的词组进行范围的缩小,对结果进行优化,得到最终的问讯结果。与通用搜索引擎相比,系统在长句问讯、模糊问讯上具有巨大的优势,在关键词和短句的搜索中,召回率和准确率也优于其它搜索引擎的表现,尤其在非有效信息的去除上,相对通用搜索引擎来说,更是具有不可比拟的优势。
(二) 专利文献智能检索系统
面向特定数据库领域的专利文献智能检索系统的开发,目前已经通过国家知识产权局专利局展开实施工作。系统在诸多国际国内大型搜索引擎公司公开招标测试的基础上进行的,通过固定语料和固定环境的测评,其技术处理能力和功能远远超过同类公司的答案库检索技术。系统目前已经被业界视为基于语义搜索引擎的一个典型应用。系统不仅具有常规的检索功能,还特别融入了截词符搜索、位置运算符搜索、临近运算搜索、比较运算符搜索、范围运算搜索等特殊的技术应用。
在基于语义的搜索技术应用中,短语分析和范畴分析是本项目的两大重点。其中短语分析是在专利技术的标题上进行语义的分析,使其抽象成为特定的概念节点,在搜索的过程中可以越过检索内容特定词的限制而召回具有同类含义的专利项目。而范畴分析应用在索引和检索两个阶段,在索引阶段可自动划分专利文献的分类,如:化工、生物、计算机、食品等。在检索阶段,系统可以对输入的检索条件进行分析,得出特定范畴进行检索,由此来判定专利是否重复申请。
此外,系统还涉及到了一个项目可定制的领域关键词扩展系统,可以提供的扩展形式有上下位、同意、近义词、别名等等。专业申请过程中,限制要求非常严格,对于检索的内容各方面的扩展边缘,都要具有完整的召回率和准确性。
大正语言的专利文献智能检索系统已经被国家知识产权局确定为未来专利检索技术的发展方向,在其组织的测试中,各项性能遥遥领先。本系统的产业化应用除了专利文献的检索外,还准备在图书检索、档案管理等方面进一步延长产品线,具有良好的产业化应用前景。