海量知识-院校搜

海量知识

2025-02-06 16:00:01 阅读 145 评论 0

摘要：计算机硬件、网络和软件技术的发展，使人们信息交流的手段变得更迅捷，信息交流的深度和广度也得到更大的拓展。譬如，通过互联网人们可以及时获取到以前不可想象的巨大信息。然而，海量信息的扑面而来同样使我们陷入困境：一方面是大量冗余垃圾信息的存在，一方面是我们迫切需

计算机硬件、网络和软件技术的发展，使人们信息交流的手段变得更迅捷，信息交流的深度和广度也得到更大的拓展。譬如，通过互联网人们可以及时获取到以前不可想象的巨大信息。然而，海量信息的扑面而来同样使我们陷入困境：一方面是大量冗余垃圾信息的存在，一方面是我们迫切需求的信息却找不到。业内人士估计，80%以上的信息载体以各种自然语言形式存在。但是，至今为止，对语言信息的加工处理却难以归纳到典型计算问题中，或者说它属于人工智能的范畴。相比其他一些成熟的软件领域，自然语言的智能化处理还有一段很长的路要走。获取海量知识长期以来，语言分析的主流技术是基于规则的、用于符号运算的人工智能方法。利用专业人士的知识，通过人工操作能较好地构建一个语言知识库，在一定的场合它表现得也相当突出，比如机器翻译的第一次亮相曾经给人们带来的惊喜。然而，如果要应用于非受限领域，那么采用人工构建的知识库还是要大打折扣的，这是因为对语言理论体系的把握和对例外情况处理的方法不一，可能导致知识的冲突。随着要处理的知识内容的增多，构拟知识内部的条件约束控制机制的难度也将增加。对知识的加工利用针对人工获取建造语言知识库的困难，语料库语言学（corpus linguistics）兴起，通过对大规模真实语言材料的统计分析，可以发现掩藏在语言现象之后的各种变量参数，以此来构建一个来自语言实际的语言知识库。其实，汉语语言学界一直非常注重语言事实的归纳分析，只不过限于手工手段，量不可能太大，因而可能触及的现象不是太多。统计方法，如互信息(mutual information)、马尔可夫过程(markov chain)等的引入，伴随计算机的高速运算、语料文本的大量普及，使得海量数据获取成为现实。数量方法的引进减少了人工知识构建的不一致，增强了系统处理的鲁棒性（robustness）。然而，不管什么样的自然语言处理系统，也不论使用什么样的策略方法，一个好的语言知识库是其不可或缺的基础。知识库的构建和分析过程当中的知识获取程度和质量的高低，是决定语言处理系统质量的重要环节。语言知识库的建立已经成为国际学界的广泛共识。世界上的各类语料库对于中文信息处理都发挥了一定的作用，但总的来说，作用并不显著。南京师范大学特聘教授陈小荷博士认为原因有两个：第一，知识库多由语言学家主持建造。虽然对中文信息处理有一定的了解，但在中文信息处理实际过程中究竟需要哪些汉语知识，如何使用，并不十分清楚。第二，知识库主要是从语言学原理出发，凭借语感而手工建造的，难以处理大规模真实文本中的许多例外，因此，存在大量的知识缺漏。我们的设想是，利用现有各类资源，整合建造一个适用的语言知识库。目前人们大多认为，经验＋统计的结合将是摆脱纯手工操作的解决之道。例如，我们可以首先采用人工制作初始规则或知识，因为借助理论语言学和汉语语言学可以在知识库建造过程中观察到更细致、更深入的语言现象，而不至于由于语料库统计方法（采用马尔可夫的n元文法时的精确度问题）或者语料规模（语言材料的同一性问题）造成的数据稀疏问题。然后利用自学习机制，比如机器学习或统计学习等方法来不断获取、积累和完善知识库，从而达到满足不同应用系统的需求。知识用何表述通过获取而积累的语言知识一定要通过使用才能获得其实际利用价值。然而，令人遗憾的是由于研究者学术观点不同、处理策略不一致，即使对同一语言现像的解释和处理也不尽相同，相互之间难以形成合力，这就造成研究成果及其开发项目大量分散重复的局面。从软件工程的角度出发，如果将各处理模块分别处理，定义通用的语言处理接口，将可以大大节省语言知识库的构造时间，并且知识冲突与不一致性将得到消解。作为联系不同系统之间的元数据描述就应运而生。在采用元数据标识语料的体系中，采用结构化方式表述元素信息还不普遍。很多元数据集合都是简单地描述成分列表，尽管可以有限次地被某一系统作为资源采用，却难以进一步扩展，为其他应用系统所继承。由于没有词间间隔，分词问题一直以来是汉语实现信息化处理的特殊难题。为了解决它，“分词连写”成为人们回避这个问题的方法。即便在词间人为加上分隔符号，也只是线性切割而已，真正隐藏在其后的汉语层次结构并没有反映出来，因此，只是一种不全面的知识，对中文信息处理分词后的应用系统于事无补。北京语言大学宋柔教授提出了分词规范并实现了词语的几何结构的概念，通过对分词结果层次及其词语内部构造的划分，可以输出为不同需求的应用系统的前端，从理论和实践上解决了分词连写的问题，为建立通用分词系统，实现语言工程化的规范化操作提供了可资参考的思路。语言知识库表述方法研究目前在国际上已经成为一个热潮。欧洲和北美都有学术组织在制定相应的语言标识标准，像国际语言工程标准 (ISLE)、语料库编码标准（CES）等。随着扩展标识语言(XML)已成为互联网上进行数据表示和交换的事实标准，包含获取操作XML文档功能的XML框架，由于允许对元素及元素嵌套和互现等的标识，对创建和处理语料库的标注非常有益。欧美学者同时还探讨了用于语言工程的语料库标识方法应包含的几个方面，比如标识的类型，可替换的标识和版本，能处理不同的语言、不同介质和形式（如文本、语音信号、以及声音、视频和图像等多媒体信息），能在不同文档之间、文档内部以及不同形式的各种复杂链接间实现跳转。我们的设想是，当前我国中文信息处理界已经有不少的科研成果，比如分词和词性标注系统、句法分析及语义分析等。如果能抽象并提出一种能够全面包容各类语言知识库的知识表示框架，基于不同学术观点的人或用户都可以在不同层次利用一切已经积累的语言资源和语言知识，诸如分词、短语、句法分析等结果。这项工作无论是从挖掘语言形式和意义，进行知识表述和推理的理论层面，还是从为不同语言应用系统提供不同层次需求结果的工程实践角度看，意义都非常巨大，值得我们研究。知识应用的前景一旦语言信息处理的知识前提得到满足，并加以有效利用，我们相信，语言智能信息处理将会逐阶段地实现人们一直以来梦寐以求的境界。人们将可以通过自然语言人机接口技术实现人和机器之间的对话，借由计算机实现不同自然语言之间的信息交流。当然，这种境界需要很长的旅程，但凭借人的智慧，经由人机结合的方式，通过化简自然语言处理的复杂度，不断提高机器的自动化水平，这一切都将是可以逐步实现的。