计算机硬件、网络和软件技术的发展,使人们信息交流的手段变得更迅捷,信息交流的深度和广度也得到更大的拓展。譬如,通过互联网人们可以及时获取到以前不可想象的巨大信息。然而,海量信息的扑面而来同样使我们陷入困境:一方面是大量冗余垃圾信息的存在,一方面是我们迫切需求的信息却找不到。业内人士估计,80%以上的信息载体以各种自然语言形式存在。但是,至今为止,对语言信息的加工处理却难以归纳到典型计算问题中,或者说它属于人工智能的范畴。相比其他一些成熟的软件领域,自然语言的智能化处理还有一段很长的路要走。 获取海量知识 长期以来,语言分析的主流技术是基于规则的、用于符号运算的人工智能方法。利用专业人士的知识,通过人工操作能较好地构建一个语言知识库,在一定的场合它表现得也相当突出,比如机器翻译的第一次亮相曾经给人们带来的惊喜。然而,如果要应用于非受限领域,那么采用人工构建的知识库还是要大打折扣的,这是因为对语言理论体系的把握和对例外情况处理的方法不一,可能导致知识的冲突。随着要处理的知识内容的增多,构拟知识内部的条件约束控制机制的难度也将增加。对知识的加工利用 针对人工获取建造语言知识库的困难,语料库语言学(corpus linguistics)兴起,通过对大规模真实语言材料的统计分析,可以发现掩藏在语言现象之后的各种变量参数,以此来构建一个来自语言实际的语言知识库。其实,汉语语言学界一直非常注重语言事实的归纳分析,只不过限于手工手段,量不可能太大,因而可能触及的现象不是太多。统计方法,如互信息(mutual information)、马尔可夫过程(markov chain)等的引入,伴随计算机的高速运算、语料文本的大量普及,使得海量数据获取成为现实。数量方法的引进减少了人工知识构建的不一致,增强了系统处理的鲁棒性(robustness)。 然而,不管什么样的自然语言处理系统,也不论使用什么样的策略方法,一个好的语言知识库是其不可或缺的基础。知识库的构建和分析过程当中的知识获取程度和质量的高低,是决定语言处理系统质量的重要环节。 语言知识库的建立已经成为国际学界的广泛共识。世界上的各类语料库对于中文信息处理都发挥了一定的作用,但总的来说,作用并不显著。南京师范大学特聘教授陈小荷博士认为原因有两个:第一,知识库多由语言学家主持建造。虽然对中文信息处理有一定的了解,但在中文信息处理实际过程中究竟需要哪些汉语知识,如何使用,并不十分清楚。第二,知识库主要是从语言学原理出发,凭借语感而手工建造的,难以处理大规模真实文本中的许多例外,因此,存在大量的知识缺漏。 我们的设想是,利用现有各类资源,整合建造一个适用的语言知识库。目前人们大多认为,经验+统计的结合将是摆脱纯手工操作的解决之道。例如,我们可以首先采用人工制作初始规则或知识,因为借助理论语言学和汉语语言学可以在知识库建造过程中观察到更细致、更深入的语言现象,而不至于由于语料库统计方法(采用马尔可夫的n元文法时的精确度问题)或者语料规模(语言材料的同一性问题)造成的数据稀疏问题。然后利用自学习机制,比如机器学习或统计学习等方法来不断获取、积累和完善知识库,从而达到满足不同应用系统的需求。 知识用何表述 通过获取而积累的语言知识一定要通过使用才能获得其实际利用价值。然而,令人遗憾的是由于研究者学术观点不同、处理策略不一致,即使对同一语言现像的解释和处理也不尽相同,相互之间难以形成合力,这就造成研究成果及其开发项目大量分散重复的局面。从软件工程的角度出发,如果将各处理模块分别处理,定义通用的语言处理接口,将可以大大节省语言知识库的构造时间,并且知识冲突与不一致性将得到消解。作为联系不同系统之间的元数据描述就应运而生。 在采用元数据标识语料的体系中,采用结构化方式表述元素信息还不普遍。很多元数据集合都是简单地描述成分列表,尽管可以有限次地被某一系统作为资源采用,却难以进一步扩展,为其他应用系统所继承。 由于没有词间间隔,分词问题一直以来是汉语实现信息化处理的特殊难题。为了解决它,“分词连写”成为人们回避这个问题的方法。即便在词间人为加上分隔符号,也只是线性切割而已,真正隐藏在其后的汉语层次结构并没有反映出来,因此,只是一种不全面的知识,对中文信息处理分词后的应用系统于事无补。北京语言大学宋柔教授提出了分词规范并实现了词语的几何结构的概念,通过对分词结果层次及其词语内部构造的划分,可以输出为不同需求的应用系统的前端,从理论和实践上解决了分词连写的问题,为建立通用分词系统,实现语言工程化的规范化操作提供了可资参考的思路。 语言知识库表述方法研究目前在国际上已经成为一个热潮。欧洲和北美都有学术组织在制定相应的语言标识标准,像国际语言工程标准 (ISLE)、语料库编码标准(CES)等。随着扩展标识语言(XML)已成为互联网上进行数据表示和交换的事实标准,包含获取操作XML文档功能的XML框架,由于允许对元素及元素嵌套和互现等的标识,对创建和处理语料库的标注非常有益。欧美学者同时还探讨了用于语言工程的语料库标识方法应包含的几个方面,比如标识的类型,可替换的标识和版本,能处理不同的语言、不同介质和形式(如文本、语音信号、以及声音、视频和图像等多媒体信息),能在不同文档之间、文档内部以及不同形式的各种复杂链接间实现跳转。 我们的设想是,当前我国中文信息处理界已经有不少的科研成果,比如分词和词性标注系统、句法分析及语义分析等。如果能抽象并提出一种能够全面包容各类语言知识库的知识表示框架,基于不同学术观点的人或用户都可以在不同层次利用一切已经积累的语言资源和语言知识,诸如分词、短语、句法分析等结果。这项工作无论是从挖掘语言形式和意义,进行知识表述和推理的理论层面,还是从为不同语言应用系统提供不同层次需求结果的工程实践角度看,意义都非常巨大,值得我们研究。 知识应用的前景 一旦语言信息处理的知识前提得到满足,并加以有效利用,我们相信,语言智能信息处理将会逐阶段地实现人们一直以来梦寐以求的境界。人们将可以通过自然语言人机接口技术实现人和机器之间的对话,借由计算机实现不同自然语言之间的信息交流。当然,这种境界需要很长的旅程,但凭借人的智慧,经由人机结合的方式,通过化简自然语言处理的复杂度,不断提高机器的自动化水平,这一切都将是可以逐步实现的。
北京语言大学外应考研参考书目具体介绍如下:
1.

方铭主编:《中国文学史》(1-4册),长春出版社2016年版
2.
钱理群、温儒敏、吴福辉:《中国现代文学三十年》,北京大学出版社1998年版
3.
洪子诚:《中国当代文学史》,北京大学出版社2009年版
4.
郑克鲁、蒋承勇主编:《外国文学史》(上下),高等教育出版社2015年版
1、上海外国语大学
上海外国语大学语言学专业(本科四年制)于2019年获教育部批准设立。这是新中国第一次正式以“语言学”为名设立本科专业,也是上海外国语大学顺应国家、社会发展需要,建立语言科学人才培养体系的重要举措。
2、北京语言大学
语言学系拥有全国首批获批的“语言学”本科专业,该专业所属学科大类为“外国语言文学”,通过全国普通高等学校招生统一考试招生,学生毕业授予“语言学专业”文学学士。
3、西安外国语大学
西安外国语大学的语言学本科专业代码为0502100T,开设时间为2019年,专业的修业年限为4年,所属学科门类是文学,专业所在学院为英文学院,专业类别属于外语类。
4、江苏师范大学
教育部公布了2019年度普通高等学校本科专业备案和审批结果,江苏师范大学语言科学与艺术学院申报的“语言学(+人工智能)”专业成功获批,专业及代码为“语言学(0502100T)”。江苏师范大学也成为江苏省第一家拥有“语言学”专业的高校。
以上内容参考 百度百科-上海外国语大学
以上内容参考 百度百科-江苏师范大学
以上内容参考 百度百科-西安外国语大学
以上内容参考 百度百科-北京语言大学
以上就是关于海量知识 如何表述全部的内容,如果了解更多相关内容,可以关注,你们的支持是我们更新的动力!
版权声明:我们致力于保护作者版权,注重分享,被刊用文章【海量知识】因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理!;
工作时间:8:00-18:00
客服电话
电子邮件
beimuxi@protonmail.com
扫码二维码
获取最新动态
