一、中文信息检索中的自然语言处理(英文)(论文文献综述)
刘欣[1](2021)在《语句意图匹配方法研究》文中认为语句意图匹配方法是自动问答和信息检索等系统的核心技术,主要用于判断两个语句中的语义意图匹配程度,在实际应用中具有重要价值。近几年随着深度学习的兴起,相关方面研究获得了突破性进展。尽管深度学习方法在语句意图匹配中得到广泛应用,其仍然面临以下挑战:1)训练样本不足的问题,很多实际应用领域难以提供足够的训练样本;2)由于语句表达的灵活多变,模型对语句中意图信息的有效编码受到一定限制;3)词语语义的多义性在现有的模型中没有得到足够的重视,限制模型性能的进一步提升;4)特定应用场景下参与匹配的语句关系复杂,使得特定场景下通用意图匹配方法无法有效适用。本文主要针对以上问题开展研究,主要内容包括以下几个方面:第一,针对训练样本不足的问题,提出基于无监督方法的问句意图匹配语料的构建方法。在语料的构建过程中,本文首先使用搜索引擎收集大规模的多领域问句对;其次,使用无监督距离算法过滤不相关的问句对;最后,具有专业背景的数据标注者对剩余的问句对进行意图是否匹配的人工标注,得到包含260 068个问句对的问句意图匹配语料。同时,本文将语料划分成训练集,验证集和测试集并使用已发布的的语句意图匹配算法进行实验,实验结果不仅证明了本文方法构建的大规模中文问句意图匹配语料的良好质量,而且还提供了可靠的基线性能以进一步研究该语料。第二,针对模型难以对语句中意图信息进行有效编码问题,提出基于语句差异性特征的匹配方法。该方法首先将语句对中的差异词汇抽取出来,其次使用神经语言模型对差异词汇进行编码,得到语句差异性特征,最后通过门控机制将语句差异性特征整合到基准意图匹配方法中。在国际开放的大规模中文问句意图匹配语料和英文问句意图匹配语料上进行实验。实验结果表明,本文提出的方法可以有效地学习到语句中的意图差异性信息并提升意图匹配性能,在各类评价指标上均优于已发表的基线意图匹配方法。第三,针对词语语义信息表示存在多义性的问题,提出了面向意图匹配的词向量分解词义学习方法。该方法首先将语句中的一个多义词转换为词向量表示,并使用胶囊神经网络对词向量进行分解得到多个类义素向量。其次,使用神经语言模型对语句进行上下文编码得到上下文信息表示。最后,使用注意力机制将上下文信息表示与多个类义素向量进行注意力整合,生成特定上下文的词义向量。本文将学习到的词义向量应用到英文问句意图匹配语料上进行验证,实验结果表明,相比于无监督词向量,该方法学到的词义向量能够更准确地捕捉到词语的语义,从而进一步提升意图匹配模型的性能。第四,针对通用意图匹配方法在特定场景下的匹配语句中性能受限问题,提出基于意图的领域内知识与文本匹配方法。该方法基于医学知识和医学文本中的意图信息,使用关系和主题胶囊网络,分别对医学知识中的关系特征和医学文献中的主题特征进行学习,并将学到的关系和主题特征作为意图信息融入到匹配算法中。在医学文献检索任务上使用人工标注的匹配数据集和排序数据集对该方法进行验证。实验结果表明,在各项评价指标上,该方法均优于已公开的不同类型基线方法。证明了医学知识和医学文本匹配语句中包含有效意图匹配信息,并且这些信息可以通过该方法融入到通用匹配模型中,进一步增强模型在医学信息检索中的匹配性能。综上所述,本文围绕语句意图匹配方法进行深入研究和讨论,针对意图匹配方法中存在的四个问题,分别提出意图匹配数据构建方法,基于语句差异性特征的匹配方法,面向意图匹配的词向量分解词义学习方法和基于意图的领域内知识与医学文本匹配方法。通过大量实验,在各自对应的数据集上进行验证,最终均取得了较优性能。
陈鑫[2](2020)在《基于问句深度语义匹配的社区问答方法研究》文中认为问句匹配,也称相似问句识别,是社区问答中的一个重要任务。它能有效利用社区问答已有的问答对数据集,提升用户体验。社区问答中,相似问句识别旨在从问答对数据集{q1,q2…,qn}中找出与用户问句q0语义相似的问句,并将对应的答案返回给用户。通常,社区问答中的相似问句识别分为召回与再排序两个阶段。首先,社区问答考虑时效性问题,利用检索等方法从大量的问答对数据集召回与用户问句相似的前k条相似问句;其次,基于召回的数据,社区问答利用二元问句匹配模型分别进行七次匹配识别,即复述识别,进行再排序。在这整个过程中,社区问答中的问句匹配存在着以下三个问题:●在排序过程中,前沿的二元问句匹配模型复杂度高,训练难度大,时效性低。●社区问答利用检索方法召回的准确率不够,导致错误传递问题。●社区问答中,存在着跨语言相似问句识别场景。但是,相关领域缺乏跨语言相似问句识别语料。针对以上三个问题,本文基于问句匹配的基本架构,结合深度神经网络模型对问句进行语义编码表示,分别进行了以下三个部分的研究:(1)基于多卷积自交互匹配的相似问句识别方法现有的相似问句识别方法通常将相似问句识别作为问句复述识别任务进行研究。相关前沿方法通常构建复杂的神经网络模型,借以对自然问句深层语义进行编码表示。这类模型复杂度高,训练难度大,运行速度慢。针对这类问题,本文提出了一种轻巧的多卷积自交互匹配方法。该方法通过融合不同的句子特征与词义特征获得语义丰富的词级语义表示;再利用卷积神经网络捕获短语级语义表示。通过构建多卷积自交互融合方法,将句子的词级与短语级语义表示进行融合,从而得到多粒度的句子语义信息。本文利用Quora语料进行实验分析,实验结果证明该方法取得了具有较高竞争力的性能。更为重要的是,该模型的复杂度、训练难易度、运行速度都大大优于前沿方法。具体而言,该方法训练所需的物理显存比基准模型方法下降80%,训练迭代速度快19倍。(2)基于语义空间距离的相似问句识别方法现有研究通常在两个自然问句之间进行“一对一”相似问句识别,与社区问答中的相似问句召回实际应用场景“一对多”有所区别。考虑整体时效性问题,社区问答通常是利用检索方法进行相似问句快速召回。在这过程中,召回数据的准确率不高,导致错误传递问题。针对此问题,本文受人脸识别任务的启发,提出一种基于语义空间距离的相似问句识别方法。该方法在训练时将相似问句识别任务作为多类别分类任务,通过训练得到语义编码模型。在测试使用时,利用该语义编码模型,将所有自然问句映射为相同语义空间中的向量表示,通过向量之间的距离进行相似问句的识别。本文通过利用Biendata的竞赛数据构建相关语料数据,通过实验验证,该方法在多个性能评估指标上,性能比基线方法高5%。(3)基于网络数据的跨语言相似问句语料自动构建方法在社区问答相似问句识别场景中,存在跨语言的相似问句识别场景。该场景需要跨语言相似问句识别语料推动相关研究的发展。但是,目前缺少专门针对相似问句识别的跨语言语料。针对这一问题,本文提出一种基于网络数据自动构建跨语言相似问句语料的方法。该方法通过爬取大型中文社区问答百度知道的用户问句,利用规则与语言模型过滤低质量的数据,同时利用神经网络翻译模型获取对应的英文问句数据。最后,该方法利用中-英两种对应的问句数据构建较大规模的跨语言中英相似问句数据集。本文在构建的跨语言中英相似问句数据集上实验了多个跨语言中英相似问句识别模型方法,其中XLM基准模型在该语料上取得90.45%的准确率,从而证明上述方法能够促进跨语言相似问句识别的发展。
陈梦[3](2020)在《跨语言检索数据集构建方法研究与验证》文中指出随着互联网的飞速发展,用户对网络的信息需求越来越多,他们不仅想得到单语种的检索信息,而且也想得到其他语种的检索信息,因此,跨语言信息检索受到了众多研究人员的关注,是当前信息检索的研究热点之一。跨语言检索系统可以将用户输入的一种语言的查询在另一种语言或者多种语言的文档中检索相关信息,这有利于许多不了解外语的搜索引擎用户检索出更丰富的结果,获得多语言的信息资料,从而满足用户的信息需求。跨语言信息检索的研究具有重要意义:一方面,跨语言信息检索技术的出现可以在一定程度上解决用户对多语种的信息需求问题;另一方面,跨语言检索是信息检索的重要组成部分,对跨语言信息检索进行研究是丰富和完善信息检索理论体系的需要。目前,深度学习技术已经在单语言检索中取得了良好的效果,但在跨语言信息检索中的应用还不多,原因之一便是在跨语言信息检索中没有合适的数据可以用于训练神经检索模型。为了更好的实现跨语言信息检索,我们提出了一种简单又灵活的数据集构建方案。我们的英--中双语数据集是由维基百科上的数据构建而成的,它支持英文查询和中文文档之间的跨语言信息检索模型的训练和评估。我们的数据集包含三个部分,分别是英文查询、中文文档和文档之间的相关判断。根据中文文档中的文章与英文查询所在的文章的相关程度,我们将文档的相关级别分为三种,分别是最相关文档、次相关文档和不相关文档。为了验证上述数据集的可用性,我们提出了一种基于BiLSTM和注意力机制的神经检索模型用于跨语言信息检索。与传统的跨语言检索方法不同,基于BiLSTM和注意力机制的神经检索模型无需显式的翻译过程:它能够将源语言和目标语言的文本编码到同一个跨语言语义空间,然后基于编码好的文本向量进行相关度计算。实验结果表明,我们基于维基百科构建的数据集可以支撑该模型进行成功的训练与测试,该模型在测试集上表现出优于基准模型的性能。
孙水华[4](2019)在《中医针灸领域信息抽取关键技术研究》文中研究说明近年来,在国家政策的大力扶持下,大批老中医专家的临床疾病诊疗经验通过整理和总结被保存下来,出版了大量关于中医专家疾病诊疗经验的文献和着作。随着中医针灸领域电子文档的累积,由人工阅读来获取中医针灸知识不仅费时而且人工成本极高。如何利用自然语言处理技术,从大量非结构化中医文献资料中自动获取所蕴含的专业领域信息如术语、实体关系、事件等,具有重要的理论意义和应用价值。本文针对中医针灸领域文本的特点,深入研究中医针灸信息自动抽取的关键技术,主要开展了以下几个方面的研究工作:(1)针对中医针灸领域术语的构成特点,建立了一种基于种子集的领域术语抽取算法模型,该模型首先对中医针灸领域术语种子集进行有限次的迭代,生成中医针灸领域术语构件集;其次,以术语构件集为领域词典,采用最大向前匹配算法对中文针灸医学文献中的句子进行切分,并抽取候选术语;最后,采用术语过滤算法对候选术语进行过滤处理,筛选出中医针灸领域专业术语。以关键字集为种子集进行实验,术语抽取开式测试的F值达到77.29%。(2)针对中医针灸领域实体关系实例的语境,选择有效的词汇、语法和语义特征组合成特征模板,将实体关系实例向量化。采用支持向量机的机器学习方法训练中医针灸领域实体关系分类模型。实验结果表明,该模型对中医针灸领域实体关系抽取有很好的效果,DM、HM和DRM实体关系分类模型的F值分别达到了 93.25%、87.19%和84.57%。(3)从训练语料库中收集人工标注的触发词,构建中医针灸事件触发词词表,采用同义词林扩展该词表,基于扩展触发词词表识别中医针灸事件候选触发词,;针对中医针灸领域文字表达的特点,编写中医针灸事件候选触发词过滤规则。构造集词典匹配、规则过滤于一体的中医针灸事件触发词识别模型。实验结果表明,该模型具备了较好的触发词识别性能,治疗事件触发词识别的F值达到了 88.28%。将上述信息抽取研究成果应用于中医针灸领域知识库构建中,实现对中医针灸领域信息的规范化管理与存储,为中医针灸辅助教学、辅助诊疗及知识发现研究等具体应用提供数据支撑。
杨苏稳[5](2019)在《基于搜索引擎的中文纠错方法研究与实现》文中提出信息检索是当下获取和查询信息最重要的途径之一,是互联网中基础的服务。信息检索在给用户获取信息带来便利的同时,也存在弊端。当用户输入错误查询词串时,信息检索系统返回的信息可能偏离了用户的真实意图,从而导致用户流量的丧失。因此,信息检索中查询纠错问题是一个亟待解决的难题。本文通过对中文纠错方法的研究发现,当前研究人员提出的方法存在以下不足:1.研究方法只针对常见的部分错误类型,并未考虑少数但现实存在的错误类型,导致纠错效果不理想。2.多注重纠错方法研究,而忽略排序模型对纠错结果的影响,或仅使用单一的特性对得到的候选集进行评分,致使用户得到的候选项可能不是最优选项,这就严重影响了纠错的效果。针对以上不足,本文提出了基于搜索引擎的中文纠错方法。首先对用户网络日志展开研究,对输入的查询词错误原因进行分析,并根据错误原因进行分类,最后针对不同类型采用不同的纠错策略。本课题在研究过程中主要涉及以下工作:1.改进了一种针对多种错误类型的纠错策略。通过对键盘按键按照相对位置赋予相应的权重,来改进纠错策略中拼音纠错方法中对于键相邻错误纠错的不足。2.改进了排序模型建立方法。在融合N-gram模型、查询词点击率、词形相似度和编辑距离四个因素的基础上,通过引入拼音相似度特征来建立排序模型,提高纠错方法的准确率。
闵昶荣[6](2019)在《基于深度学习的多领域商品评论情感分析》文中研究说明随着近年来,互联网技术成本的下降以及智能手持移动设备的不断普及,越来越多的人们开始参与到网络中来,通过互联网进行购物,浏览一些国际新闻,观看体育比赛直播,或是在一些平台上参与话题讨论。其中,网络购物行为的日益增加刺激了国内电子商务平台的迅速崛起,比如:淘宝、当当、京东、苏宁易购等等。这些平台的扩张,不仅提供了大量的商品评论数据,同时扩展了数据所涉及的领域,从最初的一些较为基础的生活必需品扩大到人们生活中所有的日常用品。因此,通过对于大量的主观性数据进行情感分析,可以得到人群对于某些实体的宏观情感或是态度,并且可以把结果应用到其他任务之中,比如商品推荐。而且,近年来,人工智能与深度学习技术逐渐成为热门话题,深度学习技术已经成功的应用到多个领域,包括:生物医学、模式识别以及自然语言处理等等。在大部分的任务上,深度学习都已经在性能以及模型的复杂程度上优于传统机器学习算法。因此,本文采用深度学习对于多领域的电商商品评论数据进行情感分析。在文本的表示上,采用BERT语言模型进行预训练得到评论数据的向量化表示;在模型的选取上,本文提出一种基于胶囊神经网络的情感分析模型,并实现了基于循环神经网络的情感分析模型以及基于卷积神经网络的情感分析模型作为对比,验证所提出模型的有效性;同时采用支持向量机作为传统机器学习的代表,与深度学习模型进行对比。实验结果表明,本文所提出的基于胶囊神经网络的情感分析模型在情感分类的性能上要优于其他两种深度学习模型,同时实验证明深度学习模型在情感分析任务中的表现要好于支持向量机。
龚雨田[7](2019)在《基于词汇对齐的跨语言观点检索研究》文中研究指明随着web3.0时代和“互联网+”的迅猛发展,全球互联网用户的数量持续增长。联合国2018年12月最新公布的数据显示,全球互联网用户数量达到了39亿,占全球人口总量的51.2%,首次突破全球人口总数的一半。同时,全球经济和数字化经济的蓬勃发展,促进了世界各国之间的经济、贸易、文化、政治和军事等各方面的交流合作。世界各国人民也开始通过互联网这一高速信息渠道参与进来,并借助互联网这一公共交流平台,在各大社交网站和媒体上发表对于全球性事件、跨国贸易和重大军事政治事件等的观点,表明自己的立场。这些立场和观点中蕴含了很重要的信息,由于各国使用的语言不都相同,因此这些不同国家网民表达观点和立场所使用的语言也不尽相同。因此,将这些针对同一事件或事物的不同语言的观点检索出来并挖掘其中的价值是很重要的,也是一大难点。针对这个问题,目前已经完成或者正在进行的研究并不多。通常比较直接的思想是:采用基于翻译的方法,通过人工将源语言的关键词翻译成目标语言,然后再使用目标语言进行检索,得到目标语言的相关结果集;然后在目标结果集中使用人工的方法将带有观点的句子挑选出来。此方法比较依赖于翻译的准确率和人工的参与。虽然如今的翻译系统比较成熟,准确率比较高,但是在不同语境下翻译结果过于单一,难以覆盖所有的检索相关词。而且,人工的参与会带来不必要的成本和一定的误差。本文从链接发现这一思想中的中英文词汇对齐的角度出发,将中英文词汇映射到同一个向量空间,并基于这个向量空间,完成中英文句子的相似度计算和跨语言情感分类,进而完成跨语言检索任务。使用基于跨语言相似度计算的方法使得检索结果更加准确,同时还避免人工参与造成的一些弊端。本文从跨语言词汇对齐、跨语言相似度计算和观点检索三个方面出发,提出了基于词汇对齐的跨语言观点检索模型(Cross-Language Opinion Retrieval Based on Aligned Words,AW-CLORM)解决跨语言观点检索问题。选择Facebook基于fasttext训练的大型中英文词向量数据集进行跨语言词汇对齐;使用SemEval2014中英文平行语料库训练跨语言相似度计算模型用于中英文相似度计算;最后,将人工抓取到的百度贴吧和推特的帖子使用情感分析工具,生成中英文混合情感分类数据,并基于此训练跨语言情感分类模型。对于给定的中文关键词,首先使用检索系统检索出源语言相关文档集Ds,然后通过跨语言相似度计算模型,计算目标语言语料库中与Ds相似度最高的若干文档作为候选文档集Dc;最后结合跨语言情感分类和观点要素匹配检索出Dc中带有观点的文档集,即为跨语言观点检索的结果集,从而完成跨语言观点检索任务。本文的创新主要有三个:(1)提出并完成了跨语言观点检索这一任务,在此之前进行跨语言检索的研究相对较多,但是进行跨语言观点检索的研究基本没有。(2)基于完全无监督的方法,构造了跨语言词向量空间,并完成跨语言词汇对齐任务。该方法基于多维词向量进行词汇对齐,有效提高了词汇对齐的准确率;(3)将基于曼哈顿距离的孪生神经网络应用于跨语言相似度计算。基于双LSTM的神经网络框架将跨语言文本同时输入模型进行训练,有效提取了跨语言文本的相似度特征,提高了相似度计算结果的准确率。实验证明本文的AW-CLORM模型能够有效的完成跨语言观点检索任务,而且检索结果的准确率比较高,P@10达到70%。但是,本文仍有一些不足之处,主要表现在跨语言相似度计算结果的准确率有待提高,观点检索模型有待进一步丰富进而满足更加复杂的观点检索任务,这些都是未来进一步研究和提高的方向。
仲远[8](2019)在《自然语言处理在信息检索中的研究和应用》文中进行了进一步梳理21世纪是互联网的黄金时代。在这一期间,信息技术得到了快速的发展,因特网已经成为目前最大的知识宝库。其内容浩如烟海,包罗万象,是人们求知解惑的重要来源。信息检索系统作为人们获取网络资源的高效工具,自始至终发挥着重要作用。但是传统采用关键字进行全文检索方式的检索系统,存在检索结果不全面和相关性低等问题。针对目前检索系统存在的不足,本文使用自然语言处理中的相关技术对检索系统加以优化,实现对查询关键词进行扩展。本文设计了一种基于百科词条信息的词语相似度计算方法。该方法由词条间对应的名片、词条正文,开放分类和相关词条四部分之间的内容相似度,来获得给定词汇对的整体相似度。利用该方法在《HowNet》中文词典中获取关键词意思相近的词作为扩展词。另外,本文还实现了对用户兴趣爱好信息的提取,并把结果作为对检索结果排序优化的依据。本文的主要工作如下:(1)深入研究Simhash算法,提出了改进的TTSimhash算法。TTSimhash算法采用ICTCLAS分词技术,在关键词初始权值计算中,引入TF-IDF方法,并考虑了词性、词长的因素。采用基于PageRank的思想对文本建立图模型,通过邻接节点以及邻接节点和目标节点之间的边关系,对目标节点进行投票得到关键词最终权值。(2)结合改进的TTSimhash算法,设计基于百科词条的词语相似度计算方法。新方法依托于百度词条内容,利用词条各部分之间相似度,加权得到词语之间的整体相似度。使用该算法来计算候选词和条件关键词之间的相似度。(3)设计并实现了信息检索系统的查询扩展模块。借助了《HowNet》和本文提出的词语相似度计算方法,获取语义相近的词,实现对查询条件关键词的扩展。使得检索结果内容更加全面。(4)设计并实现了信息检索系统的个性化模块。通过对用户浏览器使用信息如浏览历史、收藏夹信息的收集和分析,提取用户兴趣爱好关键词。基于得到的兴趣特征对检索结果进行优化。系统测试结果表明,本文方法在信息检索中的应用是有效可行的,可以有效提高信息检索效率,帮助用户得到期望的结果。
贺胜[9](2017)在《现代汉语深度语义标注语料库研究》文中研究表明当前,世界各国学者都十分重视自然语言处理的知识资源的建设,建立了许多带各种标注信息的语料库,以适应更为深入的语言研究和自然语言处理系统的需要。在中文信息处理方面,汉语标注资源急需的是句子级的资源,需要一种可以描述出句子中词语与词语之间的深度语义信息的标注语料库。因此,探求半自动、甚至自动地建设大规模深度语义标注语料库的策略、模型、技术及方法显得极为迫切。语义分析技术是自然语言处理领域中最重要也是最为困难的问题。如何实现有效、深入、自动的句子语义分析,一直是国内外从事自然语言处理的研究者们所关注的重要目标。目前,自然语言处理领域的语义研究主要集中在浅层语义分析。浅层分析虽然降低了语义分析的难度,但是只解决了动核和语义角色的配置问题,对于情态成分以及名核结构所承担角色的内部语义关系并未进行标注,因此还不是句子语义结构的完整揭示。在我们的深度语义标注语料库中,主是是针对九年制中小学语文课本语料进行语义词类和句法语义范畴标注。语义词类指词汇的所属义类。句法语义范畴指语块所对应的语义范畴信息,包括核心范畴、修饰限定范畴、情态范畴等。目前,国内外语义词典中的语义分类体系更多的都是基于自然科学或常识,与这些基于常识的各种语义分类相比,我们研制的语义词类其突出特点是语义分类取决于句法语义分析的需要,可以解决一些仅靠句法分析难以解决的问题,形成了一套面向计算机语言处理的独特的标注体系,对中文信息处理中的句法语义自动分析具有重要意义。根据该指导思想,我们在语义角色标注方法中,使用了一种与传统方法不同的处理策略,我们称之为基于语义词类和语义句型框架的语义角色标注方法,这一方法将汉语语义角色标注从节点的分类问题转化为序列标注问题,由于避开了传统的句法分析环节,使得语义角色标注摆脱了对句法分析的依赖,从而避开了汉语句法分析器造成的时间和性能限制。经测试,新的方法可以取得较高的准确率,并且大大节省了分析的时间,有利于实际应用。本文围绕现代汉语深度语义标注语料库的建设和应用,进行了一系列的相关技术研究,主要成果如下:1、针对语料库的建设和应用需要,研制开发了语义词类词典制作工具、语义词类自动标注工具、语义词类检索统计工具、句法语义范畴检索统计工具、语义词类与句法语义范畴对应关系检索统计工具、句型抽取统计工具、句模抽取统计工具、句法语义范畴辅助标注工具等应用软件,为深度语义标注语料库的建设和应用提供了很好的技术支持。2、收集、制作了 4万多条的语义词类词典,标注了词性、词类和频率等信息,为语义词类的自动标注提供了语言知识支持。3、针对语义词类的自动标注,设计了基于隐马模型的标注算法,结合基于动态规划的Viterbi算法,在训练语料规模偏小、数据稀疏较严重的情况下仍然取得了封闭测试正确率94.3%,开放测试正确率89.1%的效果。4、针对语义词类标注中的未登录词问题,提出了基于知网概念定义的未登陆词处理方案。经研究发现,语义词类系统和知网概念存在的对应关系主要体现在指称类-实体类、陈述类-事件类两个方面,并据此制定了相应处理规则。5、针对句法语义范畴中的语义角色标注,在总结比较现有主流算法的基础上,提出了基于语义词类和语义句型框架的语义角色标注算法,采用IOB策略,利用CRF模型,结合优化的特征参数,取得了分类精度超过91.8%,系统F值达78%的较好成绩。6、基于已标注的深度语义标注语料库,通过开发相关工具软件,建立了语义词类与句法语义范畴对应关系知识库、语义句型框架库、语义句模知识库,为后续的句法语义研究和应用奠定了更好的基础。基于语义词类自动标注和句法语义范畴中的语义角色标注研究,从实践上验证了语义语法学在自然语言处理中的可行性和实用性。本文的研究成果进一步丰富了语义语法学理论与方法,为实现汉语句子深层语义分析提供了新的途径,为自然语言处理领域基于语义分析的应用系统提供了一种新的技术支撑。
夏辉[10](2017)在《基于VGI标签的语义扩展空间信息检索技术研究 ——以OSM数据为例》文中研究表明近年来,随着地理信息数据众包思想的兴起,VGI数据正在以爆炸式的方式增长。OpenStreetMap作为VGI之中的最具代表性的项目之一,其数据在各个领域都在被广泛的应用,空间信息的检索愈加凸显出重要的作用。同时非专业人员在这一检索活动中的比重也大幅提高。这些用户一般采用简单的关键词进行检索,其特点是要求简单、实现容易,但实际检索结果常常与用户所期望的结果间存在着很大的差距。为了使检索的结果更为精确,人们进一步构造了可对各种关键词进行多种组合的检索方式,该种方式可获得更好的检索结果,但大多数用户由于没有经过检索培训,难以很好地利用这种组合检索方式来构造复杂的检索策略,使得这类复杂的组合式检索难以在大多数非专业人员中使用。如何为用户提供一种基于简单关键词检索的方式,使用户可以利用简单的相关地理信息关键词检索到全面精确的相关信息,是国内外信息检索界广泛关注和着力解决的关键问题之一。由于空间数据的海量特点、空间数据服务的异构性、用户需求表达的模糊性等问题,空间信息的获取、查询和检索存在着较多的难题。其中,空间信息检索具有显着的时间和空间特性,它是信息检索的一个特殊应用领域,其特殊性主要表现在相似性检索、时空关联检索、知识的不确定性等方面。传统的基于关键词字符串匹配的信息检索技术已无法满足空间信息检索的特殊需求,从而需要基于语义的更深层次的信息查询和匹配技术支持。语义本体技术作为一种新型的知识组织和表达方式,具有良好的概念组织结构和对逻辑推理的支持,在信息检索领域特别是在基于知识的语义化检索方面得到了飞速的发展和广泛的应用。基于本体的语义描述和推理方法,为空间数据服务中用户需求的解析和理解、空间信息资源的语义化描述和匹配、领域知识的形式化描述和推理分析等关键技术问题的解决提供了可行的途径和有力的工具,将有效地提高空间数据服务的检索效率和智能化程度。本研究针对现在空间信息检索用户一般使用简单语句进行查询,对检索服务希望简单易实现的要求,设计了针对空间信息检索语句自然语言处理的用户查询意图识别方法。并且,利用OSM数据中的Tag标签的可扩展性,结合空间信息语义特征,在标签中扩展了空间信息的属性特征信息项和值,并对其扩展后的模型设计了一种基于空间信息语义属性相似度的查询扩展方法。该方法能在空间信息检索中,将用户的简单输入进行扩展,以达到对相关结果更广泛更准确的匹配。使得日益增长的空间信息检索需求,能够以更好的用户体验性和更高的检索效率来服务使用者。研究中主要包括了以下几方面内容:(1)结合传统的自然语言处理方法,通过构建空间信息概念语义词典、地名词典和空间关系语义词典,设计了一种面向空间信息检索的优化的自然语言处理方法。该方法以空间信息语义词典为语料基础,能更好的对空间信息检索语句进行拆分和理解,提取查询中心词和真实查询意图。由于词典的支撑,对特定空间地名的识别更加准确,避免了查询偏移的发生。(2)面向OSM的数据特征,有效利用其开放式Tag标签的可扩展性,为空间数据的语义特征提供一个良好的属性扩展平台;合理的空间数据语义属性归纳和总结,梳理属于空间数据独有的语义特征,并将语义属性扩展到OSM数据模型中,为空间数据的深度分析和查询扩展提供数据基础。(3)针对不同类型的空间信息语义属性,建立基于语义的空间信息相似度计算模型与方法,根据空间信息间的相似度量化值,将与关键词最相似的空间概念或实体加入到查询扩展集合中,使得空间检索的结果查全率和查准率有效提高。(4)基于OSM数据,设计了空间信息语义相似度查询扩展服务系统,并设计了相关实验,论证本文方法对于空间信息数据检索的有效性,为后续的空间信息检索研究提供可以参考和借鉴的思路与案例。
二、中文信息检索中的自然语言处理(英文)(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、中文信息检索中的自然语言处理(英文)(论文提纲范文)
(1)语句意图匹配方法研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题的研究背景及意义 |
1.2 语句意图匹配方法研究现状 |
1.2.1 意图匹配数据集研究现状 |
1.2.2 意图匹配算法研究现状 |
1.2.3 词义学习方法研究现状 |
1.3 论文的研究内容及创新点 |
1.3.1 研究内容概述 |
1.3.2 主要创新点 |
1.4 论文的组织结构 |
第2章 基于无监督方法的问句意图匹配语料构建 |
2.1 引言 |
2.2 相关技术简介 |
2.2.1 Word2Vec词向量 |
2.2.2 GloVe词向量 |
2.3 LCQMC意图语料构建 |
2.3.1 意图数据收集 |
2.3.2 基于无监督距离算法的句对过滤方法 |
2.3.3 问句对人工标注 |
2.3.4 语料构建代价 |
2.4 评价与实验 |
2.4.1 评价指标 |
2.4.2 评价方法 |
2.4.3 实验结果 |
2.5 LCQMC语料质量分析 |
2.5.1 基于关键词的数据构建方法分析 |
2.5.2 语料中数据匹配类型统计 |
2.5.3 语料中句对词汇重叠率 |
2.6 本章小结 |
第3章 基于语句差异性特征的匹配方法 |
3.1 引言 |
3.2 相关技术简介 |
3.2.1 循环神经网络语言模型 |
3.2.2 预训练BERT语言模型 |
3.3 语义差特征意图匹配模型 |
3.3.1 语句中词汇差抽取 |
3.3.2 基于LSTM编码的语句差异性特征表示 |
3.3.3 基于BERT编码的语句差异性特征表示 |
3.3.4 门控机制原理 |
3.4 评价与实验 |
3.4.1 数据集与评价指标 |
3.4.2 实验对比方法 |
3.4.3 实验设置 |
3.4.4 实验结果 |
3.4.5 样例分析 |
3.5 基于语句差异性特征的模型分析 |
3.5.1 语句差异性特征的时序信息分析 |
3.5.2 词汇差与非重叠词汇差异对比 |
3.5.3 门控机制可视化 |
3.5.4 模型通用性实验 |
3.5.5 重叠词汇有效性实验 |
3.5.6 错误样例 |
3.6 本章小结 |
第4章 面向意图匹配的词向量分解词义学习方法 |
4.1 引言 |
4.2 相关技术简介 |
4.2.1 胶囊神经网络简介 |
4.2.2 注意力机制简介 |
4.3 基于胶囊网络的向量分解与词义学习 |
4.3.1 基于胶囊网络的词向量分解 |
4.3.2 词语上下文学习 |
4.3.3 词义匹配训练 |
4.4 评价与实验 |
4.4.1 数据集与评价指标 |
4.4.2 实验对比方法 |
4.4.3 实验结果 |
4.5 基于胶囊网络的词向量分解方法分析 |
4.5.1 Caps Dec E2S模型消融实验 |
4.5.2 上下文词义相似性可视化 |
4.5.3 上下文注意力权重分析 |
4.5.4 错误样例分析 |
4.6 词义向量在意图匹配任务上的应用效果 |
4.6.1 数据预处理 |
4.6.2 实验方法改进 |
4.6.3 实验结果 |
4.7 本章小结 |
第5章 基于意图的领域内知识与文本匹配方法 |
5.1 引言 |
5.2 相关技术简介 |
5.2.1 知识图谱简介 |
5.2.2 LDA主题模型简介 |
5.3 基于关系与主题胶囊网络的意图匹配方法 |
5.3.1 基于意图关系与主题的胶囊网络结构 |
5.3.2 意图关系相关性计算 |
5.3.3 意图主题重要性计算 |
5.4 评价与实验 |
5.4.1 数据集与评价指标 |
5.4.2 实验对比方法 |
5.4.3 实验结果 |
5.5 实验结果分析 |
5.5.1 有效性测试 |
5.5.2 RTCaps模型消融实验 |
5.5.3 意图信息可视化 |
5.6 本章小结 |
结论 |
参考文献 |
攻读博士学位期间发表的论文及其他成果 |
致谢 |
个人简历 |
(2)基于问句深度语义匹配的社区问答方法研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 研究意义 |
1.3 国内外研究现状 |
1.4 研究难点 |
1.5 研究内容与组织结构 |
1.5.1 研究内容 |
1.5.2 论文组织结构 |
第二章 任务定义及评价指标 |
2.1 任务定义 |
2.2 数据集介绍 |
2.3 性能评价指标 |
2.4 本章小结 |
第三章 基于多卷积自交互匹配的相似问句识别方法 |
3.1 方法概述 |
3.2 系统框架及主要研究内容 |
3.2.1 总体结构 |
3.2.2 句子特征 |
3.2.3 多卷积自交互编码方法 |
3.3 实验及结果分析 |
3.3.1 实验数据 |
3.3.2 参数设置 |
3.3.3 性能分析 |
3.3.4 模型复杂度分析 |
3.3.5 模型训练难易度分析 |
3.3.6 MCSM模型有效性分析 |
3.3.7 测试结果分析 |
3.4 本章小结 |
第四章 基于语义空间距离的相似问句识别方法 |
4.1 引言 |
4.2 系统框架及主要研究内容 |
4.2.1 总体结构 |
4.2.2 语义编码模型 |
4.2.3 损失函数 |
4.3 实验及结果分析 |
4.3.1 实验数据 |
4.3.2 参数设置与评价指标 |
4.3.3 性能分析 |
4.3.4 语义编码模型方法分析 |
4.3.5 损失函数实验分析 |
4.3.6 时效性分析 |
4.3.7 样例分析 |
4.4 本章小结 |
第五章 基于网络数据的跨语言相似问句识别语料自动构建方法 |
5.1 引言 |
5.2 系统框架及主要研究内容 |
5.2.1 总体流程 |
5.2.2 基于问句困惑度过滤低质量问句 |
5.2.3 CLCED数据的组合构建 |
5.3 实验及结果分析 |
5.3.1 数据分析 |
5.3.2 实验结果和讨论 |
5.4 本章小结 |
第六章 总结与展望 |
6.1 工作总结 |
6.2 工作展望 |
参考文献 |
攻读硕士学位期间发表的论文 |
致谢 |
(3)跨语言检索数据集构建方法研究与验证(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 研究现状 |
1.3 研究目标和内容 |
1.4 论文组织结构 |
第二章 相关研究综述 |
2.1 跨语言信息检索模型 |
2.1.1 跨语言检索概述 |
2.1.2 跨语言检索的基本方法 |
2.1.3 跨语言检索中翻译的实现 |
2.2 词向量 |
2.3 文本编码模型 |
2.3.1 Text-CNN模型 |
2.3.2 RNN模型 |
2.3.3 LSTM模型 |
2.4 注意力机制 |
2.4.1 基础知识 |
2.4.2 Encoder-Decoder框架 |
2.4.3 Attention机制的本质思想 |
2.5 本章小结 |
第三章 数据集构建方法研究 |
3.1 引言 |
3.2 原始数据获取 |
3.2.1 英文数据的获取 |
3.2.2 中文数据的获取 |
3.3 数据集构建算法 |
3.3.1 英文查询的提取 |
3.3.2 中文文档的提取 |
3.3.3 相关文档的判别方式 |
3.4 本章小结 |
第四章 基于神经检索模型的数据集验证 |
4.1 引言 |
4.2 神经检索模型 |
4.2.1 模型框架 |
4.2.2 模型训练 |
4.3 实验结果与分析 |
4.3.1 实验设置 |
4.3.2 实验结果 |
4.4 本章小结 |
第五章 总结与展望 |
5.1 本文总结 |
5.2 未来工作展望 |
参考文献 |
致谢 |
(4)中医针灸领域信息抽取关键技术研究(论文提纲范文)
摘要 |
ABSTRACT |
主要符号表 |
1 绪论 |
1.1 研究背景及意义 |
1.1.1 研究背景 |
1.1.2 论文研究的意义 |
1.2 国内外研究现状 |
1.2.1 领域术语抽取 |
1.2.2 实体关系抽取 |
1.2.3 事件抽取 |
1.2.4 问题分析 |
1.3 研究内容 |
1.4 论文的组织结构 |
2 中医针灸领域语料库构建 |
2.1 术语抽取实验语料介绍 |
2.1.1 术语及其分类 |
2.1.2 术语种子集构建 |
2.1.3 测试语料集构建 |
2.2 实体关系语料库构建 |
2.2.1 实体及实体关系类型定义 |
2.2.2 实体关系标注语料集构建流程 |
2.3 事件标注语料库构建 |
2.3.1 事件类型定义 |
2.3.2 事件相关概念 |
2.3.3 人工标注事件实例 |
2.4 本章小结 |
3 中医针灸术语识别算法模型 |
3.1 术语抽取系统的架构 |
3.2 领域术语抽取算法模型 |
3.2.1 术语构件集生成算法 |
3.2.2 候选术语抽取算法 |
3.2.3 候选术语过滤规则及算法 |
3.2.4 利用分词信息修正术语边界 |
3.3 系统性能评价 |
3.3.1 实验语料及评测指标 |
3.3.2 实验结果分析 |
3.4 与其他方法的比较 |
3.5 本章小结 |
4 中医针灸实体关系抽取模型 |
4.1 支持向量机 |
4.2 基于SVM的实体关系抽取 |
4.2.1 实体关系特征模板构造 |
4.2.2 实体关系实例向量化 |
4.2.3 实体关系分类模型生成 |
4.3 实验及结果分析 |
4.4 本章小结 |
5 中医针灸事件触发词抽取模型 |
5.1 事件触发词抽取模型架构 |
5.2 算法模型 |
5.2.1 语料预处理 |
5.2.2 候选触发词抽取 |
5.2.3 触发词过滤规则 |
5.3 实验及结果分析 |
5.4 本章小结 |
6 中医针灸领域知识库建设构想 |
6.1 知识库系统平台架构设计 |
6.2 中医针灸知识集成 |
6.2.1 数据源数据样例 |
6.2.2 中医针灸知识抽取 |
6.2.3 中医针灸知识管理 |
6.3 中医针灸知识库应用 |
6.3.1 辅助教学 |
6.3.2 辅助诊疗 |
6.3.3 知识发现研究 |
6.4 本章小结 |
7 结论与展望 |
7.1 结论 |
7.2 创新点 |
7.3 展望 |
参考文献 |
攻读博士学位期间科研项目及科研成果 |
致谢 |
作者简介 |
(5)基于搜索引擎的中文纠错方法研究与实现(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景 |
1.2 研究意义 |
1.3 国内外研究现状 |
1.3.1 国外研究现状 |
1.3.2 国内研究现状 |
1.4 本文的主要工作 |
1.5 本文的组织结构安排 |
第2章 相关技术简介 |
2.1 搜索引擎概述 |
2.1.1 搜索引擎的体系结构 |
2.1.2 搜索引擎的工作原理 |
2.1.3 搜索引擎与自然语言处理的联系 |
2.2 中文分词技术 |
2.3 N-gram模型 |
2.3.1 N-gram模型原理 |
2.3.2 平滑技术 |
2.4 Lucene开源工具 |
2.4.1 Lucene基本概念 |
2.4.2 Lucene的基本原理 |
2.5 本章小结 |
第3章 基于N-gram模型的中文词串查错方法 |
3.1 查错方法 |
3.1.1 查错基本方法概述 |
3.1.2 本文查错方法基本思想 |
3.2 查错流程 |
3.2.1 N-gram模型的构建 |
3.2.2 N-gram模型的求解 |
3.3 文本校对评价指标 |
3.4 实验 |
3.4.1 实验数据的选取 |
3.4.2 实验数据分析 |
3.5 本章小结 |
第4章 搜索引擎系统的中文纠错方法 |
4.1 错别字类型分析 |
4.2 基于拼音编辑距离的纠错方法 |
4.2.1 拼音错误类型示例 |
4.2.2 基于拼音编辑距离的定义 |
4.2.3 基于拼音改良的编辑距离的纠错方法 |
4.2.4 拼音串的查询扩展及纠错过程 |
4.3 基于模糊匹配的纠错方法 |
4.3.1 具体方法 |
4.3.2 自适应语料库的建立 |
4.4 最小编辑距离 |
4.5 纠错方法的改进 |
4.5.1 纠错流程的设计 |
4.5.2 拼音纠错方法的改进 |
4.6 排序模型 |
4.6.1 排序模型的影响因素 |
4.6.2 改进的排序模型 |
第5章 效果分析与系统实现 |
5.1 实验数据的选取 |
5.2 实验过程及结果分析 |
5.3 系统的设计与实现 |
5.3.1 需求分析 |
5.3.2 模块介绍 |
5.3.3 系统总体设计 |
5.3.4 项目展示 |
5.4 本章小结 |
总结与展望 |
参考文献 |
攻读学位期间发表的论文 |
致谢 |
详细摘要 |
(6)基于深度学习的多领域商品评论情感分析(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究背景与研究意义 |
1.2 国内外研究现状与发展 |
1.3 论文的主要工作 |
1.4 论文的组织结构 |
2 相关理论与技术介绍 |
2.1 文本预处理技术介绍 |
2.1.1 爬虫技术 |
2.1.2 中文分词技术 |
2.1.3 停用词过滤技术 |
2.2 语言模型介绍 |
2.2.1 传统语言模型 |
2.2.2 神经网络语言模型 |
2.3 基于传统语言模型的文本特征提取 |
2.4 文本情感分析模型介绍 |
2.4.1 卷积神经网络 |
2.4.2 循环神经网络 |
2.4.3 胶囊神经网络 |
2.4.4 支持向量机 |
3 多领域商品评论数据的预处理与文本表示 |
3.1 多领域商品评论数据的爬取 |
3.2 商品评论数据的预处理 |
3.2.1 中文分词 |
3.2.2 停用词的过滤 |
3.3 基于BERT的商品评论数据向量化表示 |
3.3.1 BERT语言模型 |
3.3.2 获取商品评论数据的向量化表示 |
3.4 本章小结 |
4 商品评论数据的情感分析 |
4.1 实验超参数设置与优化函数选取 |
4.2 实验结果的评价标准 |
4.3 基于卷积神经网络模型进行商品评论情感分析 |
4.3.1 模型的设计与实现 |
4.3.2 实验结果 |
4.4 基于循环神经网络模型进行商品评论情感分析 |
4.4.1 模型的设计与实现 |
4.4.2 实验结果 |
4.5 基于胶囊神经网络模型进行商品评论情感分析 |
4.5.1 模型的设计与实现 |
4.5.2 实验结果 |
4.6 实验结果的对比与分析 |
4.7 本章小结 |
结论 |
参考文献 |
致谢 |
(7)基于词汇对齐的跨语言观点检索研究(论文提纲范文)
摘要 |
Abstract |
绪论 |
一、研究背景 |
二、研究现状 |
三、研究思路及创新点 |
四、论文的组织结构 |
第一章 相关技术概述 |
第一节 词向量 |
第二节 卷积神经网络 |
一、卷积层 |
二、池化层 |
第三节 长短时记忆网络 |
第四节 注意力机制 |
第五节 相似度计算 |
第二章 跨语言词汇对齐研究 |
第一节 中英文词汇的分布式表示 |
第二节 词向量标准化预处理 |
第三节 基于无监督的模型初始化 |
第四节 自适应学习 |
第五节 词汇对齐实证研究 |
第三章 跨语言情景下的相似度计算和情感分析 |
第一节 基于词汇对齐的跨语言文本相似度计算研究 |
一、基于对齐词汇的跨语言文本相似度计算模型 |
二、CLTSC-AW模型实证研究 |
第二节 基于词汇对齐的跨语言情感分类研究 |
一、基于词汇对齐的跨语言情感分类模型 |
二、CLSC-AW模型实证研究 |
第四章 跨语言观点检索的实证研究 |
第一节 基于词汇对齐的跨语言观点检索模型 |
一、AW-CLORM的系统设计 |
二、模型所用的平台和工具 |
第二节 AW-CLORM模型实证研究 |
一、数据集和数据预处理 |
二、评估指标 |
三、比较方法 |
四、参数设置 |
五、实验结果 |
第五章 总结与展望 |
一、论文工作总结 |
二、进一步的工作 |
参考文献 |
在读期间科研成果 |
致谢 |
(8)自然语言处理在信息检索中的研究和应用(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景及意义 |
1.2 研究现状及发展趋势 |
1.3 本文主要工作 |
1.4 本文组织结构 |
第2章 理论与技术基础 |
2.1 中文分词和预处理 |
2.2 TF-IDF算法 |
2.3 百度百科和词语相似度 |
2.4 本章小结 |
第3章 Simhash算法的改进 |
3.1 Simhash算法简介 |
3.2 改进的Simhash算法 |
3.2.1 投票模型简介 |
3.2.2 关键词权值计算 |
3.3 评价指标 |
3.4 实验及结果分析 |
3.5 本章小结 |
第4章 基于TTSimhash算法的词语相似度计算 |
4.1 词条相似度计算 |
4.1.1 词条名片相似度计算 |
4.1.2 词条正文相似度计算 |
4.1.3 词条开放分类相似度计算 |
4.1.4 相关词条相似度计算 |
4.1.5 词条相似度计算公式 |
4.2 数据集处理 |
4.3 评价指标 |
4.4 实验及结果分析 |
4.5 本章小结 |
第5章 词语相似度在信息检索中的应用 |
5.1 系统需求分析 |
5.2 系统设计与实现 |
5.2.1 查询扩展模块设计与实现 |
5.2.2 个性化模块设计与实现 |
5.3 系统测试 |
5.3.1 查询扩展模块测试 |
5.3.2 个性化模块测试 |
5.3.3 系统搜索结果展示 |
5.4 本章小结 |
第6章 总结和展望 |
6.1 总结 |
6.2 展望 |
参考文献 |
攻读硕士学位期间发表的论文 |
致谢 |
(9)现代汉语深度语义标注语料库研究(论文提纲范文)
摘要 |
Abstract |
绪论 |
一、学术背景与选题说明 |
二、研究价值和研究目标 |
三、研究思路和研究方法 |
四、结构安排和基本术语 |
第一章 语义知识库、语料库建设概述 |
第一节 语言知识库与语料库 |
一、语言知识库 |
二、语料库 |
三、语言知识库与语料库的关系 |
第二节 语义知识库建设概况 |
一、词义知识库建设现状 |
二、句法语义知识库建设现状 |
第三节 语义语料库建设现状 |
第二章 深度语义标注语料库建设思路 |
第一节 语义标注语料库建设的理论指导 |
第二节 语料库标注规范 |
一、规范制定的原则 |
二、制定规范的策略 |
三、加工的一致性要求 |
第三节 语料库标注的原则及注意问题 |
一、语料库标注的原则 |
二、语料库标注应注意的问题 |
第四节 《深度语义标注语料库》介绍 |
一、语料的来源 |
二、语料库的构成及规模 |
第五节 语料库加工流程及标注样例 |
第三章 深度语义标注语料库的语义词类系统 |
第一节 汉语语义词类系统研究概况 |
第二节 汉语语义词类系统的比较 |
一、语义分类为主,兼顾传统语法词类 |
二、传统语法词类为纲,语义词类为目 |
三、哲学观点为纲,语义词类为目 |
第三节 汉语语义词类系统构建的目的 |
一、为语言知识库的研究提供新思路 |
二、为中文信息处理的研究提供基础 |
三、服务于现代汉语语义网络的建构研究 |
第四节 语义词类的分类体系 |
一、语义词类系统的分类原则 |
二、语义词类系统的分类框架 |
三、语义词类系统的标注集 |
第四章 语义词类自动标注研究 |
第一节 系统开发方案 |
一、性能指标要求 |
二、语义词类的标注困难 |
三、系统开发步骤 |
第二节 语义词类词典的构建 |
一、词典构建方式 |
二、本系统词典的结构 |
三、语义词类词典制作工具的功能 |
第三节 语义词类自动标注的模型算法及处理方式 |
一、语言统计模型 |
二、标注算法 |
三、系统模型参数获取 |
四、基于知网概念定义的未登陆词处理 |
五、数据稀疏问题的处理 |
第四节 技术实现及测试结果分析 |
一、系统的开发环境 |
二、技术实现 |
三、系统实现描述 |
四、软件功能及界面 |
五、测试结果及分析 |
第五章 深度语义标注库的句法语义范畴系统 |
第一节 句法语义研究现状 |
一、国外句法语义研究 |
二、汉语句法语义研究 |
第二节 语义语法学的句法语义范畴体系 |
第三节 句法语义范畴体系中的陈述结构框架 |
一、陈述结核范畴体系 |
二、基本角色范畴体系 |
三、附加角色范畴体系 |
第四节 句法语义范畴体系中的指称结构框架 |
一、指称结核范畴体系 |
二、结核/修饰范畴体系 |
三、修饰范畴体系 |
第五节 句法语义范畴体系中的其他句法范畴 |
一、独语范畴 |
二、情态范畴和语气范畴 |
三、关联范畴 |
第六节 句法语义范畴标注集 |
第六章 句法语义分析技术研究 |
第一节 句法语义分析技术研究现状 |
第二节 句法语义分析的常用理论分析 |
一、格语法 |
二、框架语义学 |
三、概念依存理论 |
四、依存语法理论 |
第三节 句法语义分析的常用方法比较 |
第七章 句法语义范畴自动标注研究 |
第一节 理论依据及标注任务 |
一、系统开发的理论依据 |
二、标注任务描述 |
第二节 标注方案及标注体系 |
一、标注任务方案 |
二、句法语义范畴体系标记及含义 |
第三节 相关语义知识库的构建 |
一、语义词类与句法语义范畴对应关系知识库 |
二、语义句型框架库的构建 |
三、语义句模知识库的构建 |
第四节 基于语义句型框架的语义角色标注研究 |
一、语义角色的标注策略 |
二、结核的确定 |
三、条件随机场(CRF)简介 |
四、特征描叙和特征选择 |
第五节 测试及结果分析 |
一、实验语料来源 |
二、评价方法 |
三、实验结果及分析 |
四、句法语义范畴辅助标注工具功能介绍 |
结论 |
参考文献 |
附录 |
一、现代汉语语义词类标注系统规范(部分) |
二、句法语义范畴标注规范(部分) |
(10)基于VGI标签的语义扩展空间信息检索技术研究 ——以OSM数据为例(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景和意义 |
1.2 国内外研究现状 |
1.2.1 自然语言检索技术 |
1.2.2 地理本体研究 |
1.2.3 查询扩展技术 |
1.2.4 研究现状总结 |
1.3 论文研究内容与组织结构 |
1.3.1 本文研究内容 |
1.3.2 论文主要创新点 |
1.3.3 本文组织结构 |
1.4 本章小结 |
第2章 查询语句语义化解析 |
2.1 自然语言处理 |
2.1.1 简介 |
2.1.2 NLP关键技术 |
2.2 语义词典 |
2.2.1 基于空间信息的概念词典 |
2.2.2 基于地名数据库的语义词典 |
2.2.3 基于ER模型的关系语义词典 |
2.3 用户查询意向抽取 |
2.3.1 关键词组抽取 |
2.3.2 句法结构分析 |
2.3.3 检索语义解析 |
2.3.4 查询意向与检索模型之间的映射 |
2.4 本章小结 |
第3章 OSM空间数据检索本体模型构建 |
3.1 OpenStreetMap |
3.1.1 OSM简介 |
3.1.2 OSM数据元素 |
3.1.3 Free Tagging机制 |
3.2 基于OSM标签的语义属性扩展 |
3.3 OSM空间数据本体模型构建 |
3.3.1 本体构建方法 |
3.3.2 本体建模工具 |
3.3.3 OSM Ontology |
3.4 本章小结 |
第4章 空间信息语义查询扩展方法研究 |
4.1 查询扩展方法 |
4.1.1 传统的查询扩展方法 |
4.1.2 现有方法及其优缺点 |
4.2 基于Tag属性的相似度查询扩展方法 |
4.3 不同类型查询扩展 |
4.3.1 层次关系扩展 |
4.3.2 空间关系扩展 |
4.3.3 依附相关扩展 |
4.3.4 其它关系扩展 |
4.4 本章小结 |
第5章 基于OSM数据的语义扩展检索系统的设计与实现 |
5.1 系统框架介绍 |
5.1.1 系统架构设计 |
5.1.2 开发平台设计 |
5.2 数据库设计 |
5.3 检索输入的NLP模块设计 |
5.3.1 查询语句处理模块 |
5.3.2 概念匹配模块 |
5.4 语义相似度计算模块设计 |
5.5 查询扩展技术实现 |
5.6 本章小结 |
第6章 评价指标与结果分析 |
6.1 评价指标 |
6.2 结果分析 |
6.2.1 面向地空间信息的NLP性能 |
6.2.2 查全率和查准率 |
6.2.3 Top-N性能 |
6.2.4 最佳扩展词数 |
6.3 本章小结 |
第7章 总结与展望 |
7.1 论文总结 |
7.2 研究展望 |
参考文献 |
攻博期间的主要科研工作 |
致谢 |
四、中文信息检索中的自然语言处理(英文)(论文参考文献)
- [1]语句意图匹配方法研究[D]. 刘欣. 哈尔滨工业大学, 2021(02)
- [2]基于问句深度语义匹配的社区问答方法研究[D]. 陈鑫. 苏州大学, 2020(02)
- [3]跨语言检索数据集构建方法研究与验证[D]. 陈梦. 华中师范大学, 2020(01)
- [4]中医针灸领域信息抽取关键技术研究[D]. 孙水华. 大连理工大学, 2019(08)
- [5]基于搜索引擎的中文纠错方法研究与实现[D]. 杨苏稳. 江苏科技大学, 2019(03)
- [6]基于深度学习的多领域商品评论情感分析[D]. 闵昶荣. 大连海事大学, 2019(06)
- [7]基于词汇对齐的跨语言观点检索研究[D]. 龚雨田. 中南财经政法大学, 2019(09)
- [8]自然语言处理在信息检索中的研究和应用[D]. 仲远. 江苏科技大学, 2019(03)
- [9]现代汉语深度语义标注语料库研究[D]. 贺胜. 南京师范大学, 2017(06)
- [10]基于VGI标签的语义扩展空间信息检索技术研究 ——以OSM数据为例[D]. 夏辉. 武汉大学, 2017(06)