共查询到20条相似文献,搜索用时 15 毫秒
1.
在深入分析NSTL篇级元数据特点的基础上,结合模糊匹配算法,提出一种适合NSTL现有数据的人名消歧规则集,并给出基于该规则集的人名消歧算法。通过对实际数据集的实验,该算法在准确率、召回率等指标方面都有良好的表现,具备较好的消歧效果。 相似文献
2.
3.
4.
基于标注语料库的有指导学习方法是词义消歧取得性能最好的方法,优于无指导学习方法和基于词典的方法.它的准确率极大地依赖于标注语料库的规模,而目前人工标注语料库数量极少,缺乏标注语料就成为制约词义消歧发展的瓶颈,如何生成大规模标注语料成为词义消歧研究热点.自举是解决上述问题的重要方法,它以小规模标注语料作为种子,运用机器学习算法生成大规模标注语料.本文对自举在词义消歧中的应用和关键问题进行介绍.首先对自举进行算法描述,然后分别从中英文词义消歧领域介绍自举的应用情况,最后对自举应用涉及的初始种子、自举参数、未标注语料集的选择和互联网应用等几个关键问题进行总结. 相似文献
5.
基于网络协作标注的标签消歧方法述评 总被引:1,自引:0,他引:1
窦玉萌 《现代图书情报技术》2010,26(3):27-32
以网络协作标注中的标签为研究对象,调研标签消歧方法,并将其划分为基于数据挖掘方法消歧、基于统计分析方法消歧、利用相关知识组织工具消歧、引入控制机制消歧和开发可视化组件消歧5类。比较这5类消歧方法在用户参与度、消歧时机、消歧性质、实验与应用情况和发展前景5个方面存在的区别和联系。 相似文献
6.
分析跨语言信息检索的基本模式和翻译消歧关键技术,采用基于词语对共现率和词语间距加权计算的方法,对查询式翻译进行消歧优化,在此基础上构建跨语言商品信息检索系统并应用于图书商品搜索,实验结果证明翻译质量和检索效果得到提高。 相似文献
7.
一个构造良好的查询是信息检索质量的基本保证,语义查询扩展技术解决了传统信息检索系统不能很好理解用户查询意图的问题,在提高检索查全率的同时保证了检索准确率。本文以查询关键字之间的语义关联为切入点,辅以隐式反馈技术获取消歧上下文,以WordNet本体库和WordNet Domains扩展库作为消歧数据源,使用基于局部上下文和基于图论的两类无导词义消歧方法进行查询关键字到本体概念的映射,最后基于概念词汇关联完成基于语义的查询扩展。综合WordNet本体库和WordNet Domains扩展库中的各项知识源对查询词义进行判定,保证了词义消歧的精度;采用无导词义消歧实现查询词义的快速判定,保证了信息检索的实时性;根据查询关键词的多寡分别提出两类消歧方法,满足了各种查询需求。 相似文献
8.
9.
许琦 《中国科技资源导刊 (中国信息导报)》2010,(4):55-60
文章提出一种基于语义知识库知网和向量空间模型理论的文档语义模型构建方法,论述知网知识描述方式
的特点,提出一种滑动窗口语义消歧算法,利用知网的义原层次体系对文档模型进行语义化处理,根据语境确定语义,
将模型特征项转换为关键词的义项,较好地解决了由于自然语言中存在的同义、近义、上下位等语义关系而产生的模型
偏差问题。通过计算义项相似度,加权得到文档相似度。实验证明,该方法较好地描述了文档特征,能够达到良好的聚
类效果,是切实可行的。 相似文献
10.
许琦 《中国科技资源导刊》2010,42(4)
文章提出一种基于语义知识库知网和向量空间模型理论的文档语义模型构建方法,论述知网知识描述方式的特点,提出一种滑动窗口语义消歧算法,利用知网的义原层次体系对文档模型进行语义化处理,根据语境确定语义,将模型特征项转换为关键词的义项,较好地解决了由于自然语言中存在的同义、近义、上下位等语义关系而产生的模型偏差问题.通过计算义项相似度,加权得到文档相似度.实验证明,该方法较好地描述了文档特征,能够达到良好的聚类效果,是切实可行的. 相似文献
11.
词义消歧是一个分类过程,局部上下文是主要的分类特征.对称窗口指上下文边界与歧义词的左右距离相等,大部分消歧系统凭经验将其作为最优的局部上下文窗口,很少选择非对称窗口.对称窗口是否优于非对称窗口?本文以Senseval-3中文数据集为例对这一问题展开研究.首先,对训练集采用交叉验证法确定最优窗口,它是非对称的.并采用此非对称窗口与多组经典的对称窗口进行了对比消歧测试,结果表明非对称窗口的表现优于对称窗口.进一步在独立采用词或词性作为特征的情况下进行交叉验证评估,发现趋于对称的窗口总体上表现是优秀的.在不进行辅助计算的情况下,可以选择对称窗口作为局部上下文窗口,但它并不是最优的. 相似文献
12.
为解决短文本特征词少、概念信号弱的问题,结合维基百科进行特征扩展以辅助中文短文本分类。通过维基百科概念及链接等信息进行词语相关概念集合抽取、概念间相关度计算,利用消歧页结合短文本上下文信息解决一词多义问题,进而以词语间语义相关关系为基础进行特征扩展,以补充文本特征语义信息。最后,给出基于维基百科的中文短文本分类算法,并对其进行实验验证。结果表明,该算法能有效提高中文短文本分类效果。 相似文献
13.
在外文期刊数据库中,同一姓名简称代表多位作者的现象十分普遍,严重影响作者检索的精度。本次研究将规则与算法相结合,依据规则为分类算法标注训练数据,从而在无监督条件下使用有监督算法,实现作者的精确检索。该算法适用于论文查证等已知作者身份的姓名消歧问题,相比通用的消歧方法,该方法结合无监督算法无需人工标注的优点,以及有监督算法高效率、易对应实体的优点。实践结果表明,该方法具有较高的准确度。 相似文献
14.
信息爆炸是当今信息社会的一大特点,如何在海量的信息中有效地找到所需信息因而成为了一个关键问题,语义检索技术是解决这一问题非常有潜力的方法.本文对信息检索中的若干关键问题进行了研究,提出了基于语义处理技术的信息检索模型--SPTIR,该模型主要包括以下关键技术:基于词义消歧的语义查询扩展、基于词汇语义相关性度量的查询优化和基于文档语义相关性的检索结果重排序.最后使用大型测试数据集和多项性能指标对SPTIR模型的检索性能进行了试验评估,实验结果充分验证了SPTIR模型的竞争优势以及该模型采用的各项语义处理技术对提高检索性能所起的积极作用. 相似文献
15.
利用优化的DBSCAN算法进行文献著者人名消歧 总被引:1,自引:0,他引:1
《图书馆理论与实践》2014,(12)
通过对文本聚类算法DBSCAN算法优化对文献著者人名进行消歧,结果表明,相对标准文本聚类算法来说,优化后的算法能取得更好的人名消歧效果。 相似文献
16.
基于查询扩展和词义消歧的语义检索 总被引:1,自引:1,他引:0
随着网络化信息的急剧增长以及自然语言固有的歧义性问题,当前基于关键字匹配的搜索引擎已不能满足信息搜索的需求,出现了"信息泛滥而知识缺乏"的现象.本文提出基于语义的智能搜索技术,利用WordNet和WordNet Domains知识库从结构相关性和领域相关性两个方面综合判定词义间的相关性.根据用户提交的查询关键词的整体相关性最大化原则来确定查询词义,进而进行查询扩展;同时对检索到的文档内容也进行语义消歧来去除无关文档,兼顾了查准率和查全率两个方面.模拟实验结果表明,本文方法的搜索性能较传统的关键字匹配法和一般的查询扩展方法有明显优势,检索精度分别提高了18%和28%. 相似文献
17.
文章旨在探讨查询分类技术和跨语言检索技术的关系,前者的应用能否改善后者的系统性能是核心问题。首先提出一种基于查询分类的标准化折扣累积增量评价指标,通过对采用查询分类技术前后信息检索系统的标准化折扣累积增量评价指标的变化进行判断,来检验该评价指标的可用性和有效性。同时,查询分类可以作为降低跨语言检索系统查询翻译的歧义性的技术手段。对大规模查询集随机抽样的查询翻译实验结果表明,本文提出的基于查询分类的查询翻译消歧方法对大部分查询有效,在一些情况下甚至可以直接通过本方法完成查询翻译。结合其他方法进一步消除翻译的歧义性则是下一步的工作内容。 相似文献
18.
基于双向最大匹配和HMM的分词消歧模型* 总被引:1,自引:0,他引:1
提出一种消减分词切分歧义的模型。利用正向和逆向最大匹配方法对中文文本信息进行分词,基于隐马尔科夫模型对两次最大匹配的分词结果进行对比消歧,得到较为精确的结果。整个过程分为歧义发现、歧义抽取、歧义消除3个过程。测试结果显示,该模型能有效地降低分词歧义引起的错误切分率。 相似文献
19.
[目的/意义]从学术期刊中抽取其中的理论是对文献进行内容分析的前提,实现理论名称识别的自动化可以提高内容分析的效率。[方法/过程]将理论识别视为一类命名实体识别问题,总结现有的命名实体识别的常用方法,提出一个基于语义泛化思想的命名实体识别方法,选取词性、知网义原等外部知识,采用CRF模型对《情报学报》1822篇论文的标题和摘要进行实验。[结果/结论]实验表明,识别准确率最高达到95.38%,但召回率较低;训练语料规模对性能影响较大,不同程度的语义泛化方法对准确率和召回率有复杂影响。如何选择语义特征、语义标注和语义消歧是需要解决的新问题。 相似文献
20.
面对日益膨胀的多语种信息资源,跨语言信息检索已成为实现全球知识存取和共享的关键技术手段。构建一个实用型的跨语言检索查询翻译接口,可方便地嵌入任意的信息检索平台,扩展现有信息检索平台的多语言信息处理能力。该查询翻译接口采用基于最长短语、查询分类和概率词典等多种翻译消歧策略,并从查询翻译的准确性和接口的运行效率两个角度对构建的查询翻译接口进行评测,实验结果验证所采用方法具有可行性。 相似文献