首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 217 毫秒
1.
全文检索中的汉语自动分词及其歧义处理   总被引:3,自引:0,他引:3  
歧义处理是汉语自动分词的核心问题,汉语自动分词是中文信息检索的基础性课题。目前有基于词典的分词方法、基于统计的分词方法、基于语义的分词方法和基于人工智能的分词方法。自动分词的歧义处理,目前主要有:利用“长词优先”排歧,利用特征词消歧,利用“互信息”和“t-信息差”消歧,利用专家系统分词消歧。参考文献15。  相似文献   

2.
基于标注语料库的有指导学习方法是词义消歧取得性能最好的方法,优于无指导学习方法和基于词典的方法.它的准确率极大地依赖于标注语料库的规模,而目前人工标注语料库数量极少,缺乏标注语料就成为制约词义消歧发展的瓶颈,如何生成大规模标注语料成为词义消歧研究热点.自举是解决上述问题的重要方法,它以小规模标注语料作为种子,运用机器学习算法生成大规模标注语料.本文对自举在词义消歧中的应用和关键问题进行介绍.首先对自举进行算法描述,然后分别从中英文词义消歧领域介绍自举的应用情况,最后对自举应用涉及的初始种子、自举参数、未标注语料集的选择和互联网应用等几个关键问题进行总结.  相似文献   

3.
吴丹 《图书情报工作》2009,53(13):120-81
查询翻译歧义性问题是影响跨语言信息检索结果的关键,因此针对查询翻译的消歧研究已成为信息检索领域的研究热点。在对现有研究与应用调研的基础上,详细分析四类自动消歧方法,分别是:对查询进行结构化处理、通过语言分析帮助消歧、借助机读化语言资源进行消歧以及通过人机交互消歧,以期为跨语言信息检索查询翻译提供较好的消歧方法。  相似文献   

4.
基于网络协作标注的标签消歧方法述评   总被引:1,自引:0,他引:1  
以网络协作标注中的标签为研究对象,调研标签消歧方法,并将其划分为基于数据挖掘方法消歧、基于统计分析方法消歧、利用相关知识组织工具消歧、引入控制机制消歧和开发可视化组件消歧5类。比较这5类消歧方法在用户参与度、消歧时机、消歧性质、实验与应用情况和发展前景5个方面存在的区别和联系。  相似文献   

5.
词义消歧是一个分类过程,局部上下文是主要的分类特征.对称窗口指上下文边界与歧义词的左右距离相等,大部分消歧系统凭经验将其作为最优的局部上下文窗口,很少选择非对称窗口.对称窗口是否优于非对称窗口?本文以Senseval-3中文数据集为例对这一问题展开研究.首先,对训练集采用交叉验证法确定最优窗口,它是非对称的.并采用此非对称窗口与多组经典的对称窗口进行了对比消歧测试,结果表明非对称窗口的表现优于对称窗口.进一步在独立采用词或词性作为特征的情况下进行交叉验证评估,发现趋于对称的窗口总体上表现是优秀的.在不进行辅助计算的情况下,可以选择对称窗口作为局部上下文窗口,但它并不是最优的.  相似文献   

6.
基于双向最大匹配和HMM的分词消歧模型*   总被引:1,自引:0,他引:1  
提出一种消减分词切分歧义的模型。利用正向和逆向最大匹配方法对中文文本信息进行分词,基于隐马尔科夫模型对两次最大匹配的分词结果进行对比消歧,得到较为精确的结果。整个过程分为歧义发现、歧义抽取、歧义消除3个过程。测试结果显示,该模型能有效地降低分词歧义引起的错误切分率。  相似文献   

7.
沈喆  王毅  鞠秀芳  成颖 《情报学报》2022,(4):350-363
学者完整且准确的学术成果集为科学计量与科研人才评价等研究提供了重要的数据基础。在现有基于机器学习模型的作者姓名消歧方法尚未达到实用要求的背景下,本研究面向高层次科研人才,充分利用基于规则方法精确率高的优势,提出了“先面向精确率,后面向召回率”的“两步法”作者姓名消歧模型。得益于该群体易于从网络中搜集其履历、研究方向和代表作等信息,消歧模型可采用的特征更加丰富,从而保证了消歧模型的优异性能。本研究以国家杰出青年科学基金获得者为例对模型进行了验证,结果表明,本研究提出的高层次科研人才作者名消歧模型在精确率与召回率两个方面均表现良好,在两组不同特征集上的F1值分别达到了0.93和0.95,较基线模型有较大提升。  相似文献   

8.
本文针对英文专利发明人姓名的字符串匹配问题,利用USPTO发明人姓名的数据集,探索现有字符串匹配算法的适用性。对指向同一发明人不能精确匹配的姓名字符串,分别用10种常用的字符串匹配算法进行处理。比较匹配结果发现:Jaro-Winkler算法对同一发明人姓名字符串匹配效果最好,且结果稳定。通过回归分析可知,杰卡德算法对于发明人的识别效果最佳,基于q-gram的算法在发明人姓名消歧中有重要意义;在发明人消歧中,多种字符串匹配算法的组合运用效果更佳。  相似文献   

9.
针对中文自动标引过程中经常会产生诸多歧义词,导致检出的信息不切题或漏检这一问题,在论述自动标引中歧义词消除方法的相关研究基础上,提出一种将穷举法和消歧规则相结合的歧义词消除方法。测试结果表明,这是一种行之有效的消除歧义词的方法。  相似文献   

10.
一个构造良好的查询是信息检索质量的基本保证,语义查询扩展技术解决了传统信息检索系统不能很好理解用户查询意图的问题,在提高检索查全率的同时保证了检索准确率。本文以查询关键字之间的语义关联为切入点,辅以隐式反馈技术获取消歧上下文,以WordNet本体库和WordNet Domains扩展库作为消歧数据源,使用基于局部上下文和基于图论的两类无导词义消歧方法进行查询关键字到本体概念的映射,最后基于概念词汇关联完成基于语义的查询扩展。综合WordNet本体库和WordNet Domains扩展库中的各项知识源对查询词义进行判定,保证了词义消歧的精度;采用无导词义消歧实现查询词义的快速判定,保证了信息检索的实时性;根据查询关键词的多寡分别提出两类消歧方法,满足了各种查询需求。  相似文献   

11.
作者重名辨识研究进展   总被引:1,自引:0,他引:1  
作者重名现象将降低文献检索和网络检索的准确性,影响文献数据搜集质量,增加基于作者个人层面分析评价的障碍。目前国内外学者提出了人工辨识、数据库字段修正、基于机器学习的重名辨识等多种方法来解决作者重名问题。文章总结作者重名辨识面临的问题,分析当前各辨识方法的特点以及不足之处,指明作者重名辨识特别是中国作者重名辨识的发展方向。  相似文献   

12.
指出建立“学者唯一标识”对消除文献中作者姓名拼写歧义意义重大。认为ResearcherID提供了一种通过学者自动注册消除作者姓名拼写歧义的解决方案,对其产生背景、注册机制及衍生服务进行详细调研,分析ResearcherID注册学者的分布及发展现状,阐述ResearcheID的相关产品ORCID与ReseacherID的渊源及关系。最后讨论ResearchrID的应用前景及对当前图书馆服务的启发。  相似文献   

13.
在对目前各种作者重名消解方法进行总结的基础上, 针对中文文献题录数据特征, 将重名消解问题转换为同名作者文献的分类问题, 提出一种基于规则和相似度的重名消解框架模型, 并对其中的分解规则和合并规则进行详细的算法描述, 最后选取3个学科的重名作者数据集进行实验, 实验结果表明该模型能有效提高作者重名消解的准确率.  相似文献   

14.
国外跨语言信息检索中的翻译歧义性问题研究综述   总被引:2,自引:0,他引:2  
翻译歧义是影响跨语言信息检索效果的主要因素之一。本文论述了跨语言信息检索中翻译歧义性问题产生的原因,并且总结了目前消除这种歧义的方法和技术。  相似文献   

15.
在深入分析NSTL篇级元数据特点的基础上,结合模糊匹配算法,提出一种适合NSTL现有数据的人名消歧规则集,并给出基于该规则集的人名消歧算法。通过对实际数据集的实验,该算法在准确率、召回率等指标方面都有良好的表现,具备较好的消歧效果。  相似文献   

16.
Although always present in text, word sense ambiguity only recently became regarded as a problem to information retrieval which was potentially solvable. The growth of interest in word senses resulted from new directions taken in disambiguation research. This paper first outlines this research and surveys the resulting efforts in information retrieval. Although the majority of attempts to improve retrieval effectiveness were unsuccessful, much was learnt from the research. Most notably a notion of under what circumstance disambiguation may prove of use to retrieval.  相似文献   

17.
With the increasing availability of machine-readable bilingual dictionaries, dictionary-based automatic query translation has become a viable approach to Cross-Language Information Retrieval (CLIR). In this approach, resolving term ambiguity is a crucial step. We propose a sense disambiguation technique based on a term-similarity measure for selecting the right translation sense of a query term. In addition, we apply a query expansion technique which is also based on the term similarity measure to improve the effectiveness of the translation queries. The results of our Indonesian to English and English to Indonesian CLIR experiments demonstrate the effectiveness of the sense disambiguation technique. As for the query expansion technique, it is shown to be effective as long as the term ambiguity in the queries has been resolved. In the effort to solve the term ambiguity problem, we discovered that differences in the pattern of word-formation between the two languages render query translations from one language to the other difficult.  相似文献   

18.
神经网络技术在汉语歧义切分中的应用   总被引:4,自引:1,他引:3  
针对目前汉语自动分词系统中切分歧义的难点,本文提出利用神经网络模式识别的方法帮助消歧。介绍了所建立的实验系统,并进行了实验分析。  相似文献   

19.
There are a number of solutions that perform unsupervised name disambiguation based on the similarity of bibliographic records or common coauthorship patterns. Whether the use of these advanced methods, which are often difficult to implement, is warranted depends on whether the accuracy of the most basic disambiguation methods, which only use the author's last name and initials, is sufficient for a particular purpose. We derive realistic estimates for the accuracy of simple, initials-based methods using simulated bibliographic datasets in which the true identities of authors are known. Based on the simulations in five diverse disciplines we find that the first initial method already correctly identifies 97% of authors. An alternative simple method, which takes all initials into account, is typically two times less accurate, except in certain datasets that can be identified by applying a simple criterion. Finally, we introduce a new name-based method that combines the features of first initial and all initials methods by implicitly taking into account the last name frequency and the size of the dataset. This hybrid method reduces the fraction of incorrectly identified authors by 10–30% over the first initial method.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号