首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
汉语科技词系统建设实践——以新能源汽车领域为例   总被引:2,自引:1,他引:1  
汉语科技词系统是汉语科技词汇深层次知识组织与应用服务工具的集成体系,其知识组织核心内容包括词汇属性描述、词间关系组织、词汇类别信息模型,其核心工具包括词汇和关系的自动获取工具、协同编辑和管理平台系统以及相关应用服务接口.本文比较分析了目前国内典型的词汇语义知识工程,提出了汉语科技词系统数据模型,并以新能源汽车领域知识组织系统为例详细介绍了汉语科技词系统的内涵及相关知识模型.结合实例详细介绍了新能源汽车词系统建设过程中的数据收集策略、分析处理流程,并展望了科技词系统下一步的研发和应用方向.  相似文献   

2.
针对信息检索中存在的词语排除关系问题,给出排除词的定义并说明排除词在信息检索中的作用。指出排除词实质上是最大准交集型歧义切分字段的伪歧义切分所导致的,描述排除词的识别方法,并给出识别的结果,并在实际的信息检索平台上对排除词词库进行应用测评。  相似文献   

3.
一种面向语义的信息检索方法   总被引:1,自引:0,他引:1  
传统的信息检索技术忽视了语义对检索过程的影响,这是造成查准率不高的一个重要原因.论文提出了一种面向语义的信息检索方法,该方法强调使用基于知网的语义处理技术实现对用户查询需求和目标文档的语义标注,使用基于知网的词汇链技术实现对文档特征词汇的过滤.一方面可以实现语义级别的检索匹配,另一方面可以降低大量无关词对检索结果的干扰.论文描述了一个实现该方法的信息检索系统SOIRS,并且利用该系统与传统检索系统做了对比实验.实验结果表明面向语义的信息检索方法在查准率方面要明显优于传统信息检索方法.  相似文献   

4.
汉语科技词系统是科技词汇知识深层次组织与应用服务工具的集成体系。文章首先概述了词系统的内涵,然后总结了三年来在词汇自动获取、词空间构建和词聚类以及词系统的复杂网络分析评价上所取得的技术突破,并展望了科技词系统下一步的重点研发方向。  相似文献   

5.
中文截词检索对主题词词汇控制的影响   总被引:2,自引:0,他引:2  
对汉语词组性主题词的结构特征和同义词、准同义词的词形特点进行了归类分析,指出截词检索技术的应用可以适度提高词汇的先组度,放宽对字面部分一致的一类同义词、准同义词的控制,而不影响检索效率,适用面向普通用户的情报检索系统  相似文献   

6.
一种基于加权网络和句子窗口方案的信息检索模型   总被引:1,自引:0,他引:1  
经典的信息检索模型在文档表示上多采用词袋模型,与此不同,本文提出了一种基于加权网络的信息检索模型.在这一模型中,文档被表示为一个加权共词网络,词汇在文档中的重要性通过词项节点在网络中的重要性加以衡量.基于固定窗口平移和句子窗口方案,本文提出了文本游走模型Textrank的四个检索模型变种,分别是Win_Weighted_Textrank、Sent_Weighted_Textrank、Win_Weighted_Posrank和Sent_Weighted_Posrank.在Reuter RCV1上的实验证明,与无权网络模型Textrank、Posrank相比,本文提出的模型能显著地提升检索效果.  相似文献   

7.
敬卿  王群 《图书馆》2008,(1):58-59
文章指出了目前传统信息检索正在向信息分析、知识发现、知识创新等方向发展的趋势,进而探讨了信息检索课重心的调整与改革问题,并提出了超越信息检索,构建面向知识创新的信息素质教育体系的学术观点.  相似文献   

8.
语义韵是指某一词汇经常地、反复地与一些词语搭配使用,从而“感染”上那些词的语义特征。这一特殊的词汇搭配现象最初由Sinclair发现,后经Louw,Huston和Tompson等学者进一步充实发展,目前在我国也有许多研究者对其进行理论介绍或者实证研究。本文在此基础上就语义韵的相关知识做一简单概括,试图增进广大学习者对其的认识和了解。  相似文献   

9.
基于词索引的中文全文检索关键技术及其发展方向   总被引:2,自引:0,他引:2       下载免费PDF全文
基于词索引的中文全文检索的研究是一个涉及到多个领域的综合性课题。汉语自动分词的精度和速度、词索引数据库的结构、词汇控制技术、检索匹配机制等是影响中文全文检索效果的关键因素。目前基于词索引的中文全文检索技术还在分词技术、网络信息标引的准确率、查全率、查准率以及查询方式上存在局限。未来的中文全文检索将最终在语义、语用、语境层次上实现智能化的信息检索。  相似文献   

10.
相关反馈是近年来信息检索领域的研究热点,是自动查询扩展中的一种重要形式,相关反馈主要包括检索词加权和检索词选择。本文介绍了在相关反馈技术中经典的检索词排序算法,对它们带来的性能改进做了比较,并提出了相关反馈的实际应用中需要解决的一些问题。  相似文献   

11.
[目的/意义] 论文摘要是信息组织的重要标引对象,将论文摘要按一定结构进行标引有利于科学传播、知识发现和情报分析。如何对现有非结构式摘要进行精准快速的自动标引是亟待解决的现实问题。[方法/过程] 假定不同类别的摘要具有内在一致性,即对结构式摘要的研究可为非结构式摘要自动标引提供方法和技术参考。据此,基于美国国家医学图书馆结构要素标签术语集和标签分类映射关系,提出结构要素BOMRC体系和结构式摘要的识别与规范化标引方法。其次选取研究样本并采用文本挖掘方法对样本语料中的单词、动词、三词词块、四词词块等词汇进行词频、TFIDF值等多个指标的定量统计分析,构建能够进行结构要素识别的语义特征词典。最后利用非结构式摘要测试集进行语义特征词典有效性检验。[结果/结论] 结果显示,利用语义特征词典方法能够有效识别非结构式摘要的各类要素,并可用于优化以机器学习方法为核心的自动识别模型。  相似文献   

12.
��[Purpose/significance] The abstract of scientific papers is a vital indexing object within information organization. Meanwhile, indexing the abstract according to certain rules is conducive for not only scientific communication or knowledge discovery, and intelligence analysis as well. Thus, how to realize auto-index accurately and quickly, for millions of unstructured abstracts existed nowadays is a crucial problem to be addressed.[Method/process] This study assumed that different categories of abstract are inherently consistent, that is, the study of structured abstract can provide a method and technical reference for unstructured abstract auto-indexing. Acting in accordance with this assumption and based on the US National Library of Medicine's structural element labeling terminology, this study accomplished mapping across abstract element classifications and proposed BOMRC system, a normalization indexing method for structured abstract. Then we collected research sample and used text mining method to analyze multiple features of structured abstract quantitatively and statistically, such as word frequency, TF-IDF value, as for dimension of words, verbs, three-word lexical chunks and four-word lexical chunks, which enabled us propose a semantic feature dictionary for structured elements. Finally, we used unstructured abstract to test the validity of the semantic feature dictionary.[Result/conclusion] The results show that the semantic feature dictionary method can effectively identify various structural elements of scientific paper abstract, and it can be used to optimize the automatic recognition model, which may be based on machine learning methods.  相似文献   

13.
基于非相关文献的知识发现原理研究   总被引:10,自引:7,他引:10  
从Swanson最早提出非相关文献的知识发现方法开始到现在,很多研究人员都投入到这个新兴的领域中去,概括起来分为以下几种方法:基于单词的词频统计方法、基于短语的词频统计方法、基于概念的知识发现方法、基于概念的词频统计方法,本文详细介绍了这些方法基本原理,并对其进行了简单的比较分析。  相似文献   

14.
藏族人名汉译名识别研究   总被引:2,自引:0,他引:2  
藏族人名汉译名识别属于人名识别的范畴,但现有的人名识别方法并不能完全切合藏族人名命名特点:藏族人名具有浓厚的宗教文化内涵,字(串)特征和内部构成复杂;其次,藏族人名中含有大量高频单字,使得藏族人名和普通词语之间歧义冲突变得十分突出,同时也使得藏族人名和上下文之间的边界变得非常模糊.本文在大规模藏族人名实例和语料库调查基础上,统计分析了藏族人名的用字(串)特征,并构建了藏族人名属性特征库;通过藏族人名的命名规则及属性特征将藏族人名形式化表示,实现了藏族人名汉译名自动识别系统.真实语料库开放测试F值达到87.12%.  相似文献   

15.
为提高引文网络社区划分的准确性,以文档之间的语义关系以及引文之间的引用关系为基础,结合词汇在文档中的位置关系等信息,构建基于词汇语义加权的引文网络。通过GloVe模型对词汇向量化以充分利用词汇语义信息,结合WMD模型度量文献之间的相似度,把文档相似度的计算转变为在约束条件下求线性规划最优解的问题,结合文本的内容及结构特征对网络中的边进行赋权,以Louvain社区发现算法对加权后的引文网络进行社区划分,并对划分后的社区进行分析与检验,实验证明GloVe-WMD模型可提高引文网络社区划分的准确度。  相似文献   

16.
关键词自动标引系统实现   总被引:1,自引:0,他引:1  
基于已标注关键词的大规模分类语料库,依据领域专家知识,统计得到词语表征文本内容主题概念的主题度。以此为基础,完成了一个关键词自动标引系统,详细描述了系统实现的总体流程和功能模块。  相似文献   

17.
数字图书馆知识发现系统平台构建策略研究   总被引:1,自引:0,他引:1  
知识发现技术是一种从大量数据中获得有效的、新颖的、有潜在应用价值的和最终可理解的模式的高级处理过程,它通过数据准备、数据挖掘及模式识别与评价等步骤来实现知识发现,其系统一般架构分数据源、数据挖掘器和用户界面三层,在此基础上构建了由用户界面模块、数据预处理模块、数据挖掘模块、知识模式表示和评价模块、知识库管理模块五部分组成的数字图书馆知识发现系统模型,为数字图书馆知识发现系统平台构建提供策略。  相似文献   

18.
本文在界定多重共现概念的基础上,阐述了它与一般共现的区别,同时对Morris交叉图技术进行改进,开发了多重共现的可视化分析工具,并对多重共现的知识发现方法进行了研究。最后还综合运用多重共现可视化分析工具及多重共现的知识发现分析方法,对机构-期刊-关键词的样本数据进行了实证分析。通过分析发现,该套工具以及知识发现方法能较为有效地发现论文中三个特征项之间的多重共现关系,并能揭示出比一重共现现象更为广泛和深入的信息内容。  相似文献   

19.
针对目前专利技术功效矩阵结构的构建大多由人工完成的现状,提出一种基于特征度指标和矩阵构建词汇模型的矩阵结构生成方法。特征度指标用于提高构建矩阵结构的候选技术词、功效词的相关度,矩阵构建词汇模型用于技术词、功效词的聚类优化和矩阵结构生成。此方法可以为自动构建专利技术功效矩阵提供技术支持和新思路。  相似文献   

20.
This study is devoted to detection of the lexical environment and demonstration of the thematic medium of the words MEMORY and MEMORIES in the social sciences on the basis of the bibliographic database Social Science Citation Index (SSCI) of the Institute for Scientific Information (USA). The amount of studied material is over 3000 documents in English. Corresponding corpora and subcorpora of summary texts are formed, general frequency dictionaries and frequency dictionaries of binary combinations for each corpus and subcorpus are constructed, words and combinations specific for each subcorpus are found, and corresponding factors (lexical markers) are calculated for them. The general statistical information on the usage of the words under study is given, the obtained results of lexical analysis are represented in a tabulated form, and the corresponding semantic maps are discussed.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号