首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 562 毫秒
1.
基于图挖掘的文本主题识别方法研究综述   总被引:1,自引:1,他引:0  
本文通过文献调研分析,将基于图挖掘的文本主题识别方法总结为中心度方法、紧密关联子图查找和图聚类三种,后两者又细分为基于clique子团或类clique子团、基于图拓扑结构或结点属性聚类的方法。中心度方法通过对比文本网络中术语结点的重要度来实现文本主题的识别,紧密关联子图查找和图聚类方法则是根据文本图中术语结点和边的属性相似度来识别文本核心主题。基于语言文本网络自身特性,如何构建复杂文本关系图来同时揭示术语间的句法、共现和语义关系,如何基于术语关联和图拓扑结构识别其中的紧密关联子团,基于何种标准将紧密关联子团聚类以揭示文本核心主题,都是未来需要进一步深入研究的问题。表1。  相似文献   

2.
XTM的主题相关度的量化机制研究   总被引:1,自引:2,他引:1  
主题图XTM作为一种用于描述信息资源知识结构的工具,在信息和知识资源的整合领域有着广泛的应用前景。然而,在XTM技术框架中只定义了主题之间的关联,并没有给出相应的相关度评价方法,而且关联只局限在彼此有直接关联的主题之间,并没有定义间接关联。因此有必要为主题图引入相关度的评价,进而更清晰地理解主题图的语义结构。针对这一问题,本文在对XTM中主题关联语义结构的分析的基础上,通过划分主题关联种类,从XTM抽取出其树形的语义层次结构。在此树形结构的基础上,引入语义距离的概念进行对主题图的二级关联扩展和关联间语义相关度的计算。并在在相关算例的验证过程中,得到了较好的计算结果。  相似文献   

3.
为充分发挥知识组织在企业专利战略中的作用,在分析专利文献的基础上,根据中文专利文献句法描述的特点,利用最大串频匹配、蚁群聚类、多层KMeans聚类、改进关联规则计算、基于规则和CRFs的术语关系抽取等算法,设计出一套领域本体的半自动构建系统,包括术语抽取、分类关系抽取、非分类关系抽取、本体形式化等模块,初步实现结构化数据和非结构化文本的本体半自动构建。  相似文献   

4.
本研究对MEDLINE中生物体类文献中高频主要主题词进行共词聚类分析,获取主题词之间的关联规则,利用UMLS语义关系进行结构化表达.从MEDLINE中选取<中华医学杂志>上的生物体类文献作为测试集,由专家人工抽取关系,与共词聚类得到的关联规则进行比较.利用共词聚类分析对生物体类主题词关系的挖掘及评价分析,为文本知识发现提供了一种新的尝试.  相似文献   

5.
基于关键词和摘要相关度的文献聚类研究   总被引:1,自引:0,他引:1  
现有的文献聚类方法都是通过文献关键词来进行的.本文在研究大量文献聚类方法的基础上,提出了一种通过文献关键词和摘要进行加权的新的文献聚类算法.首先,改进了传统相似度计算的方法,设计出基于关键词和摘要词加权的相似度公式,使文献相似度计算更加精确.其次,基于"文献距离越大,聚为一类的概率越小"的思想,提出了一种"最大距离聚类法",并给出了算法的详细步骤.最后,实现算法并进行了大量的实验仿真.通过改进相似度计算公式,调整关键词和摘要词的权重,提高了聚类的质量.结果表明,本文提出的文献聚类算法是一种行之有效的方法.  相似文献   

6.
本文针对目前基于聚类算法的入侵检测技术存在符号类型数据处理能力欠缺、误报率较高的问题。提出了一种基于聚类和关联规则修正的入侵检测技术。该方法将关联规则挖掘技术引入到聚类分析机制中.利用针对符号型属性的关联规则挖掘结果对聚类结果进行修正,从而有效降低由于在入侵检测单纯使用聚类分析所导致的误报。文中详细的阐述了改进的具体实现方案,并通过实验验证了该技术的可行性。  相似文献   

7.
面向领域中文文本信息处理的术语语义层次获取研究   总被引:1,自引:0,他引:1  
研究国内外现有术语语义层次关联的主要方法,针对如何获取术语语义层次内部结构的关键问题,构建术语语义层次获取流程,采用多重聚类方法获取层次关系,结合综合相似度计算方法提取层次内部的聚类标签,并选取一定的语料进行实验,验证该流程的合理性。  相似文献   

8.
当前文本主题获取方法大多依靠单一关联分析,不能全面分析可获取信息,难以准确获取科技发展主题。科技文献的主题词、作者和引文之间蕴含了以研究主题内容为纽带的语义关联关系,主题词共现关系、引文关系和合著关系分别从不同的角度展现了主题关联关系。因此,本文根据主题词之间语义关系距离的远近,将主题识别中主题词关联分为基础关系、强化关系和新增关系,在此基础上提出面向主题识别的多元关系抽取及关系融合方法;并以基因工程疫苗的研发与制备领域为例进行领域实证分析,利用PathSelClus算法实现基于多元关系融合的主题聚类,通过对比实验证明多元关系融合可以有效提高实证领域的文本主题聚类效果,而未来多关系融合主题识别则是需要重点关注的问题。图4。表6。参考文献19。  相似文献   

9.
本文依据中国知网、《中图法》、《中国分类主题词表》等知识库,通过对领域词语的概念化处理、建立推理规则、过滤掉阈值较低的词语等手段,形成领域词语本体知识库;然后,根据待分类题名的语义逻辑关系,结合基于距离的语义相似度的计算规则,形成一种应用于领域词语本体的题名自动分类方法,该方法在一定程度上弥补了文献题名特征不足的缺点,且提高了准确率和召回率。  相似文献   

10.
专利数据包含了各种丰富的信息.通过对专利数据聚类,可以将它们划分为语义或结构上相似的子集,从而为发现数据中所蕴含的有用模式和知识提供更为深入的洞察力.传统的专利数据聚类方法通常只是利用专利数据的某项属性实现聚类,没有充分利用专利数据所包含的多种丰富信息.本文针对现有专利数据聚类方法的不足,提出了一种综合利用专利摘要文本和IPC分类号的专利聚类方法PDICluster.该方法通过解析IPC分类号中包含的树型结构信息,利用树距离度量专利数据之间的相似性,并综合专利摘要文本和IPC分类号相似性信息来实现专利数据聚类.实际专利数据上的聚类实验结果验证了PDICluster方法的有效性.  相似文献   

11.
提出一种合理运用大众标注数据自动构建资源导航体系的方法,首先使用聚类技术将标签分成主题相近的簇,然后在簇内按标签的泛指度和相似性构造标签树。将该方法用在公开的标签数据集Social-ODP-2k9上进行实效评价,结果表明,本方法减少了以往标签树构造方法中“意义漂移”的缺陷,使组织结构有更好的语义一致性,且具有更好的导航效率,从而使本研究能适应信息组织与服务的实际需要。  相似文献   

12.
基于在线词表的folksonomy语义关联识别方法研究   总被引:1,自引:1,他引:1  
魏来 《图书情报工作》2011,55(5):104-108,55
在研究现有folksonomy语义关系发现与识别的基础上,提出基于在线词表的folksonomy语义关联识别的总体思路和方法步骤,重点研究folksonomy语义关联识别的具体规则,制定基于在线词表的直接关联关系识别规则和非直接包含/同源关系识别规则,并利用开放教育领域的在线词表ERIC作为语义基础进行实证研究。  相似文献   

13.
The deep learning has become an important technique for semantic relation classification in patent texts. Previous studies just borrowed the relevant models from generic texts to patent texts while keeping structure of the models unchanged. Due to significant distinctions between patent texts and generic ones, this enables the performance of these models in the patent texts to be reduced dramatically. To highlight these distinct characteristics in patent texts, seven annotated corpora from different fields are comprehensively compared in terms of several indicators for linguistic characteristics. Then, a deep learning based method is proposed to benefit from these characteristics. Our method exploits the information from other similar entity pairs as well as that from the sentences mentioning a focal entity pair. The latter stems from the conventional practices, and the former from our meaningful observation: the stronger the connection between two entity pairs is, the more likely they belong to the same relation type. To measure quantitatively the connection between two entity pairs, a similarity indicator on the basis of association rules is raised. Extensive experiments on the corpora of TFH-2020 and ChemProt demonstrate that our method for semantic relation classification is capable of benefiting from characteristic of patent texts.  相似文献   

14.
提出一种基于潜在语义索引和本体论的文本语义处理方法。首先构建一个基于本体论的虚拟标准文本特征向量,然后采用潜在语义索引方法以虚拟标准文本特征向量为参照对文本集进行语义聚类,最后在虚拟标准文本特征向量的导引下利用本体库中的知识对聚类获得的文本集合的类别和语义进行显性标注。实验表明,该方法能较好地在语义层面对文本进行有效的聚类,而且聚类结果能显性地显示类聚所属的类别。  相似文献   

15.
Query expansion (QE) is an important process in information retrieval applications that improves the user query and helps in retrieving relevant results. In this paper, we introduce a hybrid query expansion model (HQE) that investigates how external resources can be combined to association rules mining and used to enhance expansion terms generation and selection. The HQE model can be processed in different configurations, starting from methods based on association rules and combining it with external knowledge. The HQE model handles the two main phases of a QE process, namely: the candidate terms generation phase and the selection phase. We propose for the first phase, statistical, semantic and conceptual methods to generate new related terms for a given query. For the second phase, we introduce a similarity measure, ESAC, based on the Explicit Semantic Analysis that computes the relatedness between a query and the set of candidate terms. The performance of the proposed HQE model is evaluated within two experimental validations. The first one addresses the tweet search task proposed by TREC Microblog Track 2011 and an ad-hoc IR task related to the hard topics of the TREC Robust 2004. The second experimental validation concerns the tweet contextualization task organized by INEX 2014. Global results highlighted the effectiveness of our HQE model and of association rules mining for QE combined with external resources.  相似文献   

16.
关键词自动标引是一种识别有意义且具有代表性片段或词汇的自动化技术。关键词自动标引可以为自动摘要、自动分类、自动聚类、机器翻译等应用提供辅助作用。本文利用基于知网的词语语义相关度算法对词汇链的构建算法进行了改进,并结合词频和词的位置等统计信息,进行关键词的自动标引。实验证明,该方法可以有效的进行关键词的自动标引。  相似文献   

17.
[目的/意义]作为一类面向学科领域科技情报需求、针对全文本关键语义计量分析、旨在实现情报自动化到知识自动化实践应用的探索研究,本文基于语义标注和机器学习等技术,在前期研究从知识元共现视角探测研究前沿演进机理基础上,进一步提出一种基于知识元变异的研究前沿知识演进分析方法。[方法/过程]利用Word2vec词嵌入模型将知识元表示为词向量,通过计算知识元向量的欧几里得距离,利用K-means聚类方法识别具有相似语义语用关联的知识元簇集,计算历时簇集内各知识元TF-IDF值,对变异后知识元重要程度的突发变化结果进行定量测度,进而挖掘ESI研究前沿演进中的知识元变异特征和规律。[结果/结论]通过探测结果的对比检验发现,基于知识元变异的科学计量方法,不仅是对前期研究方法的补充和拓展,使得针对研究前沿内部知识运动规律的挖掘更加具体详实,更是在时间序列范畴内,能够尽早、及时探测研究前沿未来发展动向和关键情报信号的有力证据。  相似文献   

18.
针对目前移动内容服务系统缺乏自动构建情境服务规则机制的问题,在情境化用户偏好本体模型的基础上,提出量化频繁标引格结构以建立用户内容偏好与情境之间的语义关联,为规则冲突问题和上下文数据可用性问题提供了解决方案。频繁标引格相对于频繁格进一步减少了产生规则所需的结点数目,更便于不同规则的提取和相关参数的计算。设计了频繁标引格分层构建的算法和推荐规则提取的优先级机制,通过实验验证了算法的有效性,并与相关方法进行了比较分析。  相似文献   

19.
为了提高信息抽取过程中的语义深层次的理解和准确率,本文提出了一种基于领域本体和语块分析的语义信息抽取方法,在详细说明其信息抽取模型的基础上,重点针对命名实体识别、词性组合模板、基于本体的三元组和二元组规则等关键问题进行了深入的分析和研究,提出了相应的解决方法,并进行了相关试验性研究.结果表明:采用本文所述的系统结构及其技术构建文本信息抽取系统是可行的,其能在深层次语义理解的基础上进一步提高信息抽取的准确率.  相似文献   

20.
一种从WEB上抽取信息的方法   总被引:1,自引:0,他引:1  
韩立新  谢立 《情报学报》2004,23(1):45-51
由于WWW上的信息很多存储在HTML页面上 ,因此如何从HTML文档中抽取有用信息是一个迫切需要解决的问题。文中提出一种从HTML文档中抽取信息的方法。该方法综合运用关联规则法、模式匹配、语法规则、聚类法等技术来抽取信息 ,从而较好地解决了现有的抽取方法准确性较差、通用性较差、人工干预较多的问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号