首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
[目的/意义]为更好地提升科技文献的语义丰富化效果,对国内外科技文献语篇元素标注模型、技术和方法进行调研总结,为文本挖掘、科技论文知识抽取、语义分析系统研究者提供借鉴。[方法/过程]利用学术网站搜索和相关数据库搜索引擎,对涉及科技论文标注、语篇元素、知识抽取、句子识别和自动文章分类等参考文献以及研究报告进行深入阅读和调研,对语篇元素自动标注模型以及相关工作进展进行研究总结。[结果/结论]科技文献语篇元素标注具有非常重要的实际应用价值,构建标注模型需充分考虑构建思想、标注领域和标注粒度以及标注技术手段等方面。  相似文献   

2.
在汉语框架网(CFN)的基础上,介绍语义角色自动标注的步骤和流程,提出基于文本匹配和最大熵分类器的语义角色自动标注方法。在文本匹配算法中,综合考虑短语类型、短语相对于目标词位置、句法功能三个因素及其对句子相似度影响的权重;在最大熵算法中,也尝试一些新的特征及其组合,最后利用例子对该方法进行有效性验证。  相似文献   

3.
针对网页文本结构信息少、噪声大的特点,将句子看作点,将句子间的相似性看作边,用句子关系图描述文本中句子间的关系。抽取文本主题句的任务转化为搜索图中边最多的点。利用语义词典,将句子相似度定义为句子语义相似度,解决短文本词频相似度低的问题。选用互联网公开语料进行测试,抽取的主题句达到平均80.6%的可接受性。  相似文献   

4.
[目的/意义] 由于传统科技创新主题概率识别方法忽略文本内容语义理解,为了更加准确地识别出主题,科技创新主题语义识别势在必行。[方法/过程] 提出一种基于LDA的科技创新主题语义识别方法,利用语义角色标注技术对科技文献中的科技创新内容进行语义标引,构建LDA主题语义识别模型,根据表征科技创新内容的关键词语义角色对应的上位词的概率识别出科技创新主题。[结果/结论] 通过以3D打印领域数据为对象进行实验,证明该方法能够更加准确地识别出科技创新主题,形成科技创新主题-主题词-科技文献的混合分布聚类集群,减少研究背景等无关数据干扰,避免语义含义相同的科技创新主题词重复统计问题。  相似文献   

5.
面向科技文献的混合语义信息抽取方法研究   总被引:1,自引:0,他引:1  
针对目前知识抽取技术无法精确抽取学术文献中提及的具体理论方法和性能指标参数等问题,综合运用语义标注技术、规则抽取技术以及正则表达式技术,提出一种面向科技文献的混合语义信息抽取方法。该方法首先对科技文献进行语义标注,得到相关学术术语。然后,构造抽取规则,抽取文献提及的与具体性能指标相关的句子。最后,采用正则表达式技术从相关句子中精确抽取出关键性能指标。对碳纳米管研究领域科技文献语义的信息抽取证明,该方法能迅速、有效和准确地抽取科技文献主要创新研究内容和性能指标。  相似文献   

6.
主题自动提取对于专利文献的信息挖掘具有重要的意义。引入语义角色标注信息来辅助自动提取专利文献主题,区别于已有的专利文本分析平台所采用的人工标注或模板方式。为了改善专利文献的语义角色标注,首先描述将专利文献长句自动拆分成简化句的方法;其次,对简化句进行语义角色标注;最后,综合利用简化句语义信息以及自建带语义框架的常用词表,对专利文献进行主题信息抽取,获得必要信息,从而证实本研究的实用价值。  相似文献   

7.
随着电子商务的飞速发展,用户评论信息对潜在顾客、商家和商品生产商的影响越来越大.由于在线的评论信息十分海量,所以很难通过人工浏览方式进行全面获取.评论句子往往具有很强的主观性,本文提出了整体方案帮助解决评论信息的获取、处理和可视化显示.通过利用词语的相似性计算方法和字的情感倾向分布概率计算方法,实现了极性词典的倾向值量化计算和极性词典的自动扩展.通过利用语义角色标注实现对评论句子的浅层语义分析,并利用统计结果设计出计算句子细粒度情感倾向值的方法.实验结果证明,基于语义角色标注方法比基于词性标注方法在句子细粒度情感倾向值计算中更有效.  相似文献   

8.
自然语言语义分析研究进展   总被引:5,自引:0,他引:5  
按照自然语言的构成层次——词语、句子和篇章,分析各层次语义分析的内涵、现有的研究策略、理论依据及存在的主要方法,并对现存的两类主要研究策略进行对比分析.认为词语语义分析是指确定词语意义,衡量两个词之间的语义相似度或相关度;句子语义分析研究包含句义分析和句义相似度分析两方面;文本语义分析就是识别文本的意义、主题、类别等语义信息的过程.当前的自然语言语义分析主要存在两种主要的研究策略:基于知识或语义学规则的语义分析和基于统计学的语义分析.基于统计与规则相融合的语义分析方法是未来自然语言语义分析的主流方法,本体语义学是自然语言语义分析的重要基础.  相似文献   

9.
[目的/意义] 针对学术期刊文本资源语义标注仍存在的通用本体难以构建、标注粒度单一两大问题,提出基于SKOS的学术期刊多粒度语义标注方法,从而进一步推进语义标注的应用发展,更好满足用户的多粒度学术信息需求。[方法/过程] 在对《中国汉语主题词表》进行SKOS描述的基础上,以学术期刊文本资源为对象,实现其多粒度语义标注,并通过实证研究验证该方法的可行性。[结果/结论] 利用SKOS实现对学术期刊文本资源进行多粒度语义标注,较之当前学术检索系统中的标注结果,在"查全"查准"内部特征检索入口"检索结果反馈形式"4个方面具有一定优势。  相似文献   

10.
计算机自动语义分析是当前制约自然语言信息检索、信息抽取与机器翻译等应用技术发展的一个瓶颈问题.语义角色标注是语义分析的一种主要实现方式,而目前语义角色的自动标注主要采用基于统计的方法,由于训练数据的规模有限、语义角色类型多,面临严重的数据稀疏问题,处理结果一致性差.本文则采取基于规则的方法,选择汉语框架语义知识库(CFN)所提供的框架和框架元素作为语义标注体系,利用CFN的语义标注句子库,根据短语类型、句法功能以及短语内部构成和外部语境等其他句法语义特征分析框架元素的实现规律,构建语义标注规则,经测试取得了令人满意的结果,为解决语义分析问题探索了一条可行的路线.  相似文献   

11.
[目的/意义]针对如何准确进行专利侵权检测,提出一种基于图相似度的专利侵权检测方法。[方法/过程]将专利语义特征抽取为subject-action-object(SAO)结构并利用图论将其表示为图的形式,然后将图转换为邻接矩阵并计算邻接矩阵的相似性来完成专利侵权判定,最后利用专利样本数据比较该方法与传统方法的判定准确率。[结果/结论]实证研究结果表明,本研究提出的方法判定准确率更高,比传统的基于专利文本向量的方法准确率提升4.89%,可以作为专利侵权检测的有效方法。  相似文献   

12.
句子相似度计算是自动问答系统的重要理论基础和关键实现技术.目前,用于中文自动问答系统的句子相似度计算方法很多,由于缺乏系统的分析,给研究人员带来了较大的不便.依据所利用的特征信息,可以将这些方法分为四类,即基于关键词信息、基于语义信息、基于句法结构信息以及基于多重信息.通过对各类方法实验结果的比较,指出各自的优势和不足.同时指出,基于多重信息的方法是当前的主流方法,实现不同特征信息的最佳权重分配是该类方法今后的研究重点.另外,还提出一个有关相似度概念认识上的看法,即对于中文自动问答系统,实质上依据的是句子的相关度,而不是句子的相似度.通过本文的研究,旨在为中文自动问答领域的句子相似度计算研究提供一定的参考.  相似文献   

13.
针对科技文献特征词在语义上的层次特性,提出基于概念泛化的内容过滤推荐算法.采用矢量空间模型作为用户兴趣偏好和科技文献特征的描述模型;在比较科技文献特征与用户兴趣偏好的相似程度时,首先从字符层面比较科技文献特征词与用户兴趣特征词,然后在基于ODP目录结构的用户兴趣偏好概念泛化树上对字符不相同的特征词对进行语义比较,并修正特征词权重,以避免遗漏"字符不同,但语义相似"的关键词对.理论分析和实验结果表明,该算法能够更加全面、准确地推荐科技文献对象.  相似文献   

14.
刘伟 《图书情报工作》2015,59(12):128-134
[目的/意义] 鉴于目前同义词抽取方法无法避免抽取结果含有较多的噪音,需要较高的人工代价去除噪音,提出一种对同义词抽取结果排序的方法,使得正确结果排序提前,以达到提高抽取结果准确性及降低人工去噪代价的目的。[方法/过程] 将抽取结果转化为抽取关系有向图,基于该有向图计算抽取结果中每个词汇与被抽取词汇的词义相似性,并按照词义相似性高低进行排序。排序方法的最大特点是只利用了当前的同义词抽取方法,不需要人工参与和额外的语义知识。[结果/结论] 通过在真实数据集上进行验证,得出排序效果与抽取结果的规模呈正向关系的论点,即一个给定词汇的同义词抽取结果数量越多,排序的效果就会越好。  相似文献   

15.
Academic genealogy aims to structure and analyze the mentoring relationships between advisor and advisee. The representation of this structure results in academic genealogy graphs. For the analysis and characterization of these graphs, we present a set of metrics and their corresponding mirror metrics that capture the characteristics of its topological structure and represent them as quantitative attributes. The metrics of fecundity, fertility, descendants, cousins, generations, and relationships consider the descendants of the academics represented in the graph. The mirror metric of these topological metrics considers the ascendancy of academics. Individually, the metrics have strong semantic intuition and define characteristics regarding the performance in the mentoring of an academic. Together, the metrics are useful for the identification, characterization, and classification of communities and their members. The genealogical data available through the platforms of the Mathematics Genealogy Project and the Academic Family Tree were used as case studies. Two hundred thirteen thousand and 675,000 academic records were obtained for each project. We analyze the capacity of characterization of the metrics using the structuring of a similarity graph and through the distribution of the nodes in principal components. We observed that the set of metrics is capable of capturing the configuration pattern existing in genealogy graphs independently of its scale.  相似文献   

16.
[目的/意义]针对目前医学领域基于主题的语义相似度计算研究较少,尚不足以揭示主题间在语义层面的关系,提出一套用于主题间语义相似度计算的方法,进而从语义角度判断主题间关系,为主题新颖性判断、主题关联研究等提供参考。[方法/过程]以MeSH词表为语义计算的基础,剖析词表结构与现有研究成果,从入口词、语义距离、注释3个维度综合测度主题间的语义相似度,利用PubMed中2011-2014年干细胞领域的文献进行实证研究。[结果/结论]利用通用验证主题词对,验证了本文所提3个测度维度的有效性。通过主题间语义相似度的计算,发现干细胞领域2011-2014年较为新颖的主题为未成年人干细胞研究。后续研究中还需融入基于统计的主题相似度,从而更加全面地揭示主题间的关系,发现语义层面领域的新颖性研究主题。  相似文献   

17.
林杰  苗润生 《情报学报》2020,39(1):68-80
专业社交媒体中主题图谱的内容包括论坛中的主题及主题之间的关系,其具有挖掘专业产品创新方向、构建专业知识索引等重要应用价值。本文基于深度学习技术与文本挖掘技术,提出了专业社交媒体中的主题图谱构建方法。首先,使用专业社交媒体中的文本训练Skip-Gram模型,利用该模型的隐藏层权重与模型输出的预测结果,分别获取词语间的语义相似度与上下文关联度。其次,基于该语义相似度与上下文关联度,对已有领域种子本体词汇进行扩充,将语义相似或上下文相邻近的词汇纳入本体词汇,为主题抽取提供高质量的领域词汇。然后,基于扩充的专业本体词汇,使用结合本体词汇的LDA主题模型从专业社交媒体文本中抽取主题与主题词。最后,利用语义相似度与上下文关联度,定义关联度权重,通过图模型与谱聚类,获取主题间与主题词的关联关系与层次结构。本文使用汽车论坛语料进行主题图谱生成实验。实验结果表明,本文方法获取的主题词纯净度相比单独使用LDA模型提升了20.2%,且能够清晰合理地展现主题之间的关系。  相似文献   

18.
Web数据关联创建策略研究   总被引:1,自引:0,他引:1  
调研关联数据的关联关系创建算法和策略,分析同构模式下属性相似度和图形相似度算法以及相应的组合策略,对比研究异构模式下包含和不包含实例信息的架构映射方法,对可创建丰富语义关联的推导传递的思想进行剖析,并提出关联创建面临的挑战。  相似文献   

19.
陈祖琴 《图书情报工作》2011,55(15):106-109
依据用户访问行为的连续性,引入本体技术对用户访问路径进行语义描述,生成语义路径图。提出基于语义路径的用户兴趣识别方法,生成用户兴趣本体,通过层次聚类法按兴趣本体相似度划分用户模式。利用协同推荐技术,进行显性需求和隐性需求的推荐,实现个性化知识服务。对比实验显示,该方法可提高用户兴趣识别的准确度和个性化知识服务的满意度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号