首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
本文介绍了一种基于最大公共子串(Longest Common Substring,LCS)算法的术语抽取方法:按标点符号对领域文档进行切分;抽取切分后的语句片断的所有最大公共子串作为候选术语集;通过停用词过滤、对照领域词筛选和术语嵌套子串筛选等规则进行判别,得到最终的术语集.通过学前教育领域术语抽取的实验,验证了该算法可以有效地抽取中文领域术语:术语抽取平均准确率达84.2%;4~6字符双词术语抽取的效果尤佳,准确率接近100%.  相似文献   

2.
提出一种新的政务本体术语自动抽取的方法。首先通过中文分词技术和单字合并法提取政务文本中的词作为候选术语;通过C-value求解法和TF-IDF算法对候选术语进行过滤抽取,从而实现政务领域术语的自动抽取。通过实验比较,发现该方法在不影响领域术语抽取召回率的同时可以提高抽取术语的正确率。  相似文献   

3.
研究从科技论文文本中抽取作者关键词以外的科技术语的方法。因为标引效应问题,单纯选择论文中的关键词作为候选术语会影响术语库的数量和质量,需要考虑从论文文本中抽取术语。现有的大多数术语抽取方法重视采用termhood指标,而忽视unithood指标,针对此问题,在C-value算法的基础上,提出用于生成候选术语的中文术语构词规则和测量术语内部结合强度的unithood指标,实现从论文文本中抽取中文科技术语。以信息资源管理领域的术语抽取为例对提出的方法进行验证,实验结果证明,提出的方法能够有效地抽取领域科技术语,抽取精度较高。  相似文献   

4.
以往的术语抽取研究大多将语言学方法和统计方法分别进行单独的处理,并且只考虑候选术语本身的术语度,而没有考虑候选术语所在句子的术语度对术语抽取性能的影响.本文将语言学方法与统计方法进行并行融合,综合考虑候选术语及其所在语句的术语度,进行基于多层术语度的一体化术语抽取.该研究有两个特色:首先,采用条件随机场模型,能有效融合语言学方法和统计方法,实验结果表明了基于一体化策略的术语抽取方法的有效性;其次,通过语料库比较方法,提出基于多层术语度的术语抽取方法,该方法能抽取多字术语,实验结果表明了利用多层术语度进行术语抽取的有效性.  相似文献   

5.
提出利用蚁群聚类方法进行初始聚类,通过K-means聚类算法对初始聚类的结果进一步分层聚类,并结合术语综合相似度计算的方式提取每个类的标签,从而完成术语层次关系的构建。最后抽取部分实验结果,由领域专家对其进行评价,并对结果进行分析。  相似文献   

6.
文章在文献调研的基础上,通过理论与实验结合的方法讨论了基于关联规则的术语抽取方法的合理性和可用性。从理论上看,关联规则的基本原理决定了它在充分解决"序"的条件下,可以解决术语的识别和抽取问题;从实践上看,关联规则的方法的确可以正确抽取出术语,而且,通过与现有算法的比较,可以发现,关联规则在算法实现难度和算法占用资源方面具有较明显的优势。  相似文献   

7.
从信息分析的实际需求出发,对与电动汽车相关的5 405条专利数据进行术语抽取、生僻术语识别和字段比较研究。结果显示关键短语抽取的方法可行,互信息抽取的术语所在文档的平均文档长度更接近集合的平均文档长度;摘要和First Claim字段的术语存在一定差别,但对分类或聚类同等重要;生僻术语识别算法能够发现生僻词和高频词的对应关系。研究结论可以为专利文本挖掘和专利信息分析提供结果和方法,并为信息分析工作提供所需的参考术语。  相似文献   

8.
为充分发挥知识组织在企业专利战略中的作用,在分析专利文献的基础上,根据中文专利文献句法描述的特点,利用最大串频匹配、蚁群聚类、多层KMeans聚类、改进关联规则计算、基于规则和CRFs的术语关系抽取等算法,设计出一套领域本体的半自动构建系统,包括术语抽取、分类关系抽取、非分类关系抽取、本体形式化等模块,初步实现结构化数据和非结构化文本的本体半自动构建。  相似文献   

9.
姜韶华  党延忠 《情报学报》2006,25(3):301-305
中英文混合术语可作为未登录词处理、加权处理和歧义消解等的辅助信息,并有助于提高中文信息处理的质量。依据长度递减与串频统计思想,本文提出了一种中英文混合术语的抽取方法。该方法不需要词典,不需要事先进行语料库的学习,不需要建立字索引,而是依靠统计信息,抽取出支持度大于等于阈值的中英文混合术语。该算法能够有效地抽取出文本中新涌现的通用词、专业术语及专有名词。实验显示该方法不受语料限制,能够快速、准确地进行中英文混合术语的抽取。  相似文献   

10.
[目的/意义]针对中文专利候选术语选取方法存在需要对不同的数据集分别制定不同的模式匹配规则、专利术语抽取准确性不高等问题,本文提出基于依存句法分析的中文专利术语选取方法,以提高中文专利术语抽取准确性。[方法/过程]主要包括依存句法分析、剪枝、生成依存子树等三个主要步骤。首先对中文专利进行依存句法分析,得到依存树,对依存树进行剪枝,去除不符合要求的依存关系,生成依存子树,从中选取连续词串作为候选术语,以抽取中文专利术语。[结果/结论]实验结果表明,与已有的中文专利候选术语选取方法相比,本文提出的基于依存句法分析的中文候选术语选取方法能够有效地提高中文专利术语抽取的准确性。  相似文献   

11.
指出术语集成是一项以计算机为交流媒介、对各种知识组织体系的术语资源进行语义映射融合和集中控制管理的应用研究。通过对国内外术语集成与服务的相关研究现状的调研分析,提出基于知识元和MARTIF的术语集成方法,包括面向规范性和应用性的术语集成基本原则,以词汇属性描述、词间关系组织和相关知识链接为描述结构的术语集成描述框架以及应用于数据交换过程中的机器可读术语交换格式(MARTIF)。  相似文献   

12.
[目的/意义]针对目前情报学界的"情报"术语争议现象,反思情报学学科基本术语的混用与混乱对学术交流与学科建设带来的影响,呼吁规范情报学术语,重构情报研究理论和情报方法体系。[方法/过程]根据术语学的原理和思想,从术语语境、概念层次、多语术语翻译操作3个方面分析情报学现存术语争议产生的原因。[结果/结论]研究认为,对情报术语的探讨是情报学随社会发展的必然,情报学对术语体系规范的需求反映出对理论重建的期待。  相似文献   

13.
本文对“大档案”概念的一些观点进行了评析,笔者认为“大档案”概念有其产生的合理性,在“大档案”概念具有多种内涵的情况下,从专业术语规范的角度看,应尽量避免使用“大档案”概念的提法,而采用较为规范、正式的专业术语。  相似文献   

14.
反思“实物档案”本质及其对档案工作的影响   总被引:1,自引:0,他引:1  
20世纪90年代初至今,“实物档案”概念之争尚未成定论.实践中,“实物档案”概念已得到档案管理部门不同程度的认可,且“实物档案”管理工作已开展得有声有色.针对此种情况,笔者拟通过反思“实物档案”概念本质及其对档案工作的影响,抛砖引玉,推动档案学专业术语规范性建设,维护档案学术的权威与严肃性.  相似文献   

15.
以国际标准化组织2009年发布的术语工作标准ISO704:2009《术语工作的原则和方法》为指导,以其提出的术语间的概念关系为分析框架,研究信息资源管理学科领域内的典型专著,从信息资源管理的对象、方法手段、实现过程及目标等要素出发对信息资源管理术语定义进行分析,同时对专著知识体系进行解构,提出信息资源管理概念体系,并以来自于CSSCI的核心期刊中的核心关键词为对象,进行实证研究,修正并完善信息资源管理概念体系。  相似文献   

16.
This paper discusses the role of information in the development of O.P. Korshunov’s bibliographical concept and changes in the information science terminology system.  相似文献   

17.
刘华 《图书情报工作》2012,56(22):21-25
叙词表国际标准在修订过程中,新增大量与基于知识组织的术语服务相关的内容。通过对这些标准技术内容的深入剖析,结合基于知识组织的术语服务现状,探讨叙词表的最新修订对基于知识组织的术语服务未来发展的影响。这些影响体现为三个方面:推动基于知识组织的术语服务的规范化发展,促进术语集在基于知识组织的术语服务中的应用,促进基于知识组织的术语服务与术语工作的协调发展。  相似文献   

18.
《期刊图书馆员》2013,64(3-4):51-73
ABSTRACT

This overview of the core concept applied to journals defines the relevant terminology and cites specific examples of core lists. Ten approaches for determining core journals (subjective judgment, use, indexing coverage, overlapping library holdings, citation data, citation network/co-citation analysis, production of articles, Bradford's Law, faculty publication data, and multiple criteria methods) are reviewed and the practical applications of core journals lists are explained. Theoretical and practical problems associated with the core concept and core journal lists are discussed and a taxonomy for classifying core journal lists is outlined.  相似文献   

19.
叙词表的术语服务方式研究   总被引:1,自引:0,他引:1  
常春 《图书情报工作》2012,56(22):12-15
通过概念的形成过程、概念的表达形式,论述基于概念的术语服务形式;同时,基于叙词表的等级关系与相关关系,论述如何通过概念关系组织相关术语,实现基于叙词表概念关系的术语服务方式;最后,讨论术语服务的知识产权、更新维护及映射集成问题。  相似文献   

20.
不借助于任何辞典工具而从Web中自动挖掘出术语的翻译,这是一项有趣且富有挑战性的工作.本文提供了一种基于部分平行Web语料的自动术语翻译方法.首先通过一个术语对,采用Web挖掘技术,获取潜在的匹配模式.接着,在用户对源术语进行翻译时,利用已获取的模式来抽取候选答案集,最后依据评分函数,对候选答案进行排序,并将结果以格式化的形式反馈给用户.本文依据三条层次规则,构造了候选答案的评分函数.实验结果表明,本文所构造的评分函数客观反映了不同匹配模式的不同重要性,且基于部分平行Web语料的方法能够很好地发现源术语的正确翻译,优于现有的技术方案.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号