首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 171 毫秒
1.
计算机自动语义分析是当前制约自然语言信息检索、信息抽取与机器翻译等应用技术发展的一个瓶颈问题.语义角色标注是语义分析的一种主要实现方式,而目前语义角色的自动标注主要采用基于统计的方法,由于训练数据的规模有限、语义角色类型多,面临严重的数据稀疏问题,处理结果一致性差.本文则采取基于规则的方法,选择汉语框架语义知识库(CFN)所提供的框架和框架元素作为语义标注体系,利用CFN的语义标注句子库,根据短语类型、句法功能以及短语内部构成和外部语境等其他句法语义特征分析框架元素的实现规律,构建语义标注规则,经测试取得了令人满意的结果,为解决语义分析问题探索了一条可行的路线.  相似文献   

2.
主题自动提取对于专利文献的信息挖掘具有重要的意义。引入语义角色标注信息来辅助自动提取专利文献主题,区别于已有的专利文本分析平台所采用的人工标注或模板方式。为了改善专利文献的语义角色标注,首先描述将专利文献长句自动拆分成简化句的方法;其次,对简化句进行语义角色标注;最后,综合利用简化句语义信息以及自建带语义框架的常用词表,对专利文献进行主题信息抽取,获得必要信息,从而证实本研究的实用价值。  相似文献   

3.
[目的/意义]技术创新服务平台的建设中需要智能搜索引擎技术,智能搜索引擎技术的内涵或者说重点在于自动语义标注.技术创新服务平台上对搜索引擎的要求,与大众的搜索引擎的需求还是不同的,处理的对象主要是专业领域的文本,通过语义标注技术,能快速对企业文档进行语义化和结构化组织,从而为企业提供精准的知识服务.[方法/过程]针对专业领域语义标注的相关问题,在进行深入研究与探讨的基础上,将语义标注理解为是对一组文档资源进行组织语义化的过程,提出利用结构化语义概念资源或集合对数字化文本进行自动标引的方法,并根据概念实体出现频次、位置和关系等因素,自动抽取相关语义概念集合,实现相关文本的语义内容的自动标注.[结果/结论]评价语义标注相关实验的效果,展示语义标注的具体应用场景.同时,体现领域本体与语义标注语料不断更新、进化、形成互动的过程,旨在为专业领域的语义自动标注及智能搜索引擎的构建提供有益的参考.  相似文献   

4.
[目的/意义] 为解决现有网页文本缺乏起源标注的问题,提出一种借助PROV本体发现相似网页文本起源关系的方法。[方法/过程] 通过聚类算法、自动语义标注和关联数据构建等技术的综合应用,结合PROV-POL溯源模型,检测网页文本实体的演变过程,实现文本级和属性级两级溯源方案。[结果/结论] 实验验证了借助语义网技术和数据溯源模型实现网页文本数据溯源的可行性,但实验过程中聚类算法的召回率有待提高。  相似文献   

5.
张新  党延忠 《情报学报》2007,26(6):813-820
为获取中文领域本体的概念提出了基于规则匹配和统计方法相结合的学习模型,充分利用现有的自然语言处理技术和统计学习方法,从领域文本中通过语义串切分、规则匹配、领域归属度分析和概念约简算法自动获取领域概念.该方法解决了现有中文本体学习方法对领域词典的依赖以及无法获得短语式特定领域概念的问题,同时解决了领域概念筛选问题.实验证明了该方法的有效性.  相似文献   

6.
张秋子  陆伟  程齐凯  黄永 《情报工程》2015,1(2):064-072
为实现海量英文学术文本中缩写词及对应缩写定义的识别,本文提出了一种自动缩写识别算法 MELearn-AI。该算法在人工标注数据集的基础上,从序列标注的角度,通过最大熵模型实现了计算机领域 英文学术文本中的自动缩写识别。MELearn-AI 在本文构建的评测数据集“Paren-sen”上得到了95.8% 的 查准率和86.3% 的查全率,相对于其他两组对照实验的效果有较为明显的提升。本文提出的自动缩写识别 方法能够在计算机领域的学术文本上取得令人满意的效果,有助于更好地理解并利用该领域术语。  相似文献   

7.
总论AELISC 2697-40-12(3)基于领域本体的语义文本挖掘研究/张玉峰,何超(武汉大学信息资源研究中心)//情报学报,2011,30(8):832-839.为了提高文本挖掘的深度和精度,作者研究并提出了一种基于领域本体的语义文本挖掘模型。该模型利用语义角色标注进行语义分析,获取概念和概念间的语义关系,提高文本表示的准确度;针对传统的知识挖掘算法不能有效挖掘语义元数据  相似文献   

8.
为了提高文本挖掘的深度和精度,研究并提出了一种基于领域本体的语义文本挖掘模型.该模型利用语义角色标注进行语义分析,获取概念和概念间的语义关系,提高文本表示的准确度;针对传统的知识挖掘算法不能有效挖掘语义元数据库,设计了一种基于语义的模式挖掘算法挖掘文本深层的语义模式.实验结果表明,该模型能够挖掘文本数据库中的深层语义知识,获取的模式具有很强的潜在应用价值,设计的算法具有很强的适应性和可扩展性.  相似文献   

9.
[目的/意义]面对海量专利文献,如何使用户快速、精准地掌握知识,是优化专利服务的关键课题.中文专利文献中大量存在的零形回指现象,严重影响了知识的自动识别与提取,但由于专利文献零形回指识别与消解涉及到众多文本分析技术及特定资源建设,因此,目前尚未发现针对性研究.[方法/过程]在物性结构理论、语义角色及修辞结构关系理论的指导下,展开相关规则的研究,开发句法及语义角色标注工具和篇章标注工具两种工具,并构建了4个资源库:①"专利动词物性角色库",将专利的动词归纳为4类;②"专利知识论元结构库",用于自动标注专利动词物性角色及其论元结构;③"专利动词论元结构规则库",用于分析零形回指的先行语;④"零形回指修辞结构类型库",用于分析当零形回指搭配"功能角色"和"部件角色"的情况.[结果/结论]通过资源库的建设,得出5条消解规则.初步成果已成功应用于机械领域专利文献的自动处理工作.  相似文献   

10.
[目的/意义]为更好地提升科技文献的语义丰富化效果,对国内外科技文献语篇元素标注模型、技术和方法进行调研总结,为文本挖掘、科技论文知识抽取、语义分析系统研究者提供借鉴。[方法/过程]利用学术网站搜索和相关数据库搜索引擎,对涉及科技论文标注、语篇元素、知识抽取、句子识别和自动文章分类等参考文献以及研究报告进行深入阅读和调研,对语篇元素自动标注模型以及相关工作进展进行研究总结。[结果/结论]科技文献语篇元素标注具有非常重要的实际应用价值,构建标注模型需充分考虑构建思想、标注领域和标注粒度以及标注技术手段等方面。  相似文献   

11.
研究构建了具有位置信息控制的特义禁用词语义环境,进而运用于中文文献元数据CXMARC文本的自动标引和主题信息的数据挖掘,其中研究设计的预处理特义中文禁用字词切分算法SWF,能有效地减少领域的分词歧义性和缩短标引时间,从而改进了传统最大匹配MM算法的自动标引质量和效率。  相似文献   

12.
俞琰  赵乃瑄 《图书情报工作》2018,62(11):120-126
[目的/意义]针对专利文本主题建模中领域停用词自动选取尚未有充分研究的问题,提出一种新的领域停用词自动选取方法,用于专利文本主题模型分析,以提高专利主题模型的区分度与建模质量。[方法/过程]领域停用词本质上是信息比较少,在不同类别专利文本中区分度低的词。因此,引入辅助专利文本集,使用类别熵衡量词的分布情况,然后依据词的类别熵进行排序,选取类别熵最大的若干词作为领域停用词。[结果/结论]实验通过专利文本数据,验证了该方法的可行性与有效性,能够有效地提高专利主题模型的区分度。  相似文献   

13.
本文提出并实现了一种大规模汉语语料库中字、词级任意n的n-gram统计算法,本算法可以一次性统计出所有不大于任意n(本文n取为256)的字、词级n-gram,可将传统n-gram统计时的指数空间开销变为线性的,且与所统计的元数无关。基于这种n-gram的统计,本文还进行了汉语信息熵的计算及字、词级知识获取的研究。本算法及本文的研究结果已应用于我们研制的机译系统中  相似文献   

14.
关键词自动标引是一种识别有意义且具有代表性片段或词汇的自动化技术。关键词自动标引可以为自动摘要、自动分类、自动聚类、机器翻译等应用提供辅助作用。本文利用基于知网的词语语义相关度算法对词汇链的构建算法进行了改进,并结合词频和词的位置等统计信息,进行关键词的自动标引。实验证明,该方法可以有效的进行关键词的自动标引。  相似文献   

15.
基于EMM中文抽词算法的XMARC主题信息挖掘   总被引:4,自引:0,他引:4  
王兰成 《情报学报》2005,24(1):82-86
本文在分词词典上采用区间最大词长,改进正向减字最大匹配法为“词首 长词匹配 短词推进”自动标引方法,从而有效地减少领域的分词歧义性和缩短标引时间。最后将该研究付诸于XMARC主题信息的挖掘与检索的实现,并证明其在时间和质量综合性能上的优越性。  相似文献   

16.
针对中文文献抄袭检测提出了一种基于汉语词频的文本数字指纹,通过对具有参考性的语料库进行词频和字频统计形成一个hash词表,然后基于最大熵原理为任意长度的文本生成一个基于词频特征的文本数字指纹,对于任意两篇文献可以通过计算对应的两个数字指纹的Hamming距离来得到一个相似度的估计。通过使用维基百科zhwiki-20121129-all-titles语料库构建hash词表,对情报学领域4种核心期刊进行实验,结果表明这种数字指纹对常见的抄袭情况都能很好地识别和检测,具有很强的鲁棒性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号