首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
从《中国植物志》中随机采集1 000个文档作为数据集,采用自主学习规则与先导词相结合的算法实现中文物种描述文本的语义标注。实验数据表明,本研究设计的基于规则的算法整体标注效率(F值)达到0.930,大部分元素的F值在0.724-0.964之间,该算法优于朴素贝叶斯分类算法。同时证明,先导词对优化算法具有积极意义。  相似文献   

2.
本研究从<中国植物志>中随机采集1000个文档作为数据集,采用基于先导词的朴素贝叶斯算法实现中文物种描述文本的自动语义标注.通过实验性研究,实验数据表明,先导词能够有效提升朴素贝叶斯的标注效率.采用先导词后,F平均值提高0 048~0 107,尤以Fr为2时效果最好,整体标注性能F平均值高达0 902.各元素的标注性能也较为理想.Fr分别取1、2、3时,大部分元素的F值为0 730~0 964.  相似文献   

3.
在分析社会化标注系统标签检索研究现状基础上,针对传统方法可计算性不高、完备性不够、无法分辨自然语言的语义模糊性等不足,提出基于潜在语义分析的社会化标注系统标签语义检索模型,改进标签-资源矩阵权重计算算法,完善社会化标注系统的语义标注方法。并以delicious系统为例,抓取数据进行验证分析,通过对比,证明提出的模型和改进的算法能显著提高标签检索效率。  相似文献   

4.
张秋子  陆伟  程齐凯  黄永 《情报工程》2015,1(2):064-072
为实现海量英文学术文本中缩写词及对应缩写定义的识别,本文提出了一种自动缩写识别算法 MELearn-AI。该算法在人工标注数据集的基础上,从序列标注的角度,通过最大熵模型实现了计算机领域 英文学术文本中的自动缩写识别。MELearn-AI 在本文构建的评测数据集“Paren-sen”上得到了95.8% 的 查准率和86.3% 的查全率,相对于其他两组对照实验的效果有较为明显的提升。本文提出的自动缩写识别 方法能够在计算机领域的学术文本上取得令人满意的效果,有助于更好地理解并利用该领域术语。  相似文献   

5.
本文针对大众标注系统中现有基于标签的推荐算法的不足,分析了大众标注系统中用户标注的潜在语义,提出了基于标签的大众标注系统协同推荐算法.新的算法利用扩展的PLSA模型将用户标注映射到具有明确意义的语义主题上,较好地消除了标签的语义模糊问题,提高了推荐精度.最后通过实验证明了本文提出的推荐算法效果要优于传统的推荐算法.  相似文献   

6.
陆泉  陈静  丁恒 《图书情报工作》2014,58(12):118-123
以现存的大量图像社会标签为基础,设计基于社会标签的图像情感自动分类标注模型,提出图像社会标签对情感的贡献度、区分度以及标签在情感维度上的权重3个因子及计算方法,实现图像5种基本情感语义的分类标注。在实际社会网络数据集上进行验证实验,结果表明建立的模型方法在自动标注图像情感语义方面具有较高的准确性和应用性。同时还发现,实际数据集中情感分布差异与复合情感对图像自动标注具有影响。  相似文献   

7.
利用语义角色标注技术对文献进行标注,以句子为最小单位进行文献的语义相似度检测。提取文献中所有词语的上位词,为每篇文献形成句子-词-语义角色-上位词四部图。语义相似的句子对比参照四部图确定,最终计算出两篇文献相似句子的Jaccard系数作为两篇文献的语义相似度。实验结果表明,所识别出的语义相似度较字粒度Jaccard系数法、词粒度Jaccard系数法、Winnowing Jaccard系数法等高出13%,然而受语料库限制,本方法还有很大的提升空间。  相似文献   

8.
通常用于评论性文本极性挖掘的方法是采用有监督的学习算法完成的,但有监督的学习算法需要大量人工标注的训练集,而且其在处理文本集时还会面临维数灾难、稀疏向量、高时空复杂度、低召回率和精确率等问题而无法用于海量的文本极性分类任务。经典的K-means均值聚类算法是聚类分析中使用最为广泛的算法之一,其具有诸多的优良特性和不足。针对上述情况,本文将语义引入经典K-means均值聚类算法中,构造了专门针对中文评论文本极性判断的极性词语义词典,提出了一种基于语义准则函数的K-means均值聚类算法。这项研究是运用基于语义的聚类方法对汉语主观性文本处理的一次探索。实验结果显示总平均召回率达到了80.70%,总平均精确率达到了67.75%,说明该算法是可行和有效的。  相似文献   

9.
互联网已经成为企业和组织获取竞争对手情报的主要来源之一.建立基于Web的竞争对手情报自动获取系统已成为企业的迫切需求.在竞争对手情报自动获取系统中,商业机构名的识别是基础,它为竞争对手的标识和进一步情报抽取提供了依据.本文提出了一种基于互联网的商业机构名识别新方法.该方法考虑了商业机构名与其上下文之间的语义关联性,通过语义标注和隐马尔可夫模型相结合的方法进行商业机构名识别.我们以互联网上的真实中文网页为数据集对提出的识别算法进行了性能评估,并从召回率、准确率和F指标三个方面与CHMM(基于层叠隐马尔可夫模型的机构名识别算法)、MEM(基于最大熵模型的机构名识别算法)以及SVM(基于支持向量机的机构名识别算法)进行了对比.实验结果表明,本文提出的算法改善了商业机构名识别效果,并且具有很好的普适性.  相似文献   

10.
数字图像管理系统模型设计与实现   总被引:1,自引:0,他引:1  
从用户角度出发,设计一个面向大众用户的,集数字图像采集、处理、存储和检索等功能于一体的数字图像管理系统模型,并研究标注词的数量对于语义检索的准确率和召回率的影响。实验表明,本系统模型能够满足大众用户对于数字图像管理的需求。  相似文献   

11.
Learning Algorithms for Keyphrase Extraction   总被引:20,自引:0,他引:20  
Many academic journals ask their authors to provide a list of about five to fifteen keywords, to appear on the first page of each article. Since these key words are often phrases of two or more words, we prefer to call them keyphrases. There is a wide variety of tasks for which keyphrases are useful, as we discuss in this paper. We approach the problem of automatically extracting keyphrases from text as a supervised learning task. We treat a document as a set of phrases, which the learning algorithm must learn to classify as positive or negative examples of keyphrases. Our first set of experiments applies the C4.5 decision tree induction algorithm to this learning task. We evaluate the performance of nine different configurations of C4.5. The second set of experiments applies the GenEx algorithm to the task. We developed the GenEx algorithm specifically for automatically extracting keyphrases from text. The experimental results support the claim that a custom-designed algorithm (GenEx), incorporating specialized procedural domain knowledge, can generate better keyphrases than a general-purpose algorithm (C4.5). Subjective human evaluation of the keyphrases generated by GenEx suggests that about 80% of the keyphrases are acceptable to human readers. This level of performance should be satisfactory for a wide variety of applications.  相似文献   

12.
基于关键词的科技文献聚类研究   总被引:1,自引:0,他引:1  
描述一种基于改进TF IDF特征词加权算法的科技文献聚类方法:首先提取科技文献的特征词;然后根据特征词的词频、所在位置和词性为特征词加权,建立科技文献的向量空间模型;接着使用基于密度的聚类算法对科技文献向量空间模型数据进行聚类分析;最后使用主成分分析法对科技文献聚类的结果进行标识,利用F measure方法对聚类结果进行评价。实验表明,用提出的科技文献聚类方法能够从所检索的科技文献中发现热点研究领域,并能识别具有学科融合性质的研究方向。  相似文献   

13.
针对中文自动标引过程中经常会产生诸多歧义词,导致检出的信息不切题或漏检这一问题,在论述自动标引中歧义词消除方法的相关研究基础上,提出一种将穷举法和消歧规则相结合的歧义词消除方法。测试结果表明,这是一种行之有效的消除歧义词的方法。  相似文献   

14.
基于既定词表的自适应汉语分词技术研究   总被引:3,自引:0,他引:3  
提出一种汉语分词算法,在给定的分词词表的基础上进行汉语分词时,不但能成功切分出分词词表中已有的词,而且能同时自动识别出分词词表中没有的词,即未登录词。与逆向最长匹配法以及其他未登录词识别算法进行的测试比较表明,该分词算法可以有效地解决大多数未登录词的识别问题,并且能减少分词错误,同时对分词算法的效率基本没有影响。  相似文献   

15.
本研究通过对网络新词的构造规律分析,对表达情感的网络新词进行识别算法的设计,提出基于HowNet和网络情感词的极性词典的人工构建方法,引进了同义词表减少手工构建的工作量,并抓住网络新词往往是现有情感词的其他形式这一特点,设计了针对表达情感的网络新词的自动识别方法,进一步扩展极性词的收录范围。  相似文献   

16.
关键词自动标引是一种识别有意义且具有代表性片段或词汇的自动化技术。关键词自动标引可以为自动摘要、自动分类、自动聚类、机器翻译等应用提供辅助作用。本文利用基于知网的词语语义相关度算法对词汇链的构建算法进行了改进,并结合词频和词的位置等统计信息,进行关键词的自动标引。实验证明,该方法可以有效的进行关键词的自动标引。  相似文献   

17.
[目的/意义]随着网络新闻的广泛快速传播,通过辨析网络新词,及时掌握新闻热点关键词,对于了解新闻热点和社会舆情的预警控制具有十分重要的意义。[方法/过程]利用改进的关联规则算法对网络新闻标题进行挖掘,相邻、有序地输出频繁字符串集合。根据互信息计算字符串的相似度,形成热点新闻的关键词集合,以实际的网络新闻为语料进行实验。[结果/结论]实验结果表明,本文所提出的方法不仅能有效地发现词典中不存在的新词汇以及当前网络中流行的热词,而且有效地区别词汇集合中的复合式新词,继而可通过热词集合的热点度计算对网络新闻热点进行排名。  相似文献   

18.
[目的/意义] 基于高维矩阵稀疏降维的思想,提出一种利用惩罚性矩阵分解(Penalized Matrix Decomposition,PMD)实现共词分析的新方法。[方法/过程] 以"学科服务"为研究主题,根据PMD算法原理,在Matlab环境下分别实现特征词的提取、特征词的软聚类以及聚类效果的可视化。[结果/结论] 与传统的共词分析方法对比,PMD算法在共词分析中具有独特的优势:提取的特征词比较全面,聚类数目便于确定,聚类结果易于理解。  相似文献   

19.
The top 1000 biomedical papers by number of citations are classified by method, type of method and non-methods by examination of citation contexts. Supervised machine learning is applied to the context data for a training sample of papers which is then used to classify the full list, revealing that words indicating utility are most important for the classification of methods. Further word analysis is carried out using corpus linguistics to uncover context words that characterize non-methods. Hedging words are found to play an important role for non-methods, and several are selected for further analysis with logistic regression. Other variables in the regression are a consensus variable based on the similarity of contexts for a paper and another variable based on whether citations come from “methods” sections of citing papers. Accuracy of predictions from logistic regression is comparable to machine learning. The results are interpreted in terms of the perceived certainty or uncertainty of the underlying knowledge, that is, methods and their outputs have higher certainty, and non-methods higher uncertainty. Evidence is found that hedging is inversely related to citation frequency. Implications of this work for the study of the development of science and the role of methods and tools in biomedical research are discussed.  相似文献   

20.
文章明晰技术功效间的多种语义联系,设计技术实现路径的自动化构建方法,实现其即时更新和可视化。结合专利数据特点,基于规则从专利标题中抽取技术词,利用BiLSTM-CRF深度学习模型从专利摘要中抽取专利功效短语,并设计规则从功效短语中自动识别出功效词以及表示技术功效间语义联系的关系词,构建“技术词-关系词-功效词”结构的技术功效语义关联,通过计算实体间语义相似度实现技术词对齐和功效词对齐,优化技术功效关联,依此构建技术实现路径,并以知识网络的形式对其进行可视化。在5G技术领域的实证结果表明,该方法能有效揭示技术功效间的多种语义联系和自动构建技术实现路径,并实现路径的即时更新和清晰展示。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号