首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
【目的/意义】通过概念层次关系自动抽取可以快速地在大数据集上进行细粒度的概念语义层次自动划分, 为后续领域本体的精细化构建提供参考。【方法/过程】首先,在由复合术语和关键词组成的术语集上,通过词频、篇 章频率和语义相似度进行筛选,得到学术论文评价领域概念集;其次,考虑概念共现关系和上下文语义信息,前者 用文献-概念矩阵和概念共现矩阵表达,后者用word2vec词向量表示,通过余弦相似度进行集成,得到概念相似度 矩阵;最后,以关联度最大的概念为聚类中心,利用谱聚类对相似度矩阵进行聚类,得到学术论文评价领域概念层 次体系。【结果/结论】经实验验证,本研究提出的模型有较高的准确率,构建的领域概念层次结构合理。【创新/局限】 本文提出了一种基于词共现与词向量的概念层次关系自动抽取模型,可以实现概念层次关系的自动抽取,但类标 签确定的方法比较简单,可以进一步探究。  相似文献   

2.
术语抽取是自然语言处理领域的一项基础性工作。本文提出了一种基于统计与规则相结合的术语抽取方法:首先在对主语料进行分词标注的基础上,通过基于词性规则的重复串查找得到候选术语,然后依据术语具有单元性和术语性的特点,先后采用SCP以及C-value模型对候选术语进行过滤得到术语。实验表明该方法切实有效,可以识别不同长度和不同领域的术语,能够应用于词典编纂和术语抽取等领域。  相似文献   

3.
叶佳鑫  熊回香  孟璇 《情报科学》2023,41(1):166-173
【目的/意义】通过深度学习方法对图书评论进行细粒度挖掘,并基于挖掘结果优化图书间相似度计算结果。【方法/过程】首先从在线书评网站上采集图书评论,对评论进行词性分析构建属性词表,随后基于属性词表对评论进行类型标注,通过BERT-BiLSTM模型对标注数据进行学习以实现评论自动分类,最后通过BERT对分类后的评论进行向量表示,通过余弦相似度计算评论间的相似度以表征图书相似度。【结果/结论】本文构造的BERT-BiLSTM评论分类模型准确率、召回率和F1值分别达到0.922、0.921和0.921,可以较好地实现评论分类。通过模型将评论划分为文笔、人物、情节、概要、读者态度5种类型来计算图书间相似度可以得到较为契合的相似度结果。【创新/局限】相较于其他类型的评论,通过人物与情节类评论计算图书相似度的效果有待提高。以后可对这两类评论进行更为细粒度的分析。  相似文献   

4.
实体关系抽取和实体关系分类是信息抽取中重要的研究领域,不仅要识别文本中的实体,还要确定这些实体之间的关系,能够辅助机器对文本语义的理解。提出了一种基于关系相似度计算的实体关系分类模型,并针对7种常见实体关系进行了分类实验。  相似文献   

5.
本文借助ARIZ思想深入研究了关联规则挖掘模式,综合介绍了关联规则的理论基础,进一步明确了项、项集、候选项集、频繁项集、支持度、置信度这些重要知识点,对关联规则进行了多角度的分类,研究分析了关联规则挖掘的经典算法,并对关联规则的评价标准进行了创新研究,引入了主观兴趣度和客观相关性分析,为后续研究和改进关联规则的算法提供了理论基础。  相似文献   

6.
[目的/意义]语句层共被引的关系内容抽取与分类有助于揭示共被引论文间的主题关联。[方法/过程]文章从共被引主题的相似性和相关性出发,利用引用标注位置、作者、语义角色分析、句法分析等信息,将语句层共被引关系划分为同系列、同主题、发展关联、运用关联、并列关联,然后抽取相应的引用主题,构建<被引论文及主题,关系类型,共被引论文及主题>双层三元组,实现共被引关系内容结构化表达,并在Neo4j图数据库中呈现。[结果/结论]实验采用Athar引用语料库;结果表明,本文研究方法可提高语句层共被引网络中关系的可读性和共被引论文的语义搜索、问答与推荐的效率。[局限]实验方法针对英文文献而设计,未来将在更多领域的英文语料上进行验证,并从名词性关系识别、术语选择等方面完善关系内容抽取与分类。  相似文献   

7.
【目的/意义】从海量论文元数据中抽取算法术语并构建它们之间的创新演化关系,有利于对算法的有效管 理和运用,以帮助科研工作者提升研究效率、采纳前沿成果。【方法/过程】首先,以GAN算法论文摘要为语料,通过 人工标注与规则抽取相结合的方式进行算法术语标注,并利用BERT-BiLSTM-CRF模型实现算法术语的自动抽 取。然后,将建立的模型应用于LDA算法论文的被引文献元数据中抽取算法术语,依据规则判断和引文关系,从被 引内容中抽取LDA算法的创新演化路径并构建。【结果/结论】以GAN论文为实例的算法术语实验中,精确率、召回 率与F1分数分别达到了0.81、0.63与0.71,并应用关系抽取方法成功构建了LDA算法的创新演化路径,该方法可以 有效推动算法进化网络构建和算法检索与追踪等方面的工作,丰富创新扩散理论的相关研究。【创新/局限】拓展了 命名实体识别技术的应用领域,为计算机算法管理提供了良好的思路。后续可优化创新演化路径的构建方法。  相似文献   

8.
本文提出了利用后缀树模抽的最大相似度优先聚类方法,通过构造文档集的广义后缀树模型抽取短语作为特征项并映射到M维向量空间模型;计算文档间的相似度矩阵,对任意两个文档之间的相似度进行降序排列,优先合并具备最大相似度的文档对形成初始聚类;合并初始聚类得到最终聚类结果。  相似文献   

9.
王世运 《科技通报》2015,(3):184-187
联合数据库的入侵和普通入侵不同,其无显著的行为特征,入侵数据属性差异较大,很难形成统一的约束规范,导致传统的入侵检测方法,由于通过提取入侵行为特征进行入侵检测,无法有效且准确地完成联合数据库的入侵检测,提出一种弱关联规则下的联合数据库入侵检测方法,通过弱关联模式在联合数据库中支持程度与联合数据库记录总量的比求出弱关联模式的支持度,获取频繁弱关联模式集,采用改进的双置信度算法对频繁弱关联模式集的置信度进行计算,获取弱关联规则,依据弱关联规则,通过原始联合数据库对分类超平面进行计算,采用该超平面完成联合数据库的整体分类,采用主成分分析方法对联合数据库中的操作数据进行降维处理,通过差异分类方法,对联合数据库中的操作数据特征进行分类操作,实现弱关联规则下联合数据库的有效入侵检测。实验表明,所提方法具有很高的准确性及有效性。  相似文献   

10.
关联分类及其改进算法综述   总被引:1,自引:0,他引:1  
关联分类算法是分类中一个重要的方法,但是基于支持度—置信度框架的传统关联分类算法会产生很多质量不高的规则。为了提高传统关联分类算法的准确率,以提出大量改进算法,综述关联分类及其改进算法。首先介绍关联分类算法及其改进算法所涉及的基本概念,其次就关联分类算法的三个步骤规则生成、规则度量与剪枝、未知实例预测综述关联分类及其改进算法。最后对关联分类及其改进算法进行总结与展望。  相似文献   

11.
陈静 《大众科技》2012,(6):46-47
关联规则的提取是数据挖掘中的重要研究内容,对关联规则提取中的Apriori算法进行了分析与研究,针对该算法的运算效率不高,对该算法进行了改进,提出了Apriori改进算法.Apriori改进算法采用二进制数据垂直表示方法,只用扫描事务数据库一次得到一阶大项集的二进制数据垂直表示.K阶候选项集的操作只要基于这个一阶大项集,而不需重复扫描数据库,从而提高了挖掘算法的效率.  相似文献   

12.
本文分绍了信息粒及粒计算的概念.建立了粒与二进制数的对应关系。定义了粒计算与二进制教计算的相似性和互换性.因此用粒计算方法作数据挖掘被转换为用二进制计算方法来约简数据和提取关联规则。这样为我们的决策提供了速度快、效率高的挖掘方法。  相似文献   

13.
国内外学者对科研投入与企业绩效之间的关系进行了大量研究和实证工作,现有研究多以定性研究为主,分析研发投入与企业绩效之间的关系以及影响这两者关系的直接和间接变量,有少量学者用定量分析的方法表达某个或者某几个变量与这两者关系之间的数学关系,但由于企业绩效及科研成果结果显现的影响变量太多,这种定量分析方法的局限性大。为探索一种对大量因素同时进行定量分析的方法,尝试采用对高纬稀疏数据进行分析,对沪深两市327家制造企业2011~2016年的数据进行分析,以“研发投入增长率>0 & 营业收入增长率>0 & 人均营业收入增长率>0”为分析目标,对影响目标实现的十类74个变量进行定量分析,并得到达到这一分析目标的定量优化规则:当期和上期单位研发人员研发投入、研发人员投入增长率、盈利能力、产品市场竞争度这五个变量处于一定范围内时,分析目标达成概率有较大幅度提升。这一分析结果既可以用于衡量企业研发水平是否达到规模边界,又可作为对企业研发投入行为对企业绩效结果的预判。  相似文献   

14.
关联规则是数据挖掘领域的一个重要分支。随着数据库的不断变化,关联规则的增量更新变得尤为重要。为了更好地对关联规则进行有效的更新,对已经提出的经典的关联规则更新算法FUP和IUA算法进行分析,指出其优缺点;提出了一个改进的关联规则算法PFUP。该算法减少了候选项集数目,从而减少扫描数据库D的次数,提高了效率。  相似文献   

15.
This paper describes, evaluates and compares the use of Latent Dirichlet allocation (LDA) as an approach to authorship attribution. Based on this generative probabilistic topic model, we can model each document as a mixture of topic distributions with each topic specifying a distribution over words. Based on author profiles (aggregation of all texts written by the same writer) we suggest computing the distance with a disputed text to determine its possible writer. This distance is based on the difference between the two topic distributions. To evaluate different attribution schemes, we carried out an experiment based on 5408 newspaper articles (Glasgow Herald) written by 20 distinct authors. To complement this experiment, we used 4326 articles extracted from the Italian newspaper La Stampa and written by 20 journalists. This research demonstrates that the LDA-based classification scheme tends to outperform the Delta rule, and the χ2 distance, two classical approaches in authorship attribution based on a restricted number of terms. Compared to the Kullback–Leibler divergence, the LDA-based scheme can provide better effectiveness when considering a larger number of terms.  相似文献   

16.
关联规则是数据挖掘领域中研究最早的一个方向,随着挖掘算法的不断完善,其挖掘速度越来越快,应用也越来越广泛,然而由于关联规则忽略了规则之间的关系和影响,所以在比较复杂的领域应用还存在着很大的限制.贝叶斯网络是用来表示变量集合的联合概率分布的图形模式.提出了一种基于贝叶斯网的关联规则表示方法,实验表明这种方法生成的贝叶斯网不仅能够有效地表示出原有的关联规则的含义,而且表现了关联规则之间的联系,从而扩展了关联规则的应用.  相似文献   

17.
潜在语义索引方法是一种无监督的学习方法,能够自动地从未经加工的文本中学习词法分析处理的数据。通过计算单词之间的语义相关性,提高学习的效果。本文首先对词法分析和词法学习的概念和早期出现过的词法学习的方法进行简单阐述,然后描述了基于这一理论进行词法学习的方法,接着是对这一方法的一些改进和测评,最后是结论和展望。  相似文献   

18.
田元  李佳  宋纬华 《现代情报》2010,30(12):73-76
关联规则是数据挖掘的重要模式之一,有着极其重要的应用价值。由于其自身的优点,关联规则得到了迅速发展,并开始了广泛应用,然而传统的关联规则算法在应用中有很多的不足。因此本文提出了一种基于用户层次信息的关联规则图书推荐系统,实验结果表明,该算法能够有效减少运算量,并能提高推荐的准确度。  相似文献   

19.
通过对本体、形式概念分析等理论研究进行分析,提出一种以"文档——术语"为核心,形式概念分析为技术手段的气象灾害领域的本体构建方法。针对气象灾害领域知识库和主题词表的缺失,以中英文学术论文为数据源,对气象灾害领域术语的层次关系抽取和分析进行了详细阐述和论证,具体包括领域术语的抽取和筛选,文档术语矩阵的建立,主题概念格的生成,术语层次关系分析;本体OWL描述和可视化展示等过程,最后利用GATE Developer对构建本体的有效性进行了验证。  相似文献   

20.
土壤自动制图中的知识分类   总被引:1,自引:0,他引:1  
周斌  王人潮  史舟 《科技通报》2002,18(4):261-264
以往的土壤图反映了土壤调查者在土壤制图时的思想模型,土壤制图单元与环境空间数据的关联可以被重新建模并用以推导形式上的调查规则。然后这些规则可以被用于对相同地区或其它类似地区的空间信息的重新解译。本研究将浙江省在龙游县已有的土壤调查图与地质图,土地利用现状图,DEM及其派生属性,双时相的TM卫星数据相结合,使用分类树方法提取了该地区的土壤制图规则,精度评价结果表明,这些规则对于研究区大部分土壤类型的预测是令人满意的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号