首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
提出利用蚁群聚类方法进行初始聚类,通过K-means聚类算法对初始聚类的结果进一步分层聚类,并结合术语综合相似度计算的方式提取每个类的标签,从而完成术语层次关系的构建。最后抽取部分实验结果,由领域专家对其进行评价,并对结果进行分析。  相似文献   

2.
随着Internet和电子商务的迅猛发展,聚类技术在Web用户划分方面的作用越来越明显.Web用户聚类的难度在于有成千上万的用户需要聚类,而且每个用户的偏好向量是高维稀疏的.对于处理大规模的数据集,近邻传播算法是一种快速、有效的聚类方法.但面对高维稀疏的数据,近邻传播算法往往不能得到很好的聚类结果,而且该方法不能产生指定类数的聚类.本文提出一种改进的近邻传播算法,使用该方法对Web用户进行聚类.根据灰关系等级和Jaccard系数定义用户相似度矩阵,对算法产生的初始聚类进行重新分配,获得指定类数的聚类.实验结果表明新算法是有效的,与原始近邻传播算法相比,新算法在个性化推荐的应用中具有更好的性能.  相似文献   

3.
通过挖掘网络日志中的查询词语义关系,将《知网》的语义知识加入到聚类算法中实现搜索引擎优化。该方法通过机器学习算法深入挖掘查询日志,对其中的查询串进行概念相似度、语义聚类等计算,使返回网页更加合理,将更准确的网页结果呈现在用户面前,能够更好地满足用户需求。  相似文献   

4.
在对标准蚁群算法分析研究基础上,结合中文文本数据的特点,对蚁群算法存在的缺点进行改进,提出一种基于改进的蚁群算法的中文文本聚类方法——ACTC。算法中为每只蚂蚁增加两个记忆体,可以解决原算法中的“未指派现象”;模拟信息素,从而使蚂蚁的移动更具目的性,加快聚类速度;引入“边界点”思想,从而不仅可以消除“停滞现象”,而且能避免“噪声”或异常数据对聚类结果的负面影响;引入动态调整相似度阈值概念,从而使聚类结果更具实际意义。实验证明,从熵值与纯度两个评价函数评价结果看,该算法的聚类效果较好,达到算法改进的目的。  相似文献   

5.
基于关键词和摘要相关度的文献聚类研究   总被引:1,自引:0,他引:1  
现有的文献聚类方法都是通过文献关键词来进行的.本文在研究大量文献聚类方法的基础上,提出了一种通过文献关键词和摘要进行加权的新的文献聚类算法.首先,改进了传统相似度计算的方法,设计出基于关键词和摘要词加权的相似度公式,使文献相似度计算更加精确.其次,基于"文献距离越大,聚为一类的概率越小"的思想,提出了一种"最大距离聚类法",并给出了算法的详细步骤.最后,实现算法并进行了大量的实验仿真.通过改进相似度计算公式,调整关键词和摘要词的权重,提高了聚类的质量.结果表明,本文提出的文献聚类算法是一种行之有效的方法.  相似文献   

6.
树编辑距离在Web信息抽取中的应用与实现*   总被引:1,自引:0,他引:1  
引入编辑距离的概念,探讨如何构造标签树,并利用标签树匹配算法来量化网页结构相似度。该算法被应用于Web信息抽取,通过URL相似度算法进行样本网页的粗聚类,进一步采用树的相似度匹配算法实现细聚类,从而获取模板网页。在模板网页的基础上,再次引入结构相似度算法并结合基于模板网页的抽取规则实现网页的自动化抽取。实验证明,该算法的引入能够有效提高包装器的抽取精度和半自动化能力。  相似文献   

7.
文档聚类分析是组织文档的一种有效方法,在信息处理中被广泛应用于未知话题的自动发现并取得不错的效果。本文提出了一个轻量级聚类算法。该算法利用减小原始文档的索引数,来处理大量小文档,并把它们分组到几千个簇,或者通过更改特定参数,将聚类簇的数量减小到几十个。理论分析和实际应用表明,该算法改善了对高维数据和大量小文档处理效率。  相似文献   

8.
作为智能情报分析中的重要应用场景,算法推荐提供的个性化和精准化信息服务为现代快速决策增加了价值,但算法推荐风险问题也尤为突出,探寻算法推荐风险影响因素对科学地提出算法风险治理策略至关重要。文章采用LDA模型对科研论文进行主题聚类,聚类结果与《互联网信息服务算法推荐管理规定》进行相似度计算,以识别算法推荐风险影响因素,从风险产生和风险治理两个维度构建系统动力学模型,然后利用Vensim PLE软件和文本计算数据进行仿真与灵敏度分析。研究识别出算法素养、大数据技术、算法偏见、网络安全审查等影响因素,通过文本计算获得的数据进行仿真能够较好的拟合算法推荐风险治理现实情况,并基于灵敏度分析提出如下建议:加强算法素养教育,提高个人隐私保护意识;建立算法全流程监管机制,提升算法的可解释性;建立“制度+技术”机制,提高平台风险防范能力。  相似文献   

9.
【目的】通过开源工具,构建一种分布式环境下的文本聚类与分类应用平台。【方法】以海量文本的词收敛性为基础,通过词聚类指导文本聚类和分类。过程包括:使用开源分词器等工具进行训练集的文本预处理,结合Mahout数据挖掘平台对处理后的词集进行聚类分析,最后通过相似度算法计算测试文本与词类簇的相似度并分类。【结果】分布式环境下的基于词聚类的文本聚类分类计算方法,可有效解决海量文本的词聚类瓶颈问题。经测试,当训练文本集增加到100,迭代收敛阈值为0.01时,词聚类结果较理想。【局限】测试数据规模有限,仅限于新闻数据,基于其他领域的词聚类效果需要进一步测试、优化、调整。【结论】详细描述基于词聚类的文本聚类分类算法的开发环境构架和关键步骤,有助于研究者对相关开源工具使用及分布式并行环境部署的深入理解。  相似文献   

10.
基于聚类分析的学科交叉研究   总被引:1,自引:0,他引:1  
聚类分析是数据挖掘中的一项重要技术,通过聚类可以发现隐藏在海量数据背后的知识.本文提出了一种通过文献数据聚类分析来研究学科交叉的方法.首先提出了一种基于摘要词与关键词加权的相似度模型,使得文献之间的相似度更加精确.利用FCM 算法对2005年CSSCI文献数据库中图书情报学的文献数据进行聚类,通过建立学科原子特征词的学科交叉表统计出图书馆学、情报学和文献学三个学科的研究热点及交叉点,以及图书情报学新的学科增长点,并对分析结果进行了检验,结果表明本文所提出的方法是科学的、切实可行的.  相似文献   

11.
为探究面向学科新兴主题探测领域多源科技文献融合过程中的时滞性问题,本文设计了多源科技文献时滞计算方案。首先,从获取的4种科技文献数据集中提取学科主题,计算学科主题间的相似度,构建相似矩阵;其次,基于匈牙利最优匹配算法寻求相似度损耗最小条件下的最优组合;最后,构建线性方程模型并拟合计算时滞程度。本文以2009-2016年农业学科领域337790篇摘要文本为实验数据,抽取基金项目文本学科主题为250个、专利文献为260个、期刊论文为260个、会议论文为240个,利用上述多源科技文献时滞计算方案实验。结果表明:期刊论文滞后于基金项目文本和会议论文1年,专利文献滞后于期刊论文1年,结合以往对不同学科领域数据的研究结果,验证了多源科技文献时滞计算方案的可行性和有效性,同时也为多源科技文献融合策略的制定提供新思路。  相似文献   

12.
[目的/意义] 在数据成为关键生产要素和基础战略资源的背景下,梳理人文社会科学领域中数据相关研究的发展现状,揭示数据问题的研究态势,为透视数据驱动下的人文社会科学研究提供窗口。[方法/过程] 以2010-2019年间与数据有关的国家社会科学基金立项项目为研究对象,基于国家社会科学基金项目的外部特征与内容特征,分析人文社会科学领域中数据相关研究的机构及学科分布、关键词与主题聚类,对比国家社会科学基金项目和项目成果间研究热点的共同性与差异性,探测数据赋能的人文社会科学研究趋势。[结果/结论] 人文社会科学领域中数据问题的研究以大数据环境、信息行为与信息服务、政府数据和科学数据研究为重点长线主题,以数据库建设及系统设计、媒体平台及服务和国际问题研究为次要热点主题,以融合多元环境、开放数据管理、延伸知识组织、智慧人文服务为研究发展趋势。  相似文献   

13.
[目的/意义]大数据时代需要将"人"数据化,科研人员也需要数据化。科研人员画像的建立,对于科研管理层全面了解科研人员的信息、客观评价其研究水平等有重要作用,可以作为分析科研人员研究行为或专家推荐的基础,提高科研管理效率。[方法/过程]首先提出科研人员画像的概念,认为其是描述科研人员信息的标签的集合。其次,以个人主页、知网、基金网等多个异构数据源的数据为基础,提出融合多源数据的科研人员画像构建方法,分别从科研人员的基础属性、科研偏好和科研关系三方面形式化描述了科研人员信息,并提取各个维度的标签,以可视化的方式展示其画像。最后,分别以国内外两位科研人员为例,说明了科研人员画像构建方法的可行性。[结果/结论]科研人员画像的构建适用于国内外的科研人员,能够全面描述科研人员信息并直观展示出来。  相似文献   

14.
[目的/意义] 针对目前全领域科学知识图谱构建方法中存在的技术难点,结合网络嵌入模型、机器学习聚类、流形学习可视化算法等人工智能领域的方法与模型,提出一套全新发现科学结构的知识图谱构建方案,以完善科学结构发现与可视化布局,并拓展科学知识图谱的分析应用场景。[方法/过程] 引入基于深度学习的网络嵌入模型和聚类方法改进原有的网络社团划分聚类方法,利用流形学习降维可视化算法扩大数据处理能力,并设计由下至上分层可视化布局方法,提升可视化图谱的稳定性与细节揭示能力。[结果/结论] 以科睿唯安公司的基本科学指标数据库(ESI)研究前沿中高被引论文作为分析数据集,使用新聚类算法得到1 169个研究领域,通过改进的可视化布局算法形成全领域科学结构图谱。与前几期科学结构图谱相比,本文提出的方法支持更大规模的数据分析,对可视化细节揭示与稳定性也有大幅优化,可以更好地展示全领域科学研究宏观结构及内在关系,为全领域科学知识图谱的绘制与构建提供更可靠的方法和技术支持。  相似文献   

15.
The use of a new option of the Web of Science (WOS) database is discussed, which provides the ability to collect the bibliometric statistics of funding agencies. The method of searching using this option is described in detail, as well as problems of identification of the same fund due to numerous English-language versions of its name spelling. The analysis of 26500 domestic articles was performed for 2008 using the Research Analysis option. About 23.4% (6830) of the articles were financed by different funds; about 4600 articles were published by grant holders of the Russian Foundation for Basic Research. The desire of Russian researchers to obtain additional financing sources and a wide network of international scientific connections is proved by their participation in numerous foreign organizations (funds, universities, and ministries) in 72 countries during the performance of research.  相似文献   

16.
基于关键词的科技文献聚类研究   总被引:1,自引:0,他引:1  
描述一种基于改进TF IDF特征词加权算法的科技文献聚类方法:首先提取科技文献的特征词;然后根据特征词的词频、所在位置和词性为特征词加权,建立科技文献的向量空间模型;接着使用基于密度的聚类算法对科技文献向量空间模型数据进行聚类分析;最后使用主成分分析法对科技文献聚类的结果进行标识,利用F measure方法对聚类结果进行评价。实验表明,用提出的科技文献聚类方法能够从所检索的科技文献中发现热点研究领域,并能识别具有学科融合性质的研究方向。  相似文献   

17.
图书馆在科学数据管理中的角色定位研究   总被引:1,自引:0,他引:1  
从整个学术交流体系的角度对科学数据管理中相关主体--政府和基金组织、研究者和研究机构、数据中心、数据出版机构、IT部门的角色进行探析,明确这些利益主体在科学数据管理中的作用。在此基础上,结合图书馆的发展诉求,认为图书馆在科学数据管理中可以扮演如下角色:嵌入式科学数据管理专家、基于过程的科学数据监护机构、科学数据存档与长期保存机构、数据素养的教育机构。  相似文献   

18.
本文以2004-2010年国家档案局和中央档案馆所公布的科技项目计划为例,从项目类型、项目资助额度、项目数量、项目承担单位、项目负责人、项目主题等多个方面进行计量分析,指出了国家档案局科技项目研究主体多元化、合作研究普遍化、研究主题紧扣时代发展趋势、注重竞争性研究、研究项目地区分布不平衡等研究特点及趋势。  相似文献   

19.
[目的/意义] 根据基金项目数据的特点,提出基于基金项目数据的研究前沿主题探测方法,以期识别出前瞻价值更高的研究前沿,为研究前沿识别相关研究提供借鉴思路。[方法/过程] 首先,基于PLDA模型识别蕴含在基金项目文本中的研究主题;然后基于主题-文档矩阵建立主题和基金项目文档的映射关系,在此基础上,利用主题的资助时间、资助金额和中心性指标进行研究前沿主题探测,从而识别出值得关注的研究前沿主题;最后,利用主题演化可视化分析方法,对研究前沿主题进行演化分析,以预测其发展趋势。[结果/结论] 研究结果表明,该方法可以根据基金项目数据的特点识别出蕴含在其中的研究前沿主题,并且能够分析研究前沿主题的分裂、融合等演化过程。  相似文献   

20.
��[Purpose/significance] In the era of big data, institution name data presents new features such as mass, dynamic and diversity. Normalization of institution name can improve the reliability of data in scientific research management, subject evaluation and subject service under big data environment, and improve the quality and application effect of data retrieval based on institution name.[Method/process] From the perspective of linguistics and model construction, this paper studied name normalization. This paper constructs a Framework Model for Normalization of Institutional Names Based on Co-occurrence Relations and Similarity. Firstly, it proposed a method of identifying the entity boundary of names. Secondly, it compiled a multi-level vocabulary and proposes a normalized method of names. Finally, the Chinese bibliographic data from 2008 to 2018 were selected for experiment.[Result/conclusion] Experiments verify the validity of the model, which has some enlightening significance for the normalization of the names of other types of institutions.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号