首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 937 毫秒
1.
江秋菊 《情报科学》2019,37(6):96-100
【目的/意义】本文综合考虑文献的主题、被引频次和发文时间,从三维视角出发,提出一种文献影响力指数 (Influence Index of Document,IIOD)计算方法,在主题分类的基础上对文献的影响力进行评价。【方法/过程】以 中国引文数据库中2013-2017年情报学领域9本期刊的10523篇文献为样本,利用LDA模型进行主题提取,并将 LDA与K-means算法结合实现文本分类,进而计算特定主题下文献的影响力指数,根据文献影响力指数对文献进 行排名。【结果/结论】文献影响力指数综合考虑了文献的主题特征、被引频次和时效性,其排名结果更加全面合理, 为评价文献的影响力提供了一种新的视角。  相似文献   

2.
[目的/意义]为了实现从非结构化的在线评论中有效提取用户需求,文章提出了数据驱动下产品需求识别的方法。[方法/过程]利用Word2vec表示学习方法,获取评论文本内容的语义向量表示;结合K-means算法和LSA模型实现评论文本聚类,识别产品需求主题;在此基础上,通过网络分析方法探索需求主题间的关联关系。以华为手机的评论数据为例进行方法验证。[结果/结论]结果表明,基于语义的文本特征可以取得较好的聚类效果,与传统方法相比,CH指标和SC指标均得到显著提高,验证了该方法的有效性。研究方法和结果能够为企业产品创新和运营决策提供一定参考。[局限]样本数据集规模不够,缺少跨平台实验计算和比较。  相似文献   

3.
[研究目的]将Sentence-BERT模型应用于专利技术主题聚类,解决专利文献为突出新颖性,常使用独特技术术语造成词汇向量语义特征稀疏的问题。[研究方法]以人工智能领域2015年-2019年的22370篇专利为实验数据。首先,采用Sentence-BERT算法对专利文献摘要文本进行向量化表示;其次,对向量化矩阵进行数据降维,利用HDBSCAN方式寻找原始数据中的高密度簇;最后,识别类簇文本集合中的主题特征,并完成主题呈现。[研究结论]对比LDA主题模型、K-means、doc2vec等方法,本文的实验结果提高了主题划分的细粒度和精确度,获得了较好的主题一致性。如何采用fine-tune策略进一步提升模型的效果,是未来该方法进一步深入探索的方向。  相似文献   

4.
[目的/意义]大多数社交网络节点的影响力计算没有考虑用户的评价,而用户评价对特定领域的专业影响力节点的识别具有重要意义。[方法/过程]本文利用领域字典和话题识别模型将目标用户的主题范围进行限定,同时结合社交网络用户中的个人信息综合指标,基于用户关注关系建立链路网络,并充分纳入用户评论的情感评分,提出针对专业影响力节点挖掘的Domain Rank算法。[结果/结论]研究表明,该算法能够有效的从多主题的用户群体中发现和识别潜在的专业影响力节点。  相似文献   

5.
[目的/意义]针对在线旅游平台,提出一种挖掘游记主题标签,以代表性游记以及其中相关内容进行旅游信息推荐的新策略。[方法/过程]在利用文本挖掘技术,构建LDA主题模型,形成游记文本主题标签的基础上,通过游记代表度算法,筛选出针对相应标签的高描述度与高忠诚度游记进行旅游信息推荐,以客观表达文本聚类结果以及主题词之间的语义关系,并以蚂蜂窝旅游网中的"杭州游记"为例,加以验证。[结果/结论]结果表明,这种方式能挖掘出旅游者在历史旅游经历中真实的旅游热点及重点信息需求,针对高相似度游记的识别与聚类具有良好效果,对旅游信息细粒度推荐具有指导意义与实践意义。  相似文献   

6.
[目的/意义]研究“睡美人”文献的识别方法,对尽早发现重要科技成就及其发明人、加快科技成果转化以及完善学术评价方法等均具有重要意义。[方法/过程]针对高校学术论文成果评价这一特定场景,提出“先客观指标粗筛、后多维参数细选”的研究思路,组合使用K值算法和三指标法,对东北大学发表于Web of Science核心合集的论文样本集进行了“睡美人”文献挖掘的实证研究。[结果/结论]该方法共识别出12篇“睡美人”文献,并对其被引特征、期刊特征、睡眠特征、内容特征等因素进行了分析。实获数据处理结果表明了该方法的有效性,相关研究方法和结果可对东北大学学术论文评价提供重要参考。  相似文献   

7.
郭文娟 《科技风》2022,(4):63-65
针对传统的K-means算法运行的结果依赖于初始的聚类数目和聚类中心,本文提出了一种基于优化初始聚类中心的K-means算法.该算法通过量化样本间距离和聚类的紧密性来确定聚类数目K值;根据数据集的分布特征来选取相距较远的数据作为初始聚类中心,避免了传统K-means算法的聚类数目和聚类中心的随机选取.UCI机器学习数据...  相似文献   

8.
基于改进特征提取及聚类的网络评论挖掘研究   总被引:1,自引:0,他引:1  
[目的/意义]针对信息过载条件下中文网络产品评论中特征提取性能低以及特征聚类中初始中心点的选取问题。[方法/过程]本研究提出采用基于权重的改进Apriori算法产生候选产品特征集合,再根据独立支持度、频繁项名词非特征规则及基于网络搜索引擎的PMI算法对候选产品特征集合进行过滤。并以基于HowNet的语义相似度和特征观点共现作为衡量产品特征之间关联程度的特征,提出一种改进K-means聚类算法对产品特征进行聚类。[结果/结论]实验结果表明,在特征提取阶段,查准率为69%,查全率为92.64%,综合值达到79.07%。在特征聚类阶段,本文提出的改进K-means算法相对传统算法具有更优的挖掘性能。  相似文献   

9.
[目的/意义]文章跟据影响力定义融入信息受众情感特征指标构建了高校新媒体影响力评价指标体系,扩展了传统影响力评价体系,突出了以信息受众的情感与行为表现作为高校新媒体影响力的核心评价目标。[方法/过程]以118个高校官方微博为例,对高校微博影响力评价的情感表征指标和行为表征指标进行处理与量化,并结合主成分分析与因子分析进行评价实证。[结果/结论]情感表征与行为表征得分之间具有明显差异,情感指标为高校新媒体影响力评价提供了更细粒度的参考单元。因子得分指出高校微博影响力得分整体差距较大,大部分集中在低数值区域;采用层次聚类法以情感特征和行为特征进行聚类可以将高校微博分为4种类型。  相似文献   

10.
[目的/意义]产业变革快速演进,技术创新成为驱动社会经济发展、提高国家和企业科技竞争力的关键所在,如何对前沿技术进行识别和预测,成为国家科技政策研究和企业技术创新活动关注的热点。[方法/过程]以人工智能作为重点研究领域,首先以LDA模型进行技术主题抽取,并结合K-means算法进行专利文本聚类;在此基础上,以Z分数表示技术主题创新度,以Sen's斜率估计技术主题授权趋势,两个指标结合形成技术主题前沿度并将二者映射到二维空间,识别前沿技术主题以及划分技术主题类型;再,计算前沿技术主题的新颖度和关注度,二者融合形成技术主题趋势度指标;最后,采用三次指数平滑法对前沿技术主题的发展趋势进行预测。[结果/结论]人工智能领域的前沿技术主题有“智能家居”“电动汽车”和“自动化控制系统”,其中“智能家居”在未来3年的发展呈下降态势,而“电动汽车”和“自动化控制系统”的发展呈明显上升趋势。  相似文献   

11.
王婧  武帅 《情报探索》2024,(2):1-11
[目的/意义]现有学科研究主题的梳理多为领域专家的定性分析和学科学者的文献梳理,一定程度会由于研究思维的局限性和获取知识的片面性造成学科研究主题误判,为有效避免漏判误判现象的发生,提出识别模型。[方法/过程]首先,运用传统LDA模型分析主题特征词;其次,结合上下文语义信息进行中文分词,形成学科主题词库;最后,结合隐含位置聚类算法发现潜在社区,提高主题识别效果。[结果/结论]提出的方法一定程度上优化了主题挖掘算法在识别短文本主题的效果,消除主观意愿。由计算机自行分类并实现科学研究前沿主题的预测,揭示前沿领域的研究热点,为致力于研究前沿学科的新兴学者提供参考价值。  相似文献   

12.
[目的/意义]探索老年人的医养结合信息服务需求,对丰富老年群体信息服务研究、建设智慧化医养结合服务体系、推进我国养老产业发展具有重要意义.[方法/过程]以信息、信息主体和信息环境为生态因子构建老年人医养结合信息服务需求指标,综合运用KANO模型和k-means方法划分指标类别和重要度等级.[结果/结论]医疗类信息服务、...  相似文献   

13.
[目的/意义]科学准确识别关键共性技术对企业和国家来说都是至关重要的战略议题。[方法/过程]文章提出了一种基于专利文献分析的关键共性技术识别框架,运用文本挖掘和技术演化分析方法,获取特定领域的关键共性技术。首先,使用Viterbi算法识别专利文献中的专业术语,通过LDA算法捕捉专利文献中的技术主题聚类;其次,通过将技术主题的共类特征数值化,作为共性程度的度量;随后,将技术主题节点在技术演化转移网络中的关键程度作为技术关键性的表征,并使用PageRank算法衡量技术主题的关键性。最后,以机器人及数控机床技术为例,验证了该方法的可行性和有效性。[结果/结论]该方法可实现高效、准确的关键共性技术识别,为国家制定创新扶持政策提供支撑。[局限]研究仍需扩大科技文献的收集范围,以实现更全面的关键共性技术识别。  相似文献   

14.
有效评估药物专利价值有必要考虑制药基础技术细节以及新药专利保护期限较长的特殊性等有关实际,同时,利用机器学习方法开展专利价值评估的研究仍有待进一步完善,因此,针对生物制药产业专利价值评估准确性问题,结合产业技术因素及其专利特点,以及专利价值评估的共性指标和生物制药产业特征与专利技术特点的个性指标,引入自编码器(AE)模型和谱聚类算法(SC)构建专利价值评估算法模型,以药智专利通数据库的相关专利数据为样本进行实证分析,通过提取专利指标特征、专利聚类来进行专利价值评估,并运用支持向量机方法对专利价值进行分类,以验证AE-SC评估模型的有效性。结果表明:AE-SC评估模型通过自编码器提取专利特征后的专利价值聚类准确度优于谱聚类和传统K-means聚类;专利存在年数、药物专利类型、适应证类别等是评价生物制药产业专利价值必要考虑因素。  相似文献   

15.
黄传慧 《情报探索》2023,(3):121-127
[目的/意义]旨在梳理我国用户搜索行为研究状况,把握信息搜索行为研究进展,以期为用户信息搜索行为后续研究提供借鉴和参考。[方法/过程]以中国知网数据库中用户信息搜索行为相关文献为数据样本,以知识图谱绘制软件CiteSpace为研究手段,对我国用户信息搜索行为的演进过程、作者、关键词等进行聚类分析,揭示信息搜索行为研究热点、研究前沿及演化规律。[结果/结论]研究对象已经呈现多元化趋势;研究内容上,学者们在已有图书情报理论与模型基础上,不断拓展研究的视角和手段,来丰富和完善信息搜索行为的研究内容;理论方法由单一研究方法逐渐向多种方法的结合应用。  相似文献   

16.
以标准K-means算法在旅游客户细分的应用中存在的聚类效果不佳等缺陷为着眼点,本文设计了一种以初始化中心优化K-means算法为基础的旅游客户细分模型,首先优化该算法中相似度的计算中的距离度量,之后再以K-means算法聚类效果对初始质心严重依赖和对数据输入顺序敏感等缺点为着眼点,提出寻找较为准确的K个聚类中心的方法。结果表明,通过改进K-means算法得到的客户划分,类别明确,类别之间的界限清晰,说明通过对客户的划分定义明确,划分效果较好。  相似文献   

17.
[目的/意义]引入IMRD架构对论文的关键词进行细分与归类,有利于挖掘各类关键词的潜藏信息,丰富论文创新性评价指标的层次结构和内容,从而提升评价指标的精确性、科学性。[方法/过程]应用文本处理技术和LDA主题模型提取论文的关键词,根据IMRD架构将论文的关键词分为Topic关键词和Method关键词,结合两类关键词的相似度和相似论文数量等因素计算论文相似值,继而根据关键词的类别特征分别构建Topic关键词学科热度值、学术潜力值及Method关键词创新性的数学模型。最后,整合论文创新性的各种影响因素,构建一个多维度、多层次的论文创新性评价指标。[结果/结论]以CNKI数据库中“篇关摘”含有“自然语言处理”的中文期刊论文为实证对象,结果表明本文构建的创新性评价指标能有效区分具有不同创新水平的论文。  相似文献   

18.
[目的/意义]通过实验分析不同特征提取算法对新闻文本聚类效果的影响。[方法/过程]选取搜狗实验室的搜狐新闻语料库以及澳大利亚广播公司2003-2017年间的新闻标题语料库,对TF-IDF、Word2vec以及Doc2vec三种单一特征,TF-IDF+Word2vec、TF-IDF+Doc2vec、Word2vec+Doc2vec以及TF-IDF+Word2vec+Doc2vec四种组合特征在K-means、凝聚以及DBSCAN算法上分别进行聚类分析,通过Purity以及NMI两个评测指标对聚类效果进行评价。[结果/结论]单类特征中三个特征的聚类质量呈Word2vec> TF-IDF> Doc2vec关系;组合特征中TF-IDF+Word2vec的效果最优。Word2vec在单一特征中的表现最优,其也是不同组合特征间差异的主要因素,特征组合是否可以提升聚类性能需基于多因素进行综合判定。  相似文献   

19.
[目的/意义]通过用户聚类,调查不同类型的参与主体、不同参与时间以及不同影响力的主体在突发公共卫生事件信息传播中的作用。[方法/过程]文章将参与新型冠状病毒肺炎疫情(COVID-19)的主体划分为4种类型,分别是政府官微(GO)、主流媒体(MM)、意见领袖(OL)和普通网民(ON),将主体参与时间、影响力和类型作为聚类系数,通过Canopy和K-means聚类算法进行用户群体聚类。[结果/结论]研究发现,在紧急突发事件期间,政府官微(GO)、主流媒体(MM)和意见领袖(OL)是事件信息源,在信息传播网络中占主导地位,其中政府的主导作用最强。公众则主要助力于信息的转发和扩散,并且其信息来源于其他三类主体。对于信息传播主体而言,越早发布信息就越容易被公众接受,进而拥有更强的影响力。  相似文献   

20.
[目的/意义]旨在为新型学术评价指标的准确筛选、学者学术影响力提升和各级图书馆开展科研支持决策等创新服务提供参考。[方法/过程]量化了Altmetrics指标对引文量产生贡献的大小,选取综合学科大样本数据集,运用适合社交媒体平台的计数型数据类型的负二项回归模型进行拟合。[结果/结论]16个被调查的Altmetrics指标中,6个指标对引文量产生了显著影响。问答平台一个单位变化将增加引文量0.1945的变化,政策指标则贡献了引文量0.0226的提升。博客、谷歌社交平台、门德利等社交媒体平台上的分享有利于学术传播;而推特指标则使得论文学术影响力略有所降低,与众多小样本研究形成了鲜明的对比。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号