排序方式: 共有89条查询结果,搜索用时 15 毫秒
1.
[目的/意义]潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)在科技情报分析中用来发现学科主题、挖掘研究热点以及预测研究趋势等。对常见的科学文献文本语料库(关键词、摘要、关键词+摘要)进行LDA主题抽取效果的评价,以揭示不同语料库的主题抽取效果,提高LDA在科技情报分析中的应用效果。[方法/过程]对上述3种语料库下的LDA主题模型进行对比研究,采用基于查全率、查准率、F值以及信息熵的定量分析和基于主题抽取的广度和主题粒度的定性分析相结合的方法对主题抽取效果进行评价。[结果/结论]通过国内风能领域的科学文献数据实证研究发现,无论是从定量分析还是从定性分析来看,摘要和关键词+摘要作为语料的LDA主题抽取的效果均优于关键词作为语料的LDA主题抽取效果,并且前者在主题抽取的广度方面表现更好,而后者抽取的主题粒度更细。 相似文献
2.
3.
[目的/意义]无处不在的网络舆情信息深深影响甚至误导网络受众,探讨揭示网络舆情观点的方法,旨在拓展用户的认知深度和广度,提高大众对舆论的辨识能力。[方法/过程]从技术上对比分析观点提取方法间的差异,从认知上阐释网络舆论平台的群体智慧和受众个体的认知过程,进而明确LDA主题模型提取舆情观点的优势及路径。[结果/结论]结合舆论主题和情感因素,基于LDA的网络舆情观点提取,可从海量评论中判定深度评论,摘取主要观点,借助群众智慧,有效拓展个体思想和认知,为从大规模舆情中有序呈现受众观点提供新路径,也为舆情监测与疏导提供切实的依据。 相似文献
4.
5.
基于种子文档LDA话题的演化研究 总被引:1,自引:0,他引:1
提出一种基于种子文档的LDA话题演化方法。首先选取种子文档,利用种子文档指导后一时间段文档的建模,然后根据种子文档的语义分布信息对连续时间上的LDA话题进行关联,保证话题的同一性。实验结果证明,在NIPS论文语料集和全国两会新闻报道集中,该方法可以推导特定话题的演化结果,避免关联话题之间存在的演化结果。 相似文献
6.
线性判别分析(Linear Discriminant Analysis,LDA)是用于降维和分类的方法,然而在遇到小样本问题时,由于全局散布矩阵是奇异的,所以传统的LDA方法是不适用的。为了解决LDA的这种缺点,提出了基于最小二乘线性判别分析(Least Squares Linear Discriminant Analysis,LS-LDA)的正则化算法,在LS-LDA中分别加入关于加权矩阵的L1范数、L2范数和弹性网络的惩罚项、来解决小样本问题,使模型具有鲁棒性和稀疏性。在对回归分析、正则化方法和LS-LDA相关技术进行深入分析的基础上,构建正则化最小二乘线性判别分析框架算法,实现数据降维。结合标准文本数据集进行实验,采用KNN(K-Nearest-Neighbor)分类器进行文本分类。实验结果表明,正则化的LS-LDA具有很好的分类性能,其中以加入了弹性网络惩罚项的LS-LDA最优。 相似文献
7.
[目的/意义]为了深入了解科研众筹平台中的项目情况,本文对科研众筹项目的基本特征、研究主题和不同类型科研众筹项目的属性对比进行研究。[研究设计/方法]首先对科研众筹的起源、价值和运作模式进行了梳理;随后爬取了科研众筹平台Experiment的项目信息,并对该平台中科研项目的发起者、背书者、项目记录、所属学科、资助情况等进行特征描述;基于LDA模型对科研众筹项目主题进一步细化,并对不同资金筹集和不同主题分类情况下的科研众筹项目的属性差异进行比较分析。[结论/发现]科研众筹主题主要集中在生物学和生态学两个领域,不同资金筹集达成情况的科研众筹项目在项目背书者数量、信息记录次数和讨论次数上具有显著差异;不同主题的科研众筹项目在其讨论次数上具有显著差异。同时,是否提供视频和是否参与资助挑战在不同资金筹集达成情况和不同主题的科研众筹项目上均具有显著差异。[创新/价值]深入分析了科研众筹平台中项目主题及属性对比情况,对科研众筹平台优化信息审核机制、社交机制和信息展示机制具有一定的参考价值。 相似文献
8.
《Journal of Informetrics》2014,8(3):776-790
This study proposes a temporal analysis method to utilize heterogeneous resources such as papers, patents, and web news articles in an integrated manner. We analyzed the time gap phenomena between three resources and two academic areas by conducting text mining-based content analysis. To this end, a topic modeling technique, Latent Dirichlet Allocation (LDA) was used to estimate the optimal time gaps among three resources (papers, patents, and web news articles) in two research domains. The contributions of this study are summarized as follows: firstly, we propose a new temporal analysis method to understand the content characteristics and trends of heterogeneous multiple resources in an integrated manner. We applied it to measure the exact time intervals between academic areas by understanding the time gap phenomena. The results of temporal analysis showed that the resources of the medical field had more up-to-date property than those of the computer field, and thus prompter disclosure to the public. Secondly, we adopted a power-law exponent measurement and content analysis to evaluate the proposed method. With the proposed method, we demonstrate how to analyze heterogeneous resources more precisely and comprehensively. 相似文献
9.
[目的/意义]从知识主题的角度切入,建立全面的课程知识体系,解决现有课程体系设计和教学中的课程间知识点重复及"知识孤岛"问题,从而有效开展专业知识服务。[方法/过程]以临床医学专业主干课程为研究对象,基于医学主题词表、电子教材、电子教案等医学教育数据,通过LDA模型挖掘课程中的知识主题,利用关联分析揭示课程间、知识主题间及课程与知识主题间的细粒度关联,从而构建临床医学课程知识主题图谱。[结果/结论]研究从专业课程体系与知识主题视角构建出领域知识图谱,有助于教学管理人员及师生掌握专业知识体系,开展知识导向型教学活动,推进医学领域知识组织与服务及智慧医学教育发展。 相似文献
10.