首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 890 毫秒
1.
【目的/意义】大数据时代文本主题挖掘在情报分析领域中的作用日趋重要,通过特征比较共词分析和 LDA模型分析两种主流文本主题挖掘方法,研究两者的具体特点,为相关人员合理地运用文本主题挖掘方法处理 数据提供一定的参考。【方法/过程】本文分两种情况对比研究:第一、两者挖掘不同时段同一种类文本数据的主题 分布信息和主题演化信息的能力;第二、两者挖掘同一时段不同种类文本数据的提取正确主题的能力。【结果/结 论】在不同时段LDA模型分析与共词分析相比挖掘主题分布信息的能力可不断提升,并且其可挖掘出更加细化的 主题演化信息;在同一时段LDA模型分析对语义关系模糊逻辑结构粗糙的文本提取正确主题的效果明显优于共词 分析。  相似文献   

2.
杨奕  张毅  李梅  邓雯 《情报科学》2019,37(1):86-93
【目的/意义】通过数据挖掘、文本分析法整合公众分散的反馈意见,对比研究出台政策,对政府部门吸纳公 众意见,制定科学合理的公共政策具有重要意义。【方法/过程】基于大数据技术深度挖掘公众对共享单车政策征求 意见稿的反馈内容,采用LDA模型从公众反馈意见中发现并提取低维主题集合,汇总、组织、分析大规模文本信息, 以主题领域和隶属概率值两维度,对比公众意见与政策修订的差异。【结果/结论】从制度体系、政府治理、企业经营、 产品完善、用户规范五个分类主题及其概率值,评估政策制定中的公众参与度以及政府对公众反馈意见的采纳效 果,以期为政府出台政策的科学性提供理论依据和决策建议。  相似文献   

3.
李莉  林雨蓝  姚瑞波 《情报科学》2018,36(10):64-70
【目的/意义】挖掘出客服聊天记录中蕴含的主题,为客服自动问答系统的设计及优化提供指导方案。【方 法/过程】本文针对保险网站客服聊天记录这类交互式短文本,利用会话切分、分词提取以及词汇过滤等方法进行 文本预处理,通过名词短语提取、高频词汇提取以及外部数据集引入等方法进行特征选择,最终应用 LDA建模方法 获取交互式文本主题。【结果/结论】模型结果显示:用户主要关注保险详情、保险金额以及保险险种等主题。不同 主题之间的话题具有一定的独立性,主题和话题之间存在很强的相关性。LDA模型结果成功挖掘出用户关注的主 题,这为电子商务网站运营方进行自动问答系统的设计和优化提供了指导方案。  相似文献   

4.
【目的/意义】通过分析近年来我国图书馆法律法规的内容特征及其发展脉络,探究其发展趋势,为我国图 书馆法律法规研究提供借鉴,为图书馆法律体系建设提供参考。【方法/过程】以中国知网作为数据源,选取 2008- 2018年《中国图书馆年鉴》中法律法规与政策性文件中法律法规的全文,作为研究样本,利用LDA模型进行主题内 容提取和挖掘。【结果/结论】通过主题研究发现我国图书馆专门法律法规较少,实施较晚,应加强专门法的研究,促 进综合性图书馆法出台,加快图书馆法律体系建设。【创新/局限】运用LDA主题建模方法对现行大量图书馆法律法 规文本进行主题数据分析,探究图书馆法律法规的内容特征和发展机理具有创新意义。由于算法中的分词方法对 个别专业词汇切分可能存在局部偏差,会对关键词提取准确性造成微小影响。  相似文献   

5.
田园  宫婷婷 《情报科学》2021,39(9):110-116
【目的/意义】为了进一步提升学生评教信息的使用价值,构建在线教学用户需求指标体系,对在线教学需 求数据进行主题挖掘。【方法/过程】运用数据挖掘理论和LDA主题识别模型,从丰富的在线教学评价内容中挖掘潜 在的在线教学主题,针对教学主题特征向用户需求进行结构映射,最终形成在线教学需求指标体系。【结果/结论】 分析在线教学数据,从教师需求、课程需求、教学成果需求三方面构建在线教学用户需求指标体系,并提出针对性 的教学质量优化策略。【创新/局限】本文通过在线教学需求数据主题挖掘,为高校在线教学评教指标体系的构建与 完善提供了新的途径和方法,但样本数据仅为单一高校数据,未实现全覆盖,对领域研究的整体态势分析还存在一 定的不足。  相似文献   

6.
林丽丽  马秀峰 《情报科学》2019,37(12):87-92
【目的/意义】为了解近年来图书情报研究的热门主题及其演化趋势,利用LDA模型进行文本挖掘。【方法/ 过程】选取CNKI作为检索数据库,以2006年至2017年图书情报学领域10本核心期刊中的论文摘要作为研究数 据,借助开源工具JGibbLDA构建LDA模型,运用困惑度来确定模型主题数目,根据主题-词项分布文件进行主题 标识,根据文档-主题分布文件计算主题强度。【结果/结论】2006年至2017年图书情报学领域有20个研究主题,其 中比较热门的主题有7个; 8个主题的强度呈上升趋势, 9个主题的强度呈下降趋势, 3个主题的强度变化幅度较小。  相似文献   

7.
李湘东  阮涛  潘练 《情报科学》2018,36(4):14-21
【目的/意义】使用聚类技术在话题分析之前对文本集中的噪声文本进行识别筛查,并采用文档相似度分布 及困惑度等对去噪和建模效果加以检验。【方法/过程】在提高文本集质量之后,借助LDA概率主题模型对新闻文本 集进行话题抽取,通过计算相似度为不同时间窗口下的主题建立联系,挖掘热点话题及其演化规律。【结果/结论】 将本方法应用于2014 年度电商类新闻,得到的结果与同年度新华网经由人工评选出的电商热点新闻主题相比较, 证明本方法的准确性。  相似文献   

8.
胡吉明  钱玮  李雨薇  文鹏 《情报科学》2021,39(10):11-17
【目的/意义】本文以主题为核心,从外部属性和内容属性两个视角展开政策文本结构化解析,直观反映政 策核心内涵,挖掘政策文本语义,为政策内容解读提供新模式。【方法/过程】利用LDA2Vec主题模型实现基于上下 文的政策文本主题识别,同时借助位置和语法规律提取外部属性,以此构建政策文本结构化解析的描述框架。【结 果/结论】“互联网+”政策文本解读的实证分析发现,本文所提框架有助于直观展现政策要素,有效揭示政策文本主 题分布,以及进行大规模政策领域文本的批量分析和解读。【创新/局限】通过结构化解析框架展现政策文本的形式 化特征和主题性特征,帮助政策相关群体把握政策制定的特点和侧重点,目前深层次内容解读有待进一步研究。  相似文献   

9.
江秋菊 《情报科学》2019,37(6):96-100
【目的/意义】本文综合考虑文献的主题、被引频次和发文时间,从三维视角出发,提出一种文献影响力指数 (Influence Index of Document,IIOD)计算方法,在主题分类的基础上对文献的影响力进行评价。【方法/过程】以 中国引文数据库中2013-2017年情报学领域9本期刊的10523篇文献为样本,利用LDA模型进行主题提取,并将 LDA与K-means算法结合实现文本分类,进而计算特定主题下文献的影响力指数,根据文献影响力指数对文献进 行排名。【结果/结论】文献影响力指数综合考虑了文献的主题特征、被引频次和时效性,其排名结果更加全面合理, 为评价文献的影响力提供了一种新的视角。  相似文献   

10.
梁珊  邱明涛  马静 《情报科学》2017,35(7):44-49
【目的/意义】考虑到使用LDA模型进行主题抽取时,抽取到的特征词是无序的,破坏了原有的主谓宾结 构,导致抽取效果不准确,可读性差的缺陷,构造了WO词序模型,并将LDA模型与WO模型结合,提出了基于 LDA-WO混合模型的微博主题有序特征抽取算法。【方法/过程】使用LDA模型进行主题建模,获得无序特征词, 然后通过WO模型对特征词进行排序,将特征词与原语料进行对比,构造特征词-语料位置矩阵,通过对特征词的 位置排序,构造特征词词序权值矩阵,最终获得有序的特征词,完成对话题特征的有序抽取。【结果/结论】本文以真 实新浪微博数据为实验对象,实验结果表明基于LDA-WO模型的特征词提取方法进行特征抽取,抽取到的特征词 可读性更强,可弥补传统LDA模型在话题可解释性上的不足。  相似文献   

11.
【目的/意义】随着网络社交媒体的发展,舆情文本中隐含的主题越来越能体现出人们的关注点所在及变化 情况,因此对其进行检测及演化分析具有重要意义。【方法/过程】为了解决OLDA模型存在的主题混合及权重定义 问题,本文提出了一种可变在线LDA模型(variable online LDA,VOLDA),通过构建主题相似度矩阵,明确主题变化 关系,在主题内容演化矩阵中剔除含有旧主题的时间片,从而构建变长的演化矩阵,并在此基础上设计动态权重计 算方法及先验参数优化方法。【结果/结论】基于论坛文本数据的实验结果表明,VOLDA模型能够有效减少新主题 出现后的主题混合问题,并且提高主题在演化过程中的表示能力。  相似文献   

12.
【目的/意义】云计算的普及使得MI学科受到学术界的持续关注,对MI主题识别与演化的分析可以揭示历史演化,有助于发现人们关注的问题,预见该领域的未来发展。【方法/过程】本文利用潜狄利克雷分配(Latent Dirichlet Allocation, LDA)主题模型对web of science(WOS)数据库中与MI相关的主题进行识别和挖掘,并利用生命周期理论、变异系数法、Kullback-Leibler divergence(KL)等理论和方法绘制出MI研究主题的演化路径。【结果/结论】研究结果表明,MI的研究主题正逐渐向方法、技术和实践的研究方向发展,医疗数据分析、临床数据挖掘、健康信息技术等新兴技术和应用方向将成为未来MI学科的研究热点。【创新/局限】本文从生命周期视角对全球范围内医学信息学学科的主题演化进行挖掘和分析,为该学科未来的发展提供借鉴,但并没对各地区分别进行分析,因此存在一定的局限性。  相似文献   

13.
【目的/意义】文献的向量表示方法对文献主题聚合、聚类和分类等研究具有重要意义。基于二元共现信息 的潜在语义向量空间模型(CLSVSM)挖掘了文本信息中词与词之间的潜在语义关系,与文本向量表示的基本模型- 向量空间模型(VSM)相比很大程度上提高了文本聚类的精度。【方法/过程】为使CLSVSM能更优的提取文献的潜 在语义信息,本文在二元CLSVSM基础上进一步引入了三元共现信息,以深度挖掘文献的潜在语义,通过研究三元 共现矩阵的表示,三元共现频次和相对共现强度的计算方法,最终建立了加权共现潜在语义向量空间模型(加权 CLSVSM)。最后我们分别利用中、英文献数据对二元CLSVSM和加权CLSVSM两类模型进行了实验比较。【结果/ 结论】结果显示:新模型对英文文献的聚类效果与二元CLSVSM相当,但对中文文献主题聚类效果明显要优于二元 CLSVSM。  相似文献   

14.
张雷  谭慧雯  张璇  韩龙 《情报科学》2022,40(3):144-151
【目的/意义】构建高校师德舆情微博用户评论LDA模型,可以更精准识别舆情演化特征和分析关键主题传 播路径,帮助高校和相关部门更为有效地进行舆情监管和舆情引导。【方法/过程】本文以“天津大学一教授学术造 假”事件为例,基于 LDA模型构建高校师德舆情下微博用户主题生成模型,采用困惑度评价指标确定 LDA模型最 优主题数,采用信息熵确定每一主题在不同日期的主题强度,通过关键词共现知识图谱、词云展现舆情话题的演 变,最后基于主题相似度确定主题传播路径。【结果/结论】LDA模型和信息熵可以解析出网络用户群体关注的重要 主题热点,精准识别舆情演化特征,识别主题最优传播路径进行舆论引导,对爆发的舆情实现预测和管制优化。【创 新/局限】文章创新性地构建高校学术道德舆情的LDA主题模型,有效确定微博用户群体主题、识别舆情演化特征、 分析主题间传播路径,具有普适性;进一步扩大高校师德其他舆情分析及结合网络舆情情感分析为下一步的研究 内容。  相似文献   

15.
【目的/意义】随着互联网在社会中的影响力逐渐增大,面对网络群体性事件对社会生活的冲击,需把握网 络群体性事件的演化规律,确定事件类别,提炼事件特征,基于不同类别的网络群体性事件,提出有针对性的应对 措施。【方法/过程】通过LDA主题模型与K-means算法相结合,利用LDA模型实现文本潜在语义的识别,最终运用 SVM算法进行网络群体性事件聚类分析,得到五类网络群体性事件。【结果/结论】构建的网络群体性事件动态识别 模型,通过大量的文本训练,在事件聚类数为5时具有良好的解释性,完成了网络群体性事件的客观分类,分别为: 经济型、社会型、文化型、民族型和环境型,为政府分类应对策略提供依据。【创新/局限】利用 LDA主题模型和 Kmeans算法,减少了模型的迭代次数,确定最佳主题数,提高了网络群体性事件识别结果的准确性,但是运用慧科新 闻数据库搜集到的文本数据范围有限,且分类结果反应的事件特征具有一定局限性,后续研究可进一步扩大动态 文本数据库,对分类算法进行改进和深化。  相似文献   

16.
周鑫  熊回香  肖兵 《情报科学》2023,(3):145-154
【目的/意义】针对在线医疗信息结构松散,医疗平台医生推荐精度不足的现状,设计了一种基于标签和患者咨询文本的医生推荐算法,提升医生推荐效果。【方法/过程】利用Word2vec模型训练患者咨询文本得到特征向量,改进余弦相似度算法计算医生推荐集A;利用LDA模型训练医生标签得到医生在主题上投影的概率分布,改进KL距离算法计算医生推荐集B;基于社会网络分析理论设计相关算法重构医生网络链接,选择中心性指标得到最终医生推荐集C。【结果/结论】以“丁香医生”数据进行实证,面向UGC数据丰富了算法的可用程度,弥补了单一推荐方法的不足,提高了推荐的精度。本文所提方法有效提升了医生推荐精度。【创新/局限】通过融合标签和患者咨询文本,采用社会网络分析实现了医生混合推荐。虽然通过中心性指标进行重要医生挖掘,但挖掘效果有提升空间。  相似文献   

17.
韩娜  马海群  刘兴丽 《情报科学》2021,39(11):180-186
【目的/意义】从大数据驱动角度出发,探索采用人工智能方法实现对政策文本协同性定量分析的可能性。 【方法/过程】以政策全文本数据为研究对象,使用知识图谱技术实现不同主题的本体构建,并应用数据挖掘中关联 规则构建推理模型,对图谱表示的政策文本进行协同性语义挖掘和推理。【结果/结论】围绕“开放数据”和“数据安 全”主题构建知识图谱,实现对政策文本的本体表示,在此基础上使用关联规则完成单文本和多文本在两个主题间 的协同性分析。【创新/局限】本文将知识图谱应用于政策文本分析领域,并完成协同性分析,为政策的全样本分析 提供可能性,后续需扩大样本规模,提升推理效率。  相似文献   

18.
朱光  潘高枝  李凤景 《情报科学》2022,40(4):127-137
【目的/意义】识别信息隐私研究领域的热点主题,梳理主题演化路径。【方法/过程】针对主题识别语义杂乱 等问题,提出时序关联与结构表征视角下的主题演化分析方法。首先利用LDA(Latent Dirichlet Allocation)模型识 别多时间窗口下的文献主题,进一步运用共词分析绘制语义更为独立的主题凝聚子群。在此基础上,从时序关联 维度计算相邻窗口下主题间的相似度,梳理演化路径;从结构表征维度,设计主题新颖度、中心性、影响力等计量指 标,探寻信息隐私前沿和热点主题的演化变迁。【结果/结论】实证分析结果表明,本文方法可以深度挖掘信息隐私 领域研究主题,从宏微观两个维度全面梳理主题的演化路径。研究有利于探测信息隐私研究的前沿。【创新/局限】 综合运用LDA主题模型与共词分析方法绘制主题凝聚子群,从时序演化和结构表征两个维度探寻主题演化路径。 未来研究中有待于引入多种数据源以对比主题差异,有待于引入多元组术语改善主题识别效果。  相似文献   

19.
邓淑卿  徐健 《情报科学》2017,35(11):83-88
【目的/意义】梳理情报学的研究内容分布以及研究主题发展情况。【方法/过程】选取2006年到2015年十年 内发表于九种情报学核心刊物的论文作为研究数据源,采用构建基于LDA算法的主题模型的方法挖掘情报学的研 究主题。【结果/结论】2006年到2015年情报学的研究主题有13个,其中在内容分布上,总体研究热度较高的是图书 馆管理、文献计量、知识管理与服务、信息素养和情报学基础理论。在主题变化上,研究热度上升的主题有文献计 量、社会网络分析、信息行为研究和数据挖掘;研究热度下降的主题有信息素养、情报学基础理论、信息检索和企业 竞争情报。  相似文献   

20.
【目的/意义】提出融合深层演化特征的情感分析方法,以提升公共安全事件微博情感分析精度。【方法/过 程】以红黄蓝幼儿园涉嫌虐童事件为例,使用LDA与爬虫软件提取演化特征中的主题特征、时间特征,结合传统浅 层文本词性特征与情感特征,应用于XGBoost以生成微博情感分析集成模型。【结果/结论】演化特征的融入使得 情感识别准确度Auc值提高4%,且XGBoost分类精度均优于SVM、随机森林。本文提出的情感识别模型能够在公 共安全事件微博情感分析方面取得较好效果  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号