首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于多源数据的领域主题演化路径分析
引用本文:张敬,朱相丽.基于多源数据的领域主题演化路径分析[J].图书情报工作,2023(14):94-108.
作者姓名:张敬  朱相丽
作者单位:1. 中国科学院文献情报中心;2. 中国科学院大学经济与管理学院信息资源管理系
摘    要:目的/意义]为全面、客观、高效、直观地掌握科技领域主题的发展规律和演变趋势,提出一种基于多源数据的领域主题演化路径识别和分析框架。方法/过程]获取不同来源的科技文献数据,利用多维样本有序聚类方法辅助时间切片,基于改进的词袋构建方法,提升LDA模型主题识别效果,借助Louvain社区发现算法在主题层进行多源数据的融合,分析领域主题演化路径。结果/结论]利用美国太赫兹研究领域基金项目、论文和专利3种来源的数据进行实证研究,结果表明,3种数据源能够清晰划分出4个时间窗口,改进的词袋构建方法能够表征更准确的领域信息内涵,主题社区有助于从多源数据复杂的演化网络中厘清主题演化脉络。

关 键 词:多源数据融合  领域主题演化路径  LDA主题模型  词袋构建  时间窗口划分  有序样本聚类  Louvain社区发现算法
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号