首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于文本主题相似性的专题文献检索结果的聚类分析
引用本文:王秀艳,崔雷.基于文本主题相似性的专题文献检索结果的聚类分析[J].情报学报,2011,30(5).
作者姓名:王秀艳  崔雷
作者单位:中国医科大学信息管理与信息系统(医学)系,沈阳,110001
摘    要:在向文献数据库发送检索提问后,用户检索到的往往是数量众多且线性排列的文献记录,如何进一步分类这些文献记录以方便用户使用是信息检索领域的重要课题之一。本文以一个比较狭小的主题(脊髓损伤)为文献查询提问,探索利用原数据库中提供的论文主题相似性信息对检索到的文献记录进行聚类的方法,并对每个类别赋予类别标签。本文①利用生物医学权威文献数据库Medline,分别检索PubMed中有关脊髓损伤的部分文献(源文献),实际操作中我们抽取近两年发表的有关脊髓损伤的1906篇文献中前50篇;②利用PubMed中的相关文献功能分别检索出源文献的相关文献(共5108篇),筛选出频次较高的相关文献(出现频次大于或等于5次,共31篇);③形成源文献和相关文献的关联矩阵,根据该矩阵对来源文献进行聚类分析;④分别采用人工分析和主题词的向量空间模型算法提取各类的文献内容或类标签,初步评价分类结果的正确性。经过基于相似性的聚类分析,可以将脊髓损伤的源文献分为3个大类,对比人工分析和主题词向量空间模型方法对来源文献的内容提取,二者基本相符。就本文研究涉及的主题而言,利用文献数据库中提供的论文相关性信息对检索结果进行再次分类的方法是可行的。

关 键 词:相关文献  文本分类  聚类分析  脊髓损伤  向量空间模型  特征项频率  文档频率  

Cluster Analysis of Retrieved Results for Specific Subjects Based on Text Topic Similarity
Wang Xiuyan,Cui Lei.Cluster Analysis of Retrieved Results for Specific Subjects Based on Text Topic Similarity[J].Journal of the China Society for Scientific andTechnical Information,2011,30(5).
Authors:Wang Xiuyan  Cui Lei
Institution:Wang Xiuyan and Cui Lei (Department of Information Management and Information System(Medicine)of China Medical University,Shenyang 110001)
Abstract:The literature database often returns large number of linear list of documents in response to a user' s query, how to further categorize them is an important task in information retrieval.We chose a relatively narrow topic(spinal cord injuries)as the query.We explored to cluster these literature records and assign the class labels to each cluster by using topic similarity provided by the database.The first 50 papers on spinal cord injuries and published in the recent two years (1906)were searched in the Med...
Keywords:text categorization  related articles  cluster analysis  spinal cord injuries  vector space model  term frequency  document frequency  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号