首页 | 本学科首页   官方微博 | 高级检索  
     检索      

科研机构名称归一化实现
引用本文:贾君枝,曾建勋,李捷佳,付晓梅.科研机构名称归一化实现[J].图书情报工作,2018,62(13):103-110.
作者姓名:贾君枝  曾建勋  李捷佳  付晓梅
作者单位:1. 山西大学经济与管理学院 太原 030006; 2. 中国科技信息研究所信息资源中心 北京 100038
基金项目:本文系国家社会科学基金项目"机构规范文档结构及构建方式研究"(项目编号:15BTQ015)和国家社会科学基金重点项目"基于关联数据的中文名称规范档语义描述及数据聚合研究"(项目编号:15ATQ004)研究成果之一。
摘    要:目的/意义]机构名称的数目多且较为繁杂,机构名称归一化可将同一机构的规范名称以及不同时段、不同表达形式的非规范名称汇集在一起,提高查询检索的查全率和查准率;有利于建立与其他系统之间的互操作,实现资源的共享。方法/过程]在分析机构名称字符串的特点和基于K-means算法的基础上,利用编辑距离算法实现一级机构名称的初步聚类,然后利用初步聚类结果并基于TF-IDF算法计算机构名称各词项的权值,从而基于K-means算法将机构名称围绕聚类中心抱团聚簇,并对每一个簇的机构名称赋予唯一标识符。结果/结论]该方法可实现同一机构实体不同形式的规范名称的归一,提高机构名称聚类的准确率,但对K取值、距离测度方法的选取仍有待优化。

关 键 词:科研机构名称  聚类  K-means  
收稿时间:2017-12-08

Realization of Research Institution Name Normalization
Jia Junzhi,Zeng Jianxun,Li Jiejia,Fu Xiaomei.Realization of Research Institution Name Normalization[J].Library and Information Service,2018,62(13):103-110.
Authors:Jia Junzhi  Zeng Jianxun  Li Jiejia  Fu Xiaomei
Institution:1. School of Economics and Management, Shanxi University, Taiyuan 030006; 2. Institute of Scientific and Technical Information of China, Beijing 100038
Abstract:Purpose/significance] Institution names are numerous and complicated. The normalization of institution names brings the authoritative name and the informal ones(both at different times and in different ways of expression) of the same institution together,enhancing comprehensiveness and accuracy of searches,promoting interoperability with other systems, and thus realizing resource sharing.Method/process] Based on the analysis of institution names' characteristic and K-means algorithm, this paper utilizes the edit distance similarity algorithm to achieve name normalization of institution names. Then uses TF-IDF to calculate the weight of each item, around the cluster center to normalize institution name based on K-means algorithm and gives the unique identifier to every cluster.Result/conclusion] It achieves name normalization of the same institution name in different forms. And it improves the precision of institution name cluster, but the choice of K value and distance measurement method still needs to be optimized.
Keywords:research institution name  cluster  K-means  
点击此处可从《图书情报工作》浏览原始摘要信息
点击此处可从《图书情报工作》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号