首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于SVM的中文书目自动分类及应用研究
引用本文:杨敏,谷俊.基于SVM的中文书目自动分类及应用研究[J].图书情报工作,2012,56(9):114-119.
作者姓名:杨敏  谷俊
作者单位:1. 安徽医学高等专科学校图书馆;2. 南京大学信息管理系;
摘    要:将文本自动分类技术应用于图书书目的自动分类中,利用ICTCLAS分词系统对书名和摘要信息进行中文分词,为标题和摘要的特征词赋予不同的权重。在构建基于文本特征矩阵的基础上,结合SVM算法对实验语料进行学习和测试。为了验证TFIDF权重对分类结果的影响,还对词频特征矩阵、TFIDF特征矩阵和混合特征矩阵进行测试和对比。实验证明,基于混合特征矩阵的SVM算法具有良好的分类效果。据此,构建基于SVM的书目自动分类系统。

关 键 词:机器学习  支持向量机  自动分类  TFIDF  
收稿时间:2012-01-13
修稿时间:2012-03-09

Study and Apply of Chinese Bibliographies Automatic Classification Based on Support Vector Machine
Yang Min,Gu Jun.Study and Apply of Chinese Bibliographies Automatic Classification Based on Support Vector Machine[J].Library and Information Service,2012,56(9):114-119.
Authors:Yang Min  Gu Jun
Institution:1. Anhui Medical College,;2. Information Management Department, Nanjing University,;
Abstract:This paper applies texts automatic classification to bibliographies automatic classification.Firstly,books’ names and Abstracts are segmented by ICTCLAS Chinese segmentation system,and the characters of names and Abstracts are endowed with different weights.Secondly,the authors learn and test the experiment data by support vector machine(SVM) algorithm based on character matrix of text.At last,term frequency character matrix,TDIDF character matrix and mix character matrix are tested and compared for validating the influence of TFIDF weights on the results of automatic classification.The conclusion is that the SVM algorithm assisted by TFIDF weights is every effective.At last,the authors design an automatic classification system on the base of SVM technology.
Keywords:machine learning support vector machine automatic classification TFIDF
本文献已被 CNKI 万方数据 等数据库收录!
点击此处可从《图书情报工作》浏览原始摘要信息
点击此处可从《图书情报工作》下载免费的PDF全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号