首页 | 本学科首页   官方微博 | 高级检索  
     检索      

人才网页自动识别系统研究
引用本文:徐健,温浩胜.人才网页自动识别系统研究[J].现代图书情报技术,2011(6).
作者姓名:徐健  温浩胜
作者单位:中山大学资讯管理学院;深圳市迅雷网络技术有限公司;
基金项目:2010年度中山大学重大项目培育和新兴交叉学科资助计划项目“高层次科技人才信息挖掘和评价方法与系统”的研究成果之一
摘    要:提出人才网页自动识别系统设计,实现对Nutch定向采集系统抓取的高校网站页面进行人才描述网页自动识别。识别过程中使用自动获取的网页的URL特征、网页Title标签特征、链接文字特征以及网页文本内容特征,使用人名词表、正面特征词表、负面特征词表对各项识别特征进行匹配以计算特征值,借助开源软件LibSVM实现基于多特征值的人才网页自动识别。

关 键 词:LibSVM  人才网页  自动分类  分类特征提取  
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号