人才网页自动识别系统研究 |
| |
引用本文: | 徐健,温浩胜.人才网页自动识别系统研究[J].现代图书情报技术,2011(6). |
| |
作者姓名: | 徐健 温浩胜 |
| |
作者单位: | 中山大学资讯管理学院;深圳市迅雷网络技术有限公司; |
| |
基金项目: | 2010年度中山大学重大项目培育和新兴交叉学科资助计划项目“高层次科技人才信息挖掘和评价方法与系统”的研究成果之一 |
| |
摘 要: | 提出人才网页自动识别系统设计,实现对Nutch定向采集系统抓取的高校网站页面进行人才描述网页自动识别。识别过程中使用自动获取的网页的URL特征、网页Title标签特征、链接文字特征以及网页文本内容特征,使用人名词表、正面特征词表、负面特征词表对各项识别特征进行匹配以计算特征值,借助开源软件LibSVM实现基于多特征值的人才网页自动识别。
|
关 键 词: | LibSVM 人才网页 自动分类 分类特征提取 |
本文献已被 CNKI 等数据库收录! |
|