基于网上新闻语料的Web页面自动分类研究 Research on Web Pages Automatic Classification Based on Internet News Corpus期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

基于网上新闻语料的Web页面自动分类研究

引用本文：	蔡巍,王英林,尹中航.基于网上新闻语料的Web页面自动分类研究[J].情报科学,2010(1).

作者姓名：	蔡巍王英林尹中航

作者单位：	上海交通大学计算机科学与工程系;上海第二工业大学;

基金项目：	国家高技术研究发展计划项目(2009AA04Z106);;国家自然科学基金项目(60773088)

摘要：	Web页面由于其在表达信息的丰富性方面远胜于纯文本文件,因此Web页面分类与纯文本分类不同。针对网上中文新闻页面特点,我们提出了一种无需词典的从Web页面中抽取主题的实用算法。并将提取出的类主题概念融入分类用知识库,然后用我们研究小组提出的混合分类算法进行分类,实验语料取自新华网财经新闻。实验结果表明:与不使用Web页面特征,仅用全文相比较,分类性能有所提高。
关键词：	自动分类超文本主题提取
Research on Web Pages Automatic Classification Based on Internet News Corpus

CAI Wei,WANG Ying-lin,YIN Zhong-hang.Research on Web Pages Automatic Classification Based on Internet News Corpus[J].Information Science,2010(1).

Authors:	CAI Wei WANG Ying-lin YIN Zhong-hang

Institution:	1.Department of Computer Science&Engineering/a>;Shanghai Jiaotong University/a>;Shanghai 200030/a>;China/a>;2.Shanghai Second Polytechnic University.Shanghai 201209/a>;China

Abstract:	Web page abundant in contents than pure text.Web page categorization different from pure text.According to Internet Chinese news pages,we present a practical algorithm for extracting subject concept from Web page without thesaurus.And melt these category-subject concept into knowledge base,then classify using hybrid algorithm,experiment corpus excerpt from xinhua net.Experiment result shows: compared with only using full text,categorization performance improved using Web page feature.

Keywords:	automatic classification web pages subject extraction
本文献已被 CNKI 等数据库收录！

设为首页 | 免责声明 | 关于勤云 | 加入收藏