首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于网上新闻语料的Web页面自动分类研究
引用本文:蔡巍,王英林,尹中航.基于网上新闻语料的Web页面自动分类研究[J].情报科学,2010(1).
作者姓名:蔡巍  王英林  尹中航
作者单位:上海交通大学计算机科学与工程系;上海第二工业大学;
基金项目:国家高技术研究发展计划项目(2009AA04Z106);;国家自然科学基金项目(60773088)
摘    要:Web页面由于其在表达信息的丰富性方面远胜于纯文本文件,因此Web页面分类与纯文本分类不同。针对网上中文新闻页面特点,我们提出了一种无需词典的从Web页面中抽取主题的实用算法。并将提取出的类主题概念融入分类用知识库,然后用我们研究小组提出的混合分类算法进行分类,实验语料取自新华网财经新闻。实验结果表明:与不使用Web页面特征,仅用全文相比较,分类性能有所提高。

关 键 词:自动分类  超文本  主题提取  

Research on Web Pages Automatic Classification Based on Internet News Corpus
CAI Wei,WANG Ying-lin,YIN Zhong-hang.Research on Web Pages Automatic Classification Based on Internet News Corpus[J].Information Science,2010(1).
Authors:CAI Wei    WANG Ying-lin  YIN Zhong-hang
Institution:1.Department of Computer Science&Engineering/a>;Shanghai Jiaotong University/a>;Shanghai 200030/a>;China/a>;2.Shanghai Second Polytechnic University.Shanghai 201209/a>;China
Abstract:Web page abundant in contents than pure text.Web page categorization different from pure text.According to Internet Chinese news pages,we present a practical algorithm for extracting subject concept from Web page without thesaurus.And melt these category-subject concept into knowledge base,then classify using hybrid algorithm,experiment corpus excerpt from xinhua net.Experiment result shows: compared with only using full text,categorization performance improved using Web page feature.
Keywords:automatic classification  web pages  subject extraction  
本文献已被 CNKI 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号