首页 | 本学科首页   官方微博 | 高级检索  
     检索      

基于网页规划布局的页面主题内容抽取
引用本文:聂卉,张津华.基于网页规划布局的页面主题内容抽取[J].情报理论与实践,2011,34(12).
作者姓名:聂卉  张津华
作者单位:中山大学资讯管理学院,广东广州,510275
基金项目:2008年度教育部人文社会科学研究基金项目“基于信息抽取的数字图书馆的知识获取研究”(项目批准号:08JC870013); 2009年度中山大学青年教师培育项目“智能化深度搜索引擎实现技术的研究”(项目编号:2000-3161101)的成果
摘    要:以净化网页、提取网页主题内容为目标,提出一个基于网页规划布局的网页主题内容抽取算法。该算法依据原始网页的规划布局,通过构造标签树为网页分块分类,进而通过计算内容块的主题相关度,辨别网页主题,剔除不相关信息,提取网页主题内容。实验表明,算法适用于主题型网页的“去噪”及内容提取,具体应用中有较理想的表现。

关 键 词:网页  信息抽取  主题分析

Extraction of Web Page Subject-related Content Based on Layout of Web Pages
Nie Hui et al..Extraction of Web Page Subject-related Content Based on Layout of Web Pages[J].Information Studies:Theory & Application,2011,34(12).
Authors:Nie Hui
Institution:Nie Hui et al.
Abstract:To purify the web pages and extract the web page subject-related content,this paper proposes a web page subject-related content extraction method based on the layout of web pages.The algorithm relies on the layout of the original web pages and uses the tag-tree to partition and classify the web pages.The paper further extracts the web page subject-related content by computing the subject correlations of the content block,distinguishing the web page subjects and eliminating the unrelated information.The expe...
Keywords:web page  information extraction  subject analysis  
本文献已被 CNKI 万方数据 等数据库收录!
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号