首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 59 毫秒
1.
讨论了网页分类过程中数据预处理的相关技术,提出一种网页预处理方法,将网页解析为DOM树结构,通过分析、整理,得到噪音信息的特征,并依据判定规则,找出噪音信息并删除处理。网页去噪后,提取页面中的文本信息和每个相关链接目标URL、源URL及锚文本并存入数据库。实验结果证明,该去噪方法可以有效去除网页噪音,利用所提取的超链接结构信息分类网页,可以有效提高分类精度。  相似文献   

2.
新闻正文信息提取对信息检索、存储和舆情监测等具有极其重要的意义。为实现新闻信息的正确提取,考虑到DOM等几种技术的优势,结合DOM技术、动态型网页信息抽取技术和行块分布算法等技术优点,重点研究了新闻信息的提取方法,尤其针对动态网页的信息提取,设计了一套有效的新闻正文信息提取方法。实验结果表明,该方法能有效实现新闻的正文信息抽取,准确率高,具有一定推广价值。  相似文献   

3.
信息抽取是数据挖掘和知识发掘的重要方法,基于规则自动化或半自动化地从互联网中提取准确有效的数据是知识挖掘的关键.本文构建了一个通用文本信息抽取平台,采用多种信息匹配技术从网络数据源中抽取数据和信息,并采用规则处理方式对网页信息进行智能化抽取.该平台采用Eclipse RCP开发,对其功能可进行插件式扩充,在业务逻辑上采用规则引擎.该平台具有界面友好、易于扩展、使用方便等特点,并能够从大规模网页中自动地获取有效的数据和信息.  相似文献   

4.
为了应对网络大数据的挑战,本文通过对教育技术网站的页面布局和网页源码的分析,结合正则表达式和网页解析开源类库的使用,实现了网络信息的准确匹配提取和人本化信息采集,在一定程度上有利于有效获取教育技术最新新闻动态,从而有助于提高机构和个人的业务决策能力。  相似文献   

5.
作为垂直搜索的关键技术之一,网页结构化信息抽取近年来得到越来越多的关注.网页结构化信息抽取通过打碎网页,从中提取"精细化"、"条目化"的信息,存储在数据库中,通过对数据库的查询达到垂直搜索"精准"的目的.已有的方法大多是基于规则的模型和基于隐马尔可夫的模型,这些方法要么依赖特定网页结构,适用性差;要么依赖大量的训练样本,训练效率低.结合垂直搜索特定领域特征词数量有限的特点和统计方法,提出基于特征词统计的结构化信息抽取技术,解决了只能抽取特定HTML标记节点和单个信息块的问题,关键信息块的抽取平均准确率为97%.  相似文献   

6.
随着互联网和社交网络的发展,个人信息越来越多地暴露在网络空间中,有效收集和挖掘这些信息可发现所需要的人才信息。设计了一个人才发现与推荐系统,该系统基于Hadoop平台,利用网络爬虫程序寻找网页,通过信息抽取技术获取页面内容,利用lucene的分词器提取文本中的关键词,根据关联规则算法挖掘出关联关键词,采用基于相似项的策略推荐人才。系统为企业提供了一种基于网页数据的技术人才发现和推荐工具,节约了大量时间和成本。  相似文献   

7.
互联网高速发展的多年积累,如今web已经成为我们每一个普通人日常的一部分.Web绝对是世界上最大的信息数据库.同时每一个web页面中也包含这个目标信息以外的各种广告链接.称之为噪声.如何有效的过滤噪声,提取想要的目标内容已经成为一个实用且重要的研究领域.传统的方法大多都是基于DOM树及网页源代码的.这里在基于网页视觉特征分块算法VIPS的基础上,通过观察归纳网页目标内容和噪声的视觉特征来进行噪声过滤和目标内容提取.并提出了基于噪声和目标内容的视觉特征区别算法NGFV(Based on noise and goal content visual feature algorithm).  相似文献   

8.
提出了一种基于文档对象模型(DOM)和网页显示属性的信息除噪方法.通过对网页内容进行结构和特点分析,把一个网页信息内容划分为信息块和噪声块两个部分,利用解析器把网页转化成DOM模型并对网页信息噪声进行判断,根据网页的显示属性对DOM模型进行简化,最终实现对DOM模型噪声信息的有效去除.  相似文献   

9.
在总结前人工作的基础上,提出一种基于块的网页内容提取算法,它从网页结构和内容两者角度入手,有效过滤了其中无效的垃圾信息。通过对新浪、网易等150个网页实验分析,我们的方法切实可行并且具有较高的准确性。  相似文献   

10.
本文基于ASP环境和技术,针对电大开放教育试点专业网上教学辅导信息如何有效重组以及如何简化信息维护操作等问题,给出了网页集成与模块化结构设计相结合的信息组织与维护模型.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号