首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 234 毫秒
1.
新闻正文信息提取对信息检索、存储和舆情监测等具有极其重要的意义。为实现新闻信息的正确提取,考虑到DOM等几种技术的优势,结合DOM技术、动态型网页信息抽取技术和行块分布算法等技术优点,重点研究了新闻信息的提取方法,尤其针对动态网页的信息提取,设计了一套有效的新闻正文信息提取方法。实验结果表明,该方法能有效实现新闻的正文信息抽取,准确率高,具有一定推广价值。  相似文献   

2.
本文通过研究新Web标准网页的数据结构,并在信息抽取技术的基础上,提出了一种基于HTML5语义化标签的网页正文提取技术.该技术能够有效的过滤掉与网页主题无关的噪音信息,从而能有效提取有价值文本信息.  相似文献   

3.
基于Web超链接结构信息的网页分类技术研究   总被引:1,自引:0,他引:1  
充分利用相邻网页(包括链人和链出)的相关信息,提出一种基于Web超链接结构信息的网页分类改进方法.其方法分为5步:(1)预处理训练集,提取文本信息和超链接结构信息;(2)抽取特征向量和训练一个Web页面的全文本分类器;(3)根据网页的各个人口的锚点文本和扩展锚点文本创建虚文档,用虚文档代替Web页面全文本训练一个虚文档分类器;(4)利用Naive Bayes方法协调两个分类器得到初步分类结果;(5)利用链出网页对初步分类结果进行修正,得到最终分类结果.根据改进方法实现了网页自动分类原型系统,并进行分类实验,实验表明该方法有效提高了分类性能.  相似文献   

4.
讨论了网页分类过程中数据预处理的相关技术,提出一种网页预处理方法,将网页解析为DOM树结构,通过分析、整理,得到噪音信息的特征,并依据判定规则,找出噪音信息并删除处理。网页去噪后,提取页面中的文本信息和每个相关链接目标URL、源URL及锚文本并存入数据库。实验结果证明,该去噪方法可以有效去除网页噪音,利用所提取的超链接结构信息分类网页,可以有效提高分类精度。  相似文献   

5.
文章首先分析了目前几个比较典型且较为常用的网页正文内容抽取算法,指出了它们的优缺点,然后根据校园网应用环境,设计了一种基于统计和机器学习的网页正文内容抽取算法,给出了该算法的详细实现过程及实验结果分析。  相似文献   

6.
由于现在Web上的信息量变得越来越大,单个的搜索引擎不可能包括整个网络的轨迹,网络爬虫的能力,索引数据库的大小,系统维护开销等,都限制了一个搜索引擎的查全率。因此,用户必须尝试用所有搜索引擎去找出他所要的信息。最坏的是每个引擎互相覆盖,用户会重复发现一条信息。针对现有单个引擎搜索的限制,论文提出了针对多Web源的网络爬虫的实现,将现有搜索引擎上的网页信息进行抽取,过滤、去重、排序,进行信息重组,可以获得更全面更符合人们需要的、个性化的数据结果。  相似文献   

7.
随着Internet的日益剧增,如何有效地对浩如烟海、形态各异的网页进行有效分类,以便人们能快速准确地获取所需的信息,已成为网络应用的一个重要的研究领域。本文在分析总结网页分类特征的基础上,提出了一种改进的基于特征选择的网页分类方法。该方法能够改善网页分类的精度,对此通过实验进行了验证。  相似文献   

8.
刘世清  周鹏 《教育研究》2012,(6):118-122
教育网页中的文本和动画是构成网页的元素。通过眼动实验对浏览文本—动画类网页的视觉参数进行研究,结果表明,文本—动画类网页的不同形式结构对浏览网页者所引起的注视时间、注视点个数等视觉参数有着显著的不同,在文本—动画类网页结构中,对于文本区的注视时间和注视点个数来讲,呈现出"一多三少"的特征,而对于动画区的注视时间和注视点个数来讲,却是呈现出"两多两少"的特征。根据文本—动画类教育类网页结构中进行的视觉参数差异分析,文本—动画类教育网页应采取上文下画的文画俱优选择,以画为主的上画下文区别选择,左右文画的避免选择的设计。  相似文献   

9.
随着互联网和社交网络的发展,个人信息越来越多地暴露在网络空间中,有效收集和挖掘这些信息可发现所需要的人才信息。设计了一个人才发现与推荐系统,该系统基于Hadoop平台,利用网络爬虫程序寻找网页,通过信息抽取技术获取页面内容,利用lucene的分词器提取文本中的关键词,根据关联规则算法挖掘出关联关键词,采用基于相似项的策略推荐人才。系统为企业提供了一种基于网页数据的技术人才发现和推荐工具,节约了大量时间和成本。  相似文献   

10.
关系抽取是构建如知识图谱等上层自然语言处理应用的基础。针对目前大多数关系抽取模型中忽略部分文本局部特征的问题,设计一种结合实体位置特征与多层注意力机制的双向LSTM网络结构。首先根据位置特征扩充字向量特征,并将文本信息向量化,然后将文本向量化信息输入双向LSTM模型,通过多层注意力机制,提高LSTM模型输入与输出之间的相关性,最后通过分类器输出关系获取结果。使用人工标注的百科类语料进行语义关系获取实验,结果表明,改进方法优于传统基于模式匹配的关系获取方法。  相似文献   

11.
随着网络招聘的普及,求职者需要浏览和筛选的数据越来越多,如何从大量的、非结构化的网络信息中快速而准确地抽取需要的信息非常重要。基于VIPS视觉分割算法,利用网页所呈现出来的布局结构和视觉特征,对招聘页面进行视觉分割处理,在页面分割的基础上,抽取特定块内的文本信息,实现了关键词查找抽取感兴趣的视觉块内信息。实验结果表明,基于VIPS的职位信息抽取技术能够有效抽取出招聘页面内重要的文本信息,优化了信息抽取结果。  相似文献   

12.
为解决海量数据导致用户信息过载问题,通过分析人民网、新浪网等网站的新闻网页数据,将传统方法与深度学习方法相结合,提出基于特征融合、CNN和GRU的多文档摘要方法(M-C-G)。首先对30种不同主题的新闻网页进行数据清洗,使用word2vec工具训练词向量模型,根据多种特征计算得到初步摘要结果;然后把8.3万条搜狐新闻语料文本数据输入带有CNN和GRU的Seq2Seq模型上训练;最后把初步摘要结果输入模型进行测试,得到最终摘要结果。实验结果表明,在ROUGE评测体系中采用该方法比现有方法准确率至少提高约2%,可有效帮助用户寻找有价值的文本信息。  相似文献   

13.
常用的网页分类技术大多基于普通文本分类方法,没有充分考虑到网页分类的特殊性--网页本身的半结构化特征以及网页中存在大量干扰分类的噪音信息,同时多数网页分类的测试集和训练集采源于同一个样本集而忽视了测试集中可能包含无类别样本的可能.基于向量空间模型,将样本集看成由有类别样本和无类别样本两部分组成,同时选择了样本集来自于相同的网站,在去除网页噪音基础上结合文本相似度算法和最优截尾法,提出了一种基于不完整数据集的网页分类技术LUD(Learning by Unlabeled Data)来改善分类效果,提高分类精度.实验证明:LUD算法与传统的分类方法相比较而言,不但可以提高已有类别样本的分类精度,更主要的是提供了一种发现新类别样本的方法.  相似文献   

14.
信息抽取是数据挖掘和知识发掘的重要方法,基于规则自动化或半自动化地从互联网中提取准确有效的数据是知识挖掘的关键.本文构建了一个通用文本信息抽取平台,采用多种信息匹配技术从网络数据源中抽取数据和信息,并采用规则处理方式对网页信息进行智能化抽取.该平台采用Eclipse RCP开发,对其功能可进行插件式扩充,在业务逻辑上采用规则引擎.该平台具有界面友好、易于扩展、使用方便等特点,并能够从大规模网页中自动地获取有效的数据和信息.  相似文献   

15.
www为用户提供了丰富的信息资源。然而,超文本的结构复杂且超链结构无方向性,因此很难将其用来Web可视化。本文就Web站点结构及网页特征信息的抽取技术进行了详细的阐述,其中包括网页内容读取算法、网页URL提取算法、超链路径转换算法等。  相似文献   

16.
随着互联网的发展及网络信息的指数状增长,网络上出现了大量的重复网页,降低了检索的查全率和查准率,影响了检索效率。因此,网页去重的准确度直接影响着搜索引擎的质量。本文通过对结构化文本的描述,提出了一种基于MD5的改进的网页去重算法,并从算法内容、算法特征、算法设计进行了阐述,实验表明该方法对提高查全率和查准率具有很好的效果。  相似文献   

17.
产品特征抽取是产品评论挖掘中的关键一步,针对现有产品评论挖掘方法对产品特征抽取的不足,提出了一种Apriori算法和文本模式相结合的产品特征抽取方法,并运用特征修剪算法对候选产品特征进行过滤。实验结果表明,该方法具有较好的效果。  相似文献   

18.
首先分析了互联网文本中命名实体分布特征;然后使用UIMASDK构建一个文本分析引擎在文档中寻找命名实体,将结果写入抽取信息数据库EIDB中;最后对文本中包含的命名实体的强关联关系进行了关联分析。实验证明该框架非常有效。  相似文献   

19.
浏览网页的文本信息时,一般都需要保存为可编辑文本。保存网页文本是中小学教师必须掌握的一项信息技术基本功。通常可以采用直接复制的方法保存网页文本。随着越来越多的网页采样用框架技术或采用JavaScriPt技术屏蔽鼠标操作(例如拖放、右击)和键盘操作,教师在浏览网页时遇到了无法保存网页文本的难题。笔者总结出保存网页文本的五大实用技巧,为保存网页文本提供了完整的解决方案。  相似文献   

20.
浏览网页的文本信息时,一般都需要保存为可编辑文本。保存网页文本是中小学教师必须掌握的一项信息技术基本功。通常可以采用直接复制的方法保存网页文本。随着越来越多的网页采样用框架技术或采用JavaScriPt技术屏蔽鼠标操作(例如拖放、右击)和键盘操作,教师在浏览网页时遇到了无法保存网页文本的难题。笔者总结出保存网页文本的五大实用技巧,为保存网页文本提供了完整的解决方案。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号