首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
基于ID3分类算法的深度网络爬虫设计   总被引:1,自引:0,他引:1  
针对目前Web信息挖掘中存在的信息覆盖率较低的问题,对网络爬虫系统进行研究,提出一种针对深度网络的、基于ID3分类算法的Web页面收集方法。对Web页面的特征进行分析、处理和分类,提取包含深度网页的表单,通过自动提交这些表单来进行更深和更广的页面获取,实验表明该方法可以有效减少现有搜索引擎的盲区,改善搜索结果。  相似文献   

2.
提出了Web页面信息的自动抽取思想,并使用WebBrowser和DOM技术实现了Web页面上网页元素查找、表单自动填写、表单自动提交、自动获得查询结果并自动抽取所需信息的技术,从而实现了Web页面信息的自动抽取。文中还给出了这一方法的实现细节和示例代码。  相似文献   

3.
主要介绍了设计开发Web主题信息采集系统的一个核心算法——超链接主题预测算法。文章在已有理论的基础上,通过实验分析,发现超链接的主题主要取决于三个因素:父网页的主题相关度、锚文本的主题相关度和Web子图的链接结构特性,从而提出了基于Web页面内容和链接结构的超链接主题预测算法,系统评价结果显示该算法有很好的效果。  相似文献   

4.
Web多媒体网页中多媒体资源的相关文本对于描述Web多媒体资源具有重要意义,利用Web多媒体网页搜集器搜集网络中包含多媒体资源的网页,对网页进行区域分析.根据多媒体资源所在网页中的嵌入形式,设计Web多媒体资源相关文本信息提取系统,准确提取Web页面中多媒体资源的相关文本.实验结果表明,该系统提取Web多媒体资源的相关文本准确率较高,有助于提高多媒体信息检索系统的查全率与查准率.  相似文献   

5.
依据Web 页面和W eb 站点可以被搜集和分类, 文章探讨的主题是:WWW 构成图书馆。结论是:Web 不是数字化图书馆, 但是图书馆可以从Web 中选择搜集材料。Web 文献有两种变化形式。第一种变化形式是本文所谈论的“持续性”; 第二种变化形式是W eb 页面或Web 站点信息的变化。本文力求更进一步认识Web 页面和Web 站点的生存期, 生存期的变化会影响具有Web 信息的图书馆的完整性和有效性, 然而如果能够认识这些变化就可以进行控制和管理。  相似文献   

6.
主要介绍了我们设计的Web主题信息采集系统的一项核心工作——Web信息主题的识别,主题识别算法从构造专业性较强的主题词典着手,充分分析和考虑Web网页文本的特点,从而大大提高了主题信息采集的效率和精度,该算法同样适用于其他领域的主题信息识别。  相似文献   

7.
网页重现是利用相关技术方法、工具来恢复网页原貌。文章结合Warrick和Past Web Browser等实际案例分析了基于网络资源长期保存的网页重现技术在网站恢复、网站重建、历史页面重现应用的方法、过程、效果,为相关研究提供了参考价值。该文为2009年第七期“网络信息资源保存”专题文章之一。  相似文献   

8.
主题抽取是自然语言处理研究的重要问题之一.目前流行的方法是"词典 匹配",但该方法用于处理动态变化的网页信息时,词典难于及时更新等弊病就表现出来.本文作者在研究中文新闻网页内容、结构特点的基础上,提出了一种利用Web页面结构无需词典的主题抽取算法.我们使用该方法对新华网财经新闻语料1000篇进行主题抽取实验,并与手工抽取的主题进行比较,结果表明,重合率高达93%以上.  相似文献   

9.
一种HTML网页净化方法   总被引:35,自引:1,他引:35  
张志刚  陈静  李晓明 《情报学报》2004,23(4):387-393
Web网页中的“噪音”是影响基于网页内容的Web应用系统工作质量的一个重要因素 ,快速准确地清除网页中的噪音内容是提高Web应用服务质量的关键技术之一。本文提出一种网页净化的方法及相应算法。该方法以一组启发式规则为基础 ,利用信息检索的技术以及Web网页的特征 ,提取网页的主题以及和主题相关的内容 ,从而达到网页净化的目的。该方法已经应用于搜索引擎系统 (天网 )的网页消重过程以及一个网页自动分类系统。通过网页净化对原有系统质量的改进验证了本文提出方法的正确性和有效性。  相似文献   

10.
面向Deep Web的动态竞争情报智能采集策略   总被引:1,自引:0,他引:1  
企业间竞争互动的高强度与高速度,突显出竞争情报的时效性,动态竞争情报是企业在复杂多变的环境下取得成功的关键.Web资源可分为surface Web和Deep Web.Surface Web由静态网页构成,Deep Web信息资源由动态页面、商业数据库、实时数据和企业内部数据库组成,具有质量高、实时性强、易于深度分析的特点,是企业动态竞争情报的重要来源,但常规网络信息采集工具不能直接获得这些信息.针对动态竞争情报采集中存在的信息源选择、信息抽取、信息分析中存在的障碍,提出面向Deep Web的动态竞争情报智能采集策略,详细探讨了动态数据源的智能选择、查询结果的智能抽取、智能化的数据集成和智能分析策略.  相似文献   

11.
面对搜索引擎基于关键词全文检索导致检索准确度低和学科信息门户加工描述只到站点级别的问题,作者提出了将搜索引擎和学科信息门户结合构建智能学科门户搜索引擎的建议--在经过学科专家筛选的、学科信息门户目录中的高质量网站中自动收集网页,形成网页索引,利用自动标引与自动分类方法对收集到的网页进行标引和分类,最后通过分类浏览目录与主题词检索的方式,向用户提供学术资源网页的查找.文章重点介绍了智能学科门户搜索引擎的网页采集、网页自动标引与自动分类及用户接口的设计与实现,并对该搜索引擎存在的问题进行了分析和讨论.  相似文献   

12.
Web页面中文文本主题的自动提取研究   总被引:14,自引:1,他引:13  
韩客松  王永成  滕伟 《情报学报》2001,20(2):217-223
Internet上的内容日益增多 ,搜索引擎返回的结果往往冗长。本文首先讨论Web页面文本与一般文本的四个不同点 ,然后介绍一种以统计方法为主、以匹配校验为辅的Web页面中文文本主题自动提取方法 ,它能帮助用户在最短时间内了解当前页面的主题。实验显示 ,所提取的前15个字串 ,反映主题的平均正确率在 85%以上 ,而处理时间仅为几十到几百毫秒。  相似文献   

13.
一种基于网页分割的Web信息检索方法   总被引:2,自引:0,他引:2  
提出一种基于网页内容分割的Web信息检索算法。该算法根据网页半结构化的特点,按照HTML标记和网页的内容将网页进行区域分割。在建立HTML标记树的基础上,利用了的内容相似性和视觉相似性进行节点的整合。在检索和排序中,根据用户的查询,充分利用了区域信息来对相关的检索结果进行排序。  相似文献   

14.
The most common approach to measuring the effectiveness of Information Retrieval systems is by using test collections. The Contextual Suggestion (CS) TREC track provides an evaluation framework for systems that recommend items to users given their geographical context. The specific nature of this track allows the participating teams to identify candidate documents either from the Open Web or from the ClueWeb12 collection, a static version of the web. In the judging pool, the documents from the Open Web and ClueWeb12 collection are distinguished. Hence, each system submission should be based only on one resource, either Open Web (identified by URLs) or ClueWeb12 (identified by ids). To achieve reproducibility, ranking web pages from ClueWeb12 should be the preferred method for scientific evaluation of CS systems, but it has been found that the systems that build their suggestion algorithms on top of input taken from the Open Web achieve consistently a higher effectiveness. Because most of the systems take a rather similar approach to making CSs, this raises the question whether systems built by researchers on top of ClueWeb12 are still representative of those that would work directly on industry-strength web search engines. Do we need to sacrifice reproducibility for the sake of representativeness? We study the difference in effectiveness between Open Web systems and ClueWeb12 systems through analyzing the relevance assessments of documents identified from both the Open Web and ClueWeb12. Then, we identify documents that overlap between the relevance assessments of the Open Web and ClueWeb12, observing a dependency between relevance assessments and the source of the document being taken from the Open Web or from ClueWeb12. After that, we identify documents from the relevance assessments of the Open Web which exist in the ClueWeb12 collection but do not exist in the ClueWeb12 relevance assessments. We use these documents to expand the ClueWeb12 relevance assessments. Our main findings are twofold. First, our empirical analysis of the relevance assessments of 2  years of CS track shows that Open Web documents receive better ratings than ClueWeb12 documents, especially if we look at the documents in the overlap. Second, our approach for selecting candidate documents from ClueWeb12 collection based on information obtained from the Open Web makes an improvement step towards partially bridging the gap in effectiveness between Open Web and ClueWeb12 systems, while at the same time we achieve reproducible results on well-known representative sample of the web.  相似文献   

15.
基于web2.0的学科信息门户设计与实现   总被引:24,自引:0,他引:24  
web2.0是近两年兴起于web服务领域的一系列软件、标准和模式的总称,它在图书馆领域也逐渐得到应用。本文分析了传统的学科信息门户建设中的不足和web2.0模式的特征,提出了web2.0模式下学科信息门户的要求,进而在中国社会科学信患门户的建设中进行了试验。  相似文献   

16.
用Word2000制作实用网页的研究   总被引:1,自引:0,他引:1  
李冠盛 《图书馆论坛》2002,22(5):66-69,139
介绍用Word200,FrontPage2000制作实用网页的研究,网页收集的内容,界面设计、网页上传等。  相似文献   

17.
网络上科学信息的时效性测量   总被引:3,自引:0,他引:3  
时效性是影响网上信息质量的重要因素.本文以网上可公共获取的科学信息为对象,采用层次分析法分配信息时效性各测量指标的权重,选择数学、生命科学、物理、材料科学等8个学科门类的32个主题词进行跟踪查询,抽取Google、Yahoo和Altavista搜索引擎返回的前50个页面作为测量样本.测量结果为:网络科学信息时效性的平均得分为2.6482(总体样本2814个),仅有34.90%的网页时效性得分高于平均值.不同域名中,.gov测量结果最好;在不同资源类型方面,虚拟研究社区与博客的时效性最好.然而,时效性只是网络信息的质量特征之一,并不能仅仅根据时效性判断信息的质量.总的说来,网络科学信息的时效性有待提高.本研究中提出的时效性测评框架及方法有利于帮助研究人员和公众在查询信息时对其时效性作出初步判断.  相似文献   

18.
基于Web结构挖掘的网络动态竞争情报采集研究   总被引:2,自引:0,他引:2       下载免费PDF全文
通过挖掘蕴含在Web内部结构和网页中的关联信息与结构模式,Web结构挖掘为企业实现多维度和多层面的竞争情报采集提供了一种有效途径。基于Web结构挖掘的网络动态竞争情报采集方法有:URL挖掘、Web内部结构挖掘和超链接挖掘。图1。参考文献15。  相似文献   

19.
SUMMARY

Archive repository web pages have become more sophisticated in the past several years, and information about repository holdings is often readily available online. However, so long as full archival records are not available electronically, archivists will have to contend with the increase in reference requests from remote users. The author surveyed one hundred university archives web pages to examine the current availability of archival records on the Web and to explore the possible effects of this presence on archivists' efforts to provide remote users with access to repository holdings through “ask an archivist” forms, electronic mail, and other modes of communication.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号