首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
Google的搜索技巧1.关于布尔逻辑“与”——and,在Google查询时不需要使用“and”,因为Google会在关键词之间自动添加“and”,如果想逐步缩小搜索范围,只需输入更多的关键词;“或”——OR,要大写。在逻辑符号前后要加空格,否则会漏检,关键词间也要注意使用空格对结果的影响,如:输入“飞机发动机”,与“飞机发动机”检索结果不一样,前者作为一个词去找,后者则是作为两词求“与”逻辑。2.网页快照Google可贮存网页的快照,当网页服务器暂时中断时仍可浏览该网页的内容。若找不到服务器,则Google暂存的网页可以救急,尽管…  相似文献   

2.
树编辑距离在Web信息抽取中的应用与实现*   总被引:1,自引:0,他引:1  
引入编辑距离的概念,探讨如何构造标签树,并利用标签树匹配算法来量化网页结构相似度。该算法被应用于Web信息抽取,通过URL相似度算法进行样本网页的粗聚类,进一步采用树的相似度匹配算法实现细聚类,从而获取模板网页。在模板网页的基础上,再次引入结构相似度算法并结合基于模板网页的抽取规则实现网页的自动化抽取。实验证明,该算法的引入能够有效提高包装器的抽取精度和半自动化能力。  相似文献   

3.
针对专利资源,研究一种有效地从专利数据库中获取高质量双语对译语料的方法.该方法利用网页的URL命名特点获取专利数据的详细网页,以实现网页的批量下载,并通过网页解析,采用正则匹配表达式提取出网页上的所需信息,合并数据后形成双语对照的语料数据库.  相似文献   

4.
PageRank技术分析及网页重要性的综合评价模型   总被引:3,自引:0,他引:3  
过仕明 《图书馆论坛》2006,26(1):80-81,79
分析了搜索引擎Google的PageRank技术及其存在的不足,并结合搜索引擎的第一定律和用户对页面的超文本链的点击率判断网页重要性的方法,建立了网页重要性的综合评价模型。  相似文献   

5.
张艳 《图书情报工作》2010,54(14):107-130
提出一个RSS级别的网页主题内容抽取方法与系统,利用RSS feed中的少量entry信息训练得到主题内容模板,通过模板可以对RSS feed下的所有网页进行主题内容抽取。该方法支持分别抽取网页的标题、正文、类别等信息;另外,该方法有自适应机制,能实时侦测模板的变化。从实验结果来看,该方法和系统有很高的召回率和准确率。  相似文献   

6.
《网络传播》2008,(4):8
Google正式发布了网页版的Google Earth SKY,称为Google Sky。 和Google Earth里面的SKY模式类似,网民可以通过Google Sky搜索行星、收听Google Earth SKY podcast、观看来自哈勃望远镜的图片及浏览历史星空图。  相似文献   

7.
主题抽取是自然语言处理研究的重要问题之一.目前流行的方法是"词典 匹配",但该方法用于处理动态变化的网页信息时,词典难于及时更新等弊病就表现出来.本文作者在研究中文新闻网页内容、结构特点的基础上,提出了一种利用Web页面结构无需词典的主题抽取算法.我们使用该方法对新华网财经新闻语料1000篇进行主题抽取实验,并与手工抽取的主题进行比较,结果表明,重合率高达93%以上.  相似文献   

8.
新一代中文Coogle学术搜索技术与传统的中文Google网页搜索功能相比在搜索技术方面具有新的突破。本文在比较二者特点的基础上阐述了中文Google学术搜索网站特点及其在外文信息检索中的应用.并结合中文Coogle学术搜索技术的特点对其应用发展进行了展望。  相似文献   

9.
【目的】论述Web信息抽取技术在新闻舆情分析中的应用,为舆情虚假信息甄别、舆论引导提供新方法,从而避免对大众的思维、想法等造成不良影响。【方法】研究提出了基于行块分布函数和基于统计与网页结构两种不同的新闻正文信息抽取方法,使得在对Web新闻数据采集和存储的基础上,正文信息抽取更加高效和准确。【结果】两种Web信息抽取技术可以广泛应用于海量新闻数据分析、舆情监测等应用场景。【结论】通过基于行块分布函数的抽取方法和基于统计信息与网页结构的抽取方法,能够分别对轻量网页和大流量网页抽取信息时表现更优。  相似文献   

10.
二部图法分析模型是将Web页的内容信息和超链接信息相结合给出的一种基于分类方法的算法,利用二部图可以求出网页的最大匹配与完全匹配,挖掘出隐含的知识社群,能更准确地实现对用户的合理定位。  相似文献   

11.
ABSTRACT

Digital collections of full-text e-books are proliferating on the Web and provide a wealth of open content for students. To examine whether academic libraries are providing a digital gateway to these resources, ten e-book titles from open digital collections were searched in the online catalogs and Web pages of ten academic libraries serving distance learners. Only three of the digital collection e-books were available from any of the library catalogs, and none were found on library Web pages. Availability of the ten e-book titles through Google and other digital discovery tools also had mixed results. Continued projects for improved delivery of open online content are necessary. In order to fulfill their role as digital gateways for their academic communities, libraries must pursue metadata standards to support cross-searching, collaborative projects, and development of e-resource search software, which integrates with the library catalog.  相似文献   

12.
提出人才网页自动识别系统设计,实现对Nutch定向采集系统抓取的高校网站页面进行人才描述网页自动识别。识别过程中使用自动获取的网页的URL特征、网页Title标签特征、链接文字特征以及网页文本内容特征,使用人名词表、正面特征词表、负面特征词表对各项识别特征进行匹配以计算特征值,借助开源软件LibSVM实现基于多特征值的人才网页自动识别。  相似文献   

13.
网络上科学信息的时效性测量   总被引:3,自引:0,他引:3  
时效性是影响网上信息质量的重要因素.本文以网上可公共获取的科学信息为对象,采用层次分析法分配信息时效性各测量指标的权重,选择数学、生命科学、物理、材料科学等8个学科门类的32个主题词进行跟踪查询,抽取Google、Yahoo和Altavista搜索引擎返回的前50个页面作为测量样本.测量结果为:网络科学信息时效性的平均得分为2.6482(总体样本2814个),仅有34.90%的网页时效性得分高于平均值.不同域名中,.gov测量结果最好;在不同资源类型方面,虚拟研究社区与博客的时效性最好.然而,时效性只是网络信息的质量特征之一,并不能仅仅根据时效性判断信息的质量.总的说来,网络科学信息的时效性有待提高.本研究中提出的时效性测评框架及方法有利于帮助研究人员和公众在查询信息时对其时效性作出初步判断.  相似文献   

14.
基于关系抽取的企业竞争情报获取与融合框架   总被引:3,自引:1,他引:2  
网页蕴含了大量的企业竞争情报.然而,现有的企业竞争情报获取系统还缺乏直接从网页中获取竞争情报的能力.本文提出了一个基于网页实体关系抽取与融合的企业竞争情报获取系统框架.该系统通过对网页内容的抽取与融合,最终形成可信的企业竞争情报数据.论文首先讨论面向Web的企业竞争情报自动获取系统的总体结构,并重点阐述了其中的企业竞争情报获取方法、企业竞争情报融合机制等问题及其解决方案.本文的工作为进一步建立实用的Web竞争情报获取与融合系统奠定了基础.  相似文献   

15.
This paper examines the way in which Taiwan is connected to on the World Wide Web in South Korea. The Web may represent a new channel for the communication among a global society's members and a reflection of international relations. Thus, it is necessary to explore the distribution of relations formed and maintained on the Web and the contents of those relations as well. This paper traced South Korean Web pages hyperlinking pages hosted in Taiwan, using a search engine. The context in which Taiwan appears in South Korean pages was also examined. Specifically, the structure of hyperlink connectivity from South Korea and Taiwan was analyzed. It was found that the hyperlink network was very sparsely connected in terms of the number of South Korean Web pages hyperlinking to the pages of the other country. The contents of hyperlink-connected information were categorized and analyzed. The most often occurring content category was ‘Computers & Internet’ in Taiwan. This suggests that South Korean Web users including organizations are more interested in computer-related products in Taiwan than any other things. The implication of this paper is to examine the state and form of international information flow from South Korea to Taiwan based on the patterns of hyperlink relations inscribed on South Korean Web pages and the type and content of information.  相似文献   

16.
依据Web 页面和W eb 站点可以被搜集和分类, 文章探讨的主题是:WWW 构成图书馆。结论是:Web 不是数字化图书馆, 但是图书馆可以从Web 中选择搜集材料。Web 文献有两种变化形式。第一种变化形式是本文所谈论的“持续性”; 第二种变化形式是W eb 页面或Web 站点信息的变化。本文力求更进一步认识Web 页面和Web 站点的生存期, 生存期的变化会影响具有Web 信息的图书馆的完整性和有效性, 然而如果能够认识这些变化就可以进行控制和管理。  相似文献   

17.
Web sites are increasingly used by academic libraries to promote key services and collections to teaching faculty. This study analyzes the content, location, language, and technological features of fifty-four academic library Web pages designed especially for faculty to expose patterns in the development of these pages.  相似文献   

18.
ABSTRACT

The primary purpose of an academic library Web site is to serve as a portal to library-acquired content. Navigational design of a library Web site affects the user's ability to find and access content. At Albertsons Library, the goal of the navigational design of the Web site is to mimic user behavior on the Web site to help them access information and articles from over 300 different library vendors. Coordinating with different vendors makes tracking the navigational flow of user behavior difficult with the tool Google Analytics. Using the events feature in Google Analytics, the team responsible for Web design was able to track user flow, and was able to quantify how many users were actual “drop-offs” versus those that were clicks into library resources. Decisions made after acquiring these data resulted in a Web site with a 10 percent or less bounce rate, and decreased the number of clicks required for users accessing the library's content.  相似文献   

19.
基于个体概念语义关系的微内容发现研究   总被引:1,自引:0,他引:1  
传统的超文本标记语言只能显示而不能使计算机理解页面信息,导致传统的基于关键词的检索工具的查准率、查全率和智能化程度都较低.虽然语义网可以解决计算机对页面信息的理解问题,但以往基于本体的语义匹配算法通常是面向类概念的,在精度上不能满足微内容的发现需求.本文面向微内容检索应用,在分析了个体概念的语义特征的基础上,提出了基于语义关系的个体匹配规则、索引结构和相应的语义检索算法.最后,通过实验验证,证明了基于个体语义关系的聚合机制具有更高的聚合细腻度,所提出的语义检索算法在面向微内容的检索应用中是有效的.  相似文献   

20.
提出一种基于内容规则的网页净化算法。包含两部分,先提出一种同层表间的比较迭代算法,通过迭代的方式对于网页中的噪声内容进行层层剥离。为进一步判断网页中锚文本与网页主题的相关性,又提出一种基于修正的编辑距离的计算锚文本的主题相似性的算法,在一定程度上考虑了网页的语义因素。该算法具有更高的准确度,同时具有很低的时间复杂度。实验结果表明,在对海量网页进行净化处理时,算法具有良好的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号