共查询到19条相似文献,搜索用时 203 毫秒
1.
殷波 《现代图书情报技术》2008,(Z1)
以去除冗余网页为目标,分析搜索引擎工作原理,讨论现有的去重算法,并提出基于Suffix Tree的倒排索引改进算法.实验表明该算法有着优秀的判断文档相似度的特性.最后对现有去重算法进行分析总结并提出网页去重新思路,以便进行下一步研究. 相似文献
2.
基于用户查询关键词的网页去重方法研究 总被引:2,自引:0,他引:2
在研究传统的基于特征码去重算法的基础上,针对元搜索引擎中网页重复现象,提出一种基于用户查询关键词的网页去重方法,提高元搜索引擎检索质量,并且介绍算法的实现过程,通过实验验证算法的有效性。 相似文献
3.
4.
本文从分析国内外网页防篡改系统的现状开始,分析了各种网页防篡改技术的优缺点,研究并指出了文件系统过滤驱动技术是一种简单、高效、安全性又极高的防篡改技术,是未来网页防篡改技术的发展的一个重要方向。 相似文献
5.
网页归档发端于上个世纪90年代中期,一些国家纷纷建立起网页归档项目,由于侧重点不同,归档项目的类型也不同。网页归档项目是一个系统工程,涉及诸多方面,如法律、资金、主体、采集策略、与采集相关的技术问题、国际合作等。研究网页归档项目需要把这些问题分解及归纳,呈现出这一事物发展的脉络。本文简要回顾网页归档项目发展状况,并对美国网页归档项目LCWA(Library of Congress Web Archives,国会图书馆网络档案馆)的发展状况进行分析。 相似文献
6.
政府网站资源具有历史价值、文化价值、研究价值和经济价值,网页归档理应受到重视.本文对政府网站网页归档的现状进行分析,指出档案部门网页归档面临的问题,并提出根据网页栏目特点明确归档范围和保管期限、采取适当的网页归档技术、加强整理及利用、提供法律层面的保障等建议. 相似文献
7.
8.
本篇论文以去除网页噪声,整合网页内容为目标,提出了面向主题型网页,根据网页规划布局抽取网页内容的方法.算法首先分析原始网页的DOM结构生成标签树,再根据标签分类和对应节点的信息对标签树自底向上进行划分,并依据划分块的文字密度,链接密度及图片密度,分类信息块.进一步,提炼网页主题的文本特征向量,采用基于词条空间的文本相似度计算,获取划分块的主题相关度,以主题相关度为量化基准剔除噪声,识别网页主旨内容,重构页面描述.这一算法被应用于面向人才资讯的信息采集项目中,实验表明,算法适用于主题型网页的"去噪"及内容提取,具体应用中有较理想的表现. 相似文献
9.
一种HTML网页净化方法 总被引:35,自引:1,他引:35
Web网页中的“噪音”是影响基于网页内容的Web应用系统工作质量的一个重要因素 ,快速准确地清除网页中的噪音内容是提高Web应用服务质量的关键技术之一。本文提出一种网页净化的方法及相应算法。该方法以一组启发式规则为基础 ,利用信息检索的技术以及Web网页的特征 ,提取网页的主题以及和主题相关的内容 ,从而达到网页净化的目的。该方法已经应用于搜索引擎系统 (天网 )的网页消重过程以及一个网页自动分类系统。通过网页净化对原有系统质量的改进验证了本文提出方法的正确性和有效性。 相似文献
10.
随着互联网技术的发展、普及且互联网在信息宣传上商业价值日渐凸现,使得互联网作为世界上第三大媒体深入人们生活的方方面面。为了满足市场对网页设计人才的需要,各大高职院校都相继开设网页设计课程。但是,网页设计课的教学与现实有一定差距。本文就在分析网页设计教学的基础上对课程改革做进一步的探索。 相似文献
11.
12.
基于主动学习的Web页面信息抽取 总被引:4,自引:0,他引:4
本文提出一种基于主动学习的Web页面信息抽取方法 ,可以使用户在标记少量具有代表性的样本页面的情况下 ,有效地提高信息抽取规则的覆盖性 ,从而使包装器具有一定的自适应性。 相似文献
13.
Midori Kanazawa 《Public Library Quarterly》2014,33(4):279-295
This study is the first investigation into the types of contents in young adult (YA) web pages in public library websites in Japan. The study reveals that YA web pages, in general, place more emphasis on providing guidance on YA services, on helping young adults with regular learning, on the use of information resources for reference services, and on improving the communication abilities for young adults, rather than on providing research assistance to adults on YA services. Furthermore, an IRIS (Information Reference Instructional Sharing) Contents Model is proposed for YA web pages, whereas an IRIR (Information Reference Instructional Research) Contents Model is presented for children’s web pages, based on the differences between the contents of YA web pages and those of children’s web pages. 相似文献
14.
本文借鉴文献计量学、科学计量学、信息计量学的理论和相关经验,以“单一网站”为结构尺度,以“周”为时间尺度构造样本,运用实证分析方法,得到具有统计意义的结果:仅存在正式交流过程的单一网站,其成熟期内的网页累积数服从二次曲线增长规律,最后指出本文的局限性和未来研究方向。 相似文献
15.
16.
学科门户智能搜索引擎的设计与构建——农业史门户搜索引擎的实验 总被引:1,自引:0,他引:1
面对搜索引擎基于关键词全文检索导致检索准确度低和学科信息门户加工描述只到站点级别的问题,作者提出了将搜索引擎和学科信息门户结合构建智能学科门户搜索引擎的建议--在经过学科专家筛选的、学科信息门户目录中的高质量网站中自动收集网页,形成网页索引,利用自动标引与自动分类方法对收集到的网页进行标引和分类,最后通过分类浏览目录与主题词检索的方式,向用户提供学术资源网页的查找.文章重点介绍了智能学科门户搜索引擎的网页采集、网页自动标引与自动分类及用户接口的设计与实现,并对该搜索引擎存在的问题进行了分析和讨论. 相似文献
17.
互联网上免费的中文学术资源数量庞大,但实用的专门检索工具仍然或缺.文章以网络中文学术文献的识别与检索为目标,调查分析网络学术文献网页的特征,并以非学术文献网页作为参照,验证所发现特征的可靠性.研究结果显示,学术文献网页在关键词词频、链接数量和相关链接比例等特征方面与非学术文献网页具有明显差别,差异程度都大于75%,属于程度明显,能较好地用于区分学术文献网页与非学术文献网页,为今后系统开发学术文献网页的自动化识别工具提供了依据和理论支持. 相似文献
18.
防网页篡改技术比较分析 总被引:5,自引:0,他引:5
电子政务建设中,各级政府网站在为公众提供了更为便利的政务服务的同时,也遭受着各种破坏活动的威胁,其中以篡改网页最为严重。文章比较了常见的防网页篡改技术的功能、特点、技术评估,分析了全新防网页篡改系统技术的功能、需求及其技术实现。 相似文献
19.