首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
以去除冗余网页为目标,分析搜索引擎工作原理,讨论现有的去重算法,并提出基于Suffix Tree的倒排索引改进算法.实验表明该算法有着优秀的判断文档相似度的特性.最后对现有去重算法进行分析总结并提出网页去重新思路,以便进行下一步研究.  相似文献   

2.
基于用户查询关键词的网页去重方法研究   总被引:2,自引:0,他引:2  
在研究传统的基于特征码去重算法的基础上,针对元搜索引擎中网页重复现象,提出一种基于用户查询关键词的网页去重方法,提高元搜索引擎检索质量,并且介绍算法的实现过程,通过实验验证算法的有效性。  相似文献   

3.
秦杰  谢蕙  王春云 《图书情报工作》2010,54(15):113-116
针对元搜索结果中的网页重复问题,把基于最长公共子序列(Longest Common Subsequence,简称LCS)的网页去重方法应用到元搜索引擎的去重中,提出基于SLCS(首字母S表示Summary)的元搜索去重方法。在获得网页文档摘要后,根据查询词在语句中出现的次数和语句长度,计算摘要语句集合中每个语句权重,提取权重最大的语句作为网页摘要特征语句,通过比较摘要特征语句间的LCS,计算出结果网页相似性,以提高元搜索引擎的检索质量,实验表明该方法具有较高的准确率。  相似文献   

4.
本文从分析国内外网页防篡改系统的现状开始,分析了各种网页防篡改技术的优缺点,研究并指出了文件系统过滤驱动技术是一种简单、高效、安全性又极高的防篡改技术,是未来网页防篡改技术的发展的一个重要方向。  相似文献   

5.
王烁  丁宇 《云南档案》2013,(2):16-18
网页归档发端于上个世纪90年代中期,一些国家纷纷建立起网页归档项目,由于侧重点不同,归档项目的类型也不同。网页归档项目是一个系统工程,涉及诸多方面,如法律、资金、主体、采集策略、与采集相关的技术问题、国际合作等。研究网页归档项目需要把这些问题分解及归纳,呈现出这一事物发展的脉络。本文简要回顾网页归档项目发展状况,并对美国网页归档项目LCWA(Library of Congress Web Archives,国会图书馆网络档案馆)的发展状况进行分析。  相似文献   

6.
尹哲 《北京档案》2016,(2):21-22
政府网站资源具有历史价值、文化价值、研究价值和经济价值,网页归档理应受到重视.本文对政府网站网页归档的现状进行分析,指出档案部门网页归档面临的问题,并提出根据网页栏目特点明确归档范围和保管期限、采取适当的网页归档技术、加强整理及利用、提供法律层面的保障等建议.  相似文献   

7.
一个基于特征向量的近似网页去重算法   总被引:1,自引:0,他引:1  
在搜索引擎的检索结果页面中,用户经常会得到内容相似的重复页面,它们中大多是由于网站之间转载造成的。为提高检索效率和用户满意度,提出一种基于特征向量的大规模中文近似网页检测算法DDW(Detect near—Duplicate Web Pages)。试验证明,比起其他网页去重算法(I—Match),DDW具有很好的抵抗噪声的能力及近似线性的时间和空间复杂度,在大规模实验中获得良好测试结果。  相似文献   

8.
本篇论文以去除网页噪声,整合网页内容为目标,提出了面向主题型网页,根据网页规划布局抽取网页内容的方法.算法首先分析原始网页的DOM结构生成标签树,再根据标签分类和对应节点的信息对标签树自底向上进行划分,并依据划分块的文字密度,链接密度及图片密度,分类信息块.进一步,提炼网页主题的文本特征向量,采用基于词条空间的文本相似度计算,获取划分块的主题相关度,以主题相关度为量化基准剔除噪声,识别网页主旨内容,重构页面描述.这一算法被应用于面向人才资讯的信息采集项目中,实验表明,算法适用于主题型网页的"去噪"及内容提取,具体应用中有较理想的表现.  相似文献   

9.
一种HTML网页净化方法   总被引:35,自引:1,他引:35  
张志刚  陈静  李晓明 《情报学报》2004,23(4):387-393
Web网页中的“噪音”是影响基于网页内容的Web应用系统工作质量的一个重要因素 ,快速准确地清除网页中的噪音内容是提高Web应用服务质量的关键技术之一。本文提出一种网页净化的方法及相应算法。该方法以一组启发式规则为基础 ,利用信息检索的技术以及Web网页的特征 ,提取网页的主题以及和主题相关的内容 ,从而达到网页净化的目的。该方法已经应用于搜索引擎系统 (天网 )的网页消重过程以及一个网页自动分类系统。通过网页净化对原有系统质量的改进验证了本文提出方法的正确性和有效性。  相似文献   

10.
程勇兵 《大观周刊》2011,(35):93-93
随着互联网技术的发展、普及且互联网在信息宣传上商业价值日渐凸现,使得互联网作为世界上第三大媒体深入人们生活的方方面面。为了满足市场对网页设计人才的需要,各大高职院校都相继开设网页设计课程。但是,网页设计课的教学与现实有一定差距。本文就在分析网页设计教学的基础上对课程改革做进一步的探索。  相似文献   

11.
用Word2000制作实用网页的研究   总被引:1,自引:0,他引:1  
李冠盛 《图书馆论坛》2002,22(5):66-69,139
介绍用Word200,FrontPage2000制作实用网页的研究,网页收集的内容,界面设计、网页上传等。  相似文献   

12.
基于主动学习的Web页面信息抽取   总被引:4,自引:0,他引:4  
张清军  朱才连 《情报学报》2004,23(6):667-671
本文提出一种基于主动学习的Web页面信息抽取方法 ,可以使用户在标记少量具有代表性的样本页面的情况下 ,有效地提高信息抽取规则的覆盖性 ,从而使包装器具有一定的自适应性。  相似文献   

13.
This study is the first investigation into the types of contents in young adult (YA) web pages in public library websites in Japan. The study reveals that YA web pages, in general, place more emphasis on providing guidance on YA services, on helping young adults with regular learning, on the use of information resources for reference services, and on improving the communication abilities for young adults, rather than on providing research assistance to adults on YA services. Furthermore, an IRIS (Information Reference Instructional Sharing) Contents Model is proposed for YA web pages, whereas an IRIR (Information Reference Instructional Research) Contents Model is presented for children’s web pages, based on the differences between the contents of YA web pages and those of children’s web pages.  相似文献   

14.
本文借鉴文献计量学、科学计量学、信息计量学的理论和相关经验,以“单一网站”为结构尺度,以“周”为时间尺度构造样本,运用实证分析方法,得到具有统计意义的结果:仅存在正式交流过程的单一网站,其成熟期内的网页累积数服从二次曲线增长规律,最后指出本文的局限性和未来研究方向。  相似文献   

15.
Web概念挖掘中标引源加权方案初探   总被引:15,自引:3,他引:15  
通过对随机采集的1 800篇涉及经济、心理、文学、教育4个学科类别的网页进行人工自由标引、人工打分、词频统计,并进行统计数据的分析,得出网页内容主题与网页题名、文章标题、第一段首句、第一段尾句、第二段首句、第二段尾句、首段、尾段以及HTML标记等12个标引源的关系,分析中文网页的不同部位的主题表达能力,并为之设计加权标引时的适当权值。在我们的Web文本挖掘系统中,进行加权的对比实验表明,此权重方案优于前人的方案。  相似文献   

16.
面对搜索引擎基于关键词全文检索导致检索准确度低和学科信息门户加工描述只到站点级别的问题,作者提出了将搜索引擎和学科信息门户结合构建智能学科门户搜索引擎的建议--在经过学科专家筛选的、学科信息门户目录中的高质量网站中自动收集网页,形成网页索引,利用自动标引与自动分类方法对收集到的网页进行标引和分类,最后通过分类浏览目录与主题词检索的方式,向用户提供学术资源网页的查找.文章重点介绍了智能学科门户搜索引擎的网页采集、网页自动标引与自动分类及用户接口的设计与实现,并对该搜索引擎存在的问题进行了分析和讨论.  相似文献   

17.
互联网上免费的中文学术资源数量庞大,但实用的专门检索工具仍然或缺.文章以网络中文学术文献的识别与检索为目标,调查分析网络学术文献网页的特征,并以非学术文献网页作为参照,验证所发现特征的可靠性.研究结果显示,学术文献网页在关键词词频、链接数量和相关链接比例等特征方面与非学术文献网页具有明显差别,差异程度都大于75%,属于程度明显,能较好地用于区分学术文献网页与非学术文献网页,为今后系统开发学术文献网页的自动化识别工具提供了依据和理论支持.  相似文献   

18.
防网页篡改技术比较分析   总被引:5,自引:0,他引:5  
电子政务建设中,各级政府网站在为公众提供了更为便利的政务服务的同时,也遭受着各种破坏活动的威胁,其中以篡改网页最为严重。文章比较了常见的防网页篡改技术的功能、特点、技术评估,分析了全新防网页篡改系统技术的功能、需求及其技术实现。  相似文献   

19.
浅谈Web页面的可用性设计   总被引:2,自引:0,他引:2  
从用户可用性的角度出发 ,介绍了 Web页面的可用性设计的一些基本原则和看法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号