首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 187 毫秒
1.
Web多媒体网页中多媒体资源的相关文本对于描述Web多媒体资源具有重要意义,利用Web多媒体资源所在的网页中的嵌入形式,设计Web多媒体资源相关文本信息提取系统,准确提取Web页面中多媒体资源的相关文本。实验结果表明,该系统提取Web多美资源的相关文本准确率较高,有助于提高多媒体信息检索系统的查全率与查准率。  相似文献   

2.
基于结构对Web网页区域分割与语义识别,实现网页语义理解,给出Web多媒体相关文本的定义,并结合其分布特点,采用个体级、区域级、网页级三级分析方法分别进行提取,从而实现Web多媒体相关文本准确提取。  相似文献   

3.
在数字图书馆Web 学术信息资源的优化采集中,有效结合网页空间特征、内容特征和标签信息对网页进 行分块,研究对分块结果进行识别和合并,然后输出网页的主题文本和相关链接块集合,最后通过实验分析该方法能 够进一步去除页面中噪音、准确地分析页面的主题相关性和提高Web 主题信息采集的质量。  相似文献   

4.
1、两个概念 1)Web Page:网页,亦称信息页。在信息资源系统中,相对于主页概念时,Web Page有时也可称为子页。Web Page是Internet终端用户可从网络中获取的,由URL(统一资源定位器:Uniform Resource Locator)唯一确定的某一多媒体信息(文本、音、像、图信息)单元。 网页是Internet中信息资源的表现形式和载体。一般而言,在用户终端显示器上,某一特定网页可以有一帧或多帧信息。Internet上形形色  相似文献   

5.
一种HTML网页净化方法   总被引:35,自引:1,他引:35  
张志刚  陈静  李晓明 《情报学报》2004,23(4):387-393
Web网页中的“噪音”是影响基于网页内容的Web应用系统工作质量的一个重要因素 ,快速准确地清除网页中的噪音内容是提高Web应用服务质量的关键技术之一。本文提出一种网页净化的方法及相应算法。该方法以一组启发式规则为基础 ,利用信息检索的技术以及Web网页的特征 ,提取网页的主题以及和主题相关的内容 ,从而达到网页净化的目的。该方法已经应用于搜索引擎系统 (天网 )的网页消重过程以及一个网页自动分类系统。通过网页净化对原有系统质量的改进验证了本文提出方法的正确性和有效性。  相似文献   

6.
Web网页信息变化的时间局部性规律及其验证   总被引:6,自引:0,他引:6  
孟涛  闫宏飞  王继民 《情报学报》2005,24(4):398-406
掌握Web网页信息变化的时间规律可以更有针对性的指导搜索引擎等Web应用系统更有效地进行搜集。本文旨在研究中国范围内Web网页变化的时间规律,针对网页变化的频率和间隔两项指标,随机选取数百万网页作为样本,设计试验在一个月内对上述两项指标进行考察。从结论中,我们发现网页变化的若干规律,并发现其中可能存在时间局部性规律。因此,我们引入了堆栈距离模型,在针对Web网页的变化特性和具体实验方法对其修正之后,再次设计实验对网页变化的时间局部性规律进行考察。结果表明,网页的变化存在明显的时间局部性。最后,介绍了这种时间局部性规律在网页搜集中的实际应用。  相似文献   

7.
针对多媒体链接在网页中分布的特点,对PageRank、shark-Search两种典型的主题搜索策略进行相关参数的改进,并从网页内容和网页链接的角度计算了多媒体链接与主题的相似度.实验结果表明,改进的Shark-Search多媒体主题搜索策略比改进后的PageRank搜索策略更能有效地提高多媒体主题搜索的效率,同时也更适合网络多媒体资源的主题搜索.  相似文献   

8.
信息表现、信息系统的构成方式及其功能是信息学永恒的三大研究课题.具体到Web,可指Web信息资源的表现、Web上分散的Web服务器及网页的全文检索功能.由于HTML不能表现资源的内容含义、各个服务器上的资源单纯地通过Hyperlink相互连接,带来了全文检索精度低和Web系统间互操作性差等问题.同时,检索结果的再利用、满足个性检索等知识性功能相对较弱.文章针对学术信息,提出了结构化数字对象(Structured Digital Object,SDO)的概念,此概念综合表现了信息的粒度、构造、内容含义三个重要特性,并采用XML记述SDO(简称SDO/XML),设计开发了Web资源原型检索系统、设计了电子期刊和数字图书馆等典型的Web资源系统,在此基础上进一步设计和开发了可实现信息资源再利用和系统间互操作的Global Digital Library(GDL)原型系统.为达到上述目的,GDL原型系统中引入了Web Services和Topic Maps等相关成熟技术.在考察部分,讨论了应如何实现大规模系统的问题.  相似文献   

9.
针对多媒体链接在网页中分布的特点,对PageRank、Shark-Search两种典型的主题搜索算法进行相关参数的改进,采用改进后的两种算法从网页内容和网页网页的角度计算多媒体网页与主题的相似度。实验结果表明,改进的Shark-Search多媒体主题搜索算法比改进后的PageRank搜索算法更能有效地提高多媒体主题搜索的效率,同时也更适合网络多媒体资源的主题搜索。  相似文献   

10.
在Acrobat工具套件中包括一个智能化网上捕捉器,叫做Web Capture。我们可以“委托”它在网上搜集信息,转为易存好读的Adobe PDF文件格式,方便脱机浏览或发电子邮件。此类“委托业务”需按如下步骤进行: 第一步,目标定位。选择“File/Open Web Page”,输入目标站点的的URL,例如http://www.adobe.com. Web Capture的“Open Web Page”(打开网页)功能等同于创建出一个信息搜集机器人,会不  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号