共查询到19条相似文献,搜索用时 234 毫秒
1.
本文论述网络环境下中文网页信息的自动标引技术,具体研究分析了面向信息检索的自动分词与词表技术,提出了一个中文网页自动标引的改进方案,以更好地实现中文网络信息资源的自动处理,最后从文档到知识转变的视角,研究第三代网页内容搜索中应用中文信息自动标引的技术问题。 相似文献
2.
学科门户智能搜索引擎的设计与构建——农业史门户搜索引擎的实验 总被引:1,自引:0,他引:1
面对搜索引擎基于关键词全文检索导致检索准确度低和学科信息门户加工描述只到站点级别的问题,作者提出了将搜索引擎和学科信息门户结合构建智能学科门户搜索引擎的建议--在经过学科专家筛选的、学科信息门户目录中的高质量网站中自动收集网页,形成网页索引,利用自动标引与自动分类方法对收集到的网页进行标引和分类,最后通过分类浏览目录与主题词检索的方式,向用户提供学术资源网页的查找.文章重点介绍了智能学科门户搜索引擎的网页采集、网页自动标引与自动分类及用户接口的设计与实现,并对该搜索引擎存在的问题进行了分析和讨论. 相似文献
3.
基于知识库的网页自动标引和自动分类系统的设计 总被引:15,自引:0,他引:15
针对中文网页文本信息特征,提出了信息标引和组织方案,并构建了一个基于知识库的网页自动标引和自动分类系统。中文网页的自动标引和自动分类思想主要基于知识库进行。知识库实际上是一个基于《中图法》的专家知识系统,包括了中图法库、汉表库、分类号主题词对应库、同义词库、关键词库等若干数据库。在确定网页基本信息标引源的基础上,中文网页主题标引运用了基于词频的统计加权法;通过与分类号一主题词对应库主题词串的词面相似度计算,进一步完成中文网页的分类标引。最后还讨论了新词识别等技术问题。 相似文献
4.
基于多词表的自动标引技术研究——新华社新闻稿自动标引的实验 总被引:9,自引:0,他引:9
避开汉语分词中的技术特点 ,转向基于多词表自动标引抽词研究是当前中文信息自动主题与分类标引可以采取的一种策略 ,也是最为可行的方法。本文以新华社新闻稿中的题名和导语为对象 ,详细介绍了基于多词表自动标引技术中的词表构建、自动抽词、主题标引和自动分类等技术。并成功设计了新闻信息自动标引的实验系统 ,取得了较好的效果。 相似文献
5.
吴家云 《现代图书情报技术》1999,15(4):15-17
通过采用单汉字索引技术在FOXPRO环境下自行设计的实验系统,以《新华日报》为例,实验比较了在自动标引方式和自由标引方式下新闻信息数据库的检索效率,并分析了两种标引方式对检索效率的影响关系,从而探讨用机器自动标引替代手工自由标引的可能性。文章还提出了改进的建议及实验需要的原则。 相似文献
6.
7.
8.
关键词自动标引是一种识别有意义且具有代表性片段或词汇的自动化技术。关键词自动标引可以为自动摘要、自动分类、自动聚类、机器翻译等应用提供辅助作用。本文利用基于知网的词语语义相关度算法对词汇链的构建算法进行了改进,并结合词频和词的位置等统计信息,进行关键词的自动标引。实验证明,该方法可以有效的进行关键词的自动标引。 相似文献
9.
10.
目前大多数媒体机构建设的图片编辑系统都没实现对图片的自动标引功能,基于对图片的自动标引的研究,本论文实验搭建的图片标注系统目标是建成覆盖范围广、现代高效、国际领先的全天候采、编、发、售平台,适应各类图片信息市场需求,成为资源量大、技术平台先进、用户覆盖面广的图片库之一,在图片的加工、管理、检索、发布等方面建立搭建验证系统,进而为未来实现完善的图片编辑系统打下坚实基础。 相似文献
11.
基于本体和DOM相结合的Web信息抽取器 总被引:1,自引:0,他引:1
针对基于Web页面信息本体的信息抽取不能准确划定抽取区域的缺点,设计基于本体和DOM相结合的Web信息抽取器。利用DOM树设计对样本页面信息项路径进行归纳学习的算法,该算法能准确划定信息抽取区域,降低页面噪声,实现对Web页面的预处理。实验表明,改进后的抽取方法提高了Web信息的抽准率。 相似文献
12.
虚拟图书馆中网页的自动分类研究 总被引:1,自引:0,他引:1
臧国全 《现代图书情报技术》2002,18(3):28-31
概括了国内外对电子文本及Web网页进行自动分类的研究和试验,论述了虚拟图书馆中对网页进行自动分类与一般搜索引擎中对网页进行自动分类的区别,提出了一种用于虚拟图书馆中对网页进行自动分类的方法,并描述了按照此方法建立的“图书馆学情报学”虚拟图书馆的自动分类系统,对分类结果进行了分析。 相似文献
13.
主要介绍了设计开发Web主题信息采集系统的一个核心算法——超链接主题预测算法。文章在已有理论的基础上,通过实验分析,发现超链接的主题主要取决于三个因素:父网页的主题相关度、锚文本的主题相关度和Web子图的链接结构特性,从而提出了基于Web页面内容和链接结构的超链接主题预测算法,系统评价结果显示该算法有很好的效果。 相似文献
14.
基于超链分析的Web资源自动发现技术 总被引:2,自引:0,他引:2
传统的Web资源自动发现是基于Web页面内容实现的。本文试图从超链分析的角度探讨Web资源的自动发现技术。超链分析技术起源于社会网络分析和科学引文分析理论,它只分析页面之间的关系,而不关心页面本身的属性。通过试验证明,单纯使用超链,根据用户提供的网页实例,我们能够自动发现与学科资源相关的网站。该技术可以有效的减少网络爬行器的无谓爬行,提高采集效率,减轻网络负担,在学科资源建设中起了重要的作用。 相似文献
15.
提出一种基于内容规则的网页净化算法。包含两部分,先提出一种同层表间的比较迭代算法,通过迭代的方式对于网页中的噪声内容进行层层剥离。为进一步判断网页中锚文本与网页主题的相关性,又提出一种基于修正的编辑距离的计算锚文本的主题相似性的算法,在一定程度上考虑了网页的语义因素。该算法具有更高的准确度,同时具有很低的时间复杂度。实验结果表明,在对海量网页进行净化处理时,算法具有良好的效果。 相似文献
16.
基于ID3分类算法的深度网络爬虫设计 总被引:1,自引:0,他引:1
针对目前Web信息挖掘中存在的信息覆盖率较低的问题,对网络爬虫系统进行研究,提出一种针对深度网络的、基于ID3分类算法的Web页面收集方法。对Web页面的特征进行分析、处理和分类,提取包含深度网页的表单,通过自动提交这些表单来进行更深和更广的页面获取,实验表明该方法可以有效减少现有搜索引擎的盲区,改善搜索结果。 相似文献
17.
18.
易明 《现代图书情报技术》2006,1(7):47-51
在分析现有站点页面预取研究方法的基础之上,认为站点页面预取过程实质上就是“点击流”信息资源获取、开发与利用,而“点击流”信息资源获取、开发与利用也就是“点击流”信息不断运动的过程。针对这一信息运动过程,应用全信息理论,剖析“点击流”信息的含义与层次,并以此为基础构建“点击流”信息运动过程模型(站点页面预取原理模型),进而提出基于全信息的站点页面预取方法体系,并指明各种方法的拓展方向。 相似文献
19.
This paper is concerned with a framework to compute the importance of webpages by using real browsing behaviors of Web users.
In contrast, many previous approaches like PageRank compute page importance through the use of the hyperlink graph of the
Web. Recently, people have realized that the hyperlink graph is incomplete and inaccurate as a data source for determining
page importance, and proposed using the real behaviors of Web users instead. In this paper, we propose a formal framework
to compute page importance from user behavior data (which covers some previous works as special cases). First, we use a stochastic
process to model the browsing behaviors of Web users. According to the analysis on hundreds of millions of real records of
user behaviors, we justify that the process is actually a continuous-time time-homogeneous Markov process, and its stationary
probability distribution can be used as the measure of page importance. Second, we propose a number of ways to estimate parameters
of the stochastic process from real data, which result in a group of algorithms for page importance computation (all referred
to as BrowseRank). Our experimental results have shown that the proposed algorithms can outperform the baseline methods such
as PageRank and TrustRank in several tasks, demonstrating the advantage of using our proposed framework. 相似文献