共查询到20条相似文献,搜索用时 31 毫秒
1.
2.
信息抽取器在信息抽取领域是一个很重要的部分,而抽取器的研制通常要依靠抽取规则来实现。以前是利用使用者的使用模式或记录,找出相关的抽取规则。而利用PAT Tree可以直接从半结构化的Web的资料中,找出抽取规则。 相似文献
3.
本文研究了对于Web页面列表信息的抽取方法。通过对超文本文档特征的分析获取抽取知识,并通过自学习适应页面的变化,实现了对于列表信息的抽取。 相似文献
4.
针对万维网上用于表达Web页面信息的HTML语言存在的缺点,提出了一种基于DOM的数字图书馆Web资源信息提取服务模型,即以文档对象模型DOM为基础,把所要提取的信息在DOM层次结构中的路径作为信息提取的“坐标”,设计了一种归纳学习算法来半自动地生成提取规则,然后根据提取规则生成Java类,生成的Java类可以作为Web包装器软件的重要组成部分。此模型是研究异型数据源系统中组合查询处理的重要组成部分。 相似文献
5.
随着大数据信息技术的发展,数据在线监测和数据挖掘成为计算机信息领域研究的热点。通过对Web热点数据分割挖掘,提高信息热点追踪和Web数据分类能力。传统算法采用非结构化数据挖掘算法,无法有效对Web热点数据进行准确定位和分层挖掘。提出一种基于半结构化分割的Web热点数据挖掘算法。采用半结构化数据进行特征分割,基于优秀基因位进行差分进化,使寻优曲线不断趋于平缓,在多个节点上并行的运行比较脚本,采用半结构化分割,使得Web热点特征挖掘实现自适应寻优,得到Web热点数据的分配因子,提高了挖掘性能。仿真结果表明,该算法获得了良好的效率和精度,提高了Web热点数据挖掘的自适应寻优能力。 相似文献
6.
以往的HTML简化了在Internet浏览器上显示信息的方式,而XML则定义了信息如何结构化。在Web上显示数据的传统技术包括使用通用网关接口(CGI)和带有数据库标记的Java服务页面(JSP)。然而,XML文档在这方面有独一无二的优点,因为它们的显示与信息是分开的,所以不增加任何程序,就可以使XML文档以不同的格式(由XSL样式指定)在各种设备上显示。 相似文献
7.
挖掘高校图书馆Web日志数据库的意义和方法 总被引:6,自引:0,他引:6
Web日志是Web服务器上记录读者访问页面情况的文件.读者每访问一个页面,Web服务器的日志中就会增加一条记录.不同Web服务器产品的日志记录格式不同,但通常都有包括访问者的IP地址、访问时间、访问方式(GET/POST)、访问的页面、协议、错误代码以及传输的字节数等信息[1]. 相似文献
8.
9.
数字图书馆在WWW上进行相应的信息展示与提供,基于HTML的文档标记使信息查寻遇到了很大的挑战。本文提出了基于XML的搜索引擎逻辑结构,并对其中的关键技术进行了研究,提出了对XML半结构化文档建立索引和查寻时采用的数据结构和算法,使得数字图书馆在WWW上开展深层次信息提供成为可能,并且也使图书馆原有的MARC信息资源能得到充分利用。 相似文献
10.
基于模式匹配抽取技术的网上产品情报获取 总被引:1,自引:0,他引:1
产品生命周期的逐渐缩短迫使企业关注从因特网上大量、散乱的信息中及时获取新产品信息,跟踪竞争对手研发动向。本文引入基于模式匹配的自动Web信息抽取技术,叙述抽取产品的关键信息方法,并以家用冰箱性能参数信息的自动抽取为例,分析了冰箱领域知识,进行了样本页面的分析归纳,确认了冰箱产品的多种属性及产品信息抽取的模式特征,最终获得了清晰、结构化的产品数据,形成从Web页面上抽取同类产品关键信息的整个处理流程模型,成为网络环境下情报采集与分析的新情报研究模式的一个有力探索。 相似文献
11.
12.
该文着重研究了XML的索引结构,并对XML数据库的存取提出了自己的观点。构造了对XML这种半结构化文档建立索引和查询时采用的数据结构和算法。 相似文献
13.
讨论了Web使用记录挖掘在金融CRM中的作用,并建立了一套基于金融CRM的Web使用记录挖掘体系,以一个金融企业的实例贯穿全文。详述了该体系的六个部分,并在介绍发现客户模式这一步骤时提出了一种基于模糊神经网络的模式发现算法,这种算法可以提取Web使用记录中的客户规则。 相似文献
14.
15.
XML文档的结构化连接问题是XML文档查询中的核心问题。XML文档的查询包括两类查询,一类是值的查询,一类是结构的查询。本文通过比较两种基于B 树和XR树的索引技术的XML文档结构化连接算法,说明基于XR树索引的结构化连接算法优于基于B 树索引的结构化连接算法。 相似文献
16.
17.
【目的】 研究科技期刊电子文档存储与转化的相关机制,为医学类科技期刊的格式处理与自动转化提供工具支撑,以提升国内期刊的国际影响力。【方法】 以Journal Archiving Tag Suite(JATS)数据标准为例,研究国外医学期刊所遵循的存档格式,分析国内期刊的资源存档现状。【结果】 基于JATS数据标准,制定科技期刊资源存储的格式处理与转化流程,设计并开发适用于医学科技期刊的格式处理与转化系统,辅助科技期刊进行电子资源的规范化存储,并实现非结构化文档向结构化文档的自动转化。【结论】 规范的科技期刊资源存储格式对期刊影响力的提升至关重要,格式处理与转化流程的制定与工具开发,能为期刊资源管理与电子文档的处理与转化提供依据和支撑。 相似文献
18.
本文以国家科技计划经费管理信息系统的应用实践为背景,提出多样性电子数据的采集及储存管理等技术,结合XML应用、文档处理、PDF合成等结构化数据与非结构化数据的转换研究,提高了数据采集效率,改善了电子数据的处理方式,从而满足电子政务对多样数据内容管理的处理要求。 相似文献
19.
本文研究对于Web页面表格信息的抽取方法,通过对初始页面标注以获取抽取知识,并通过自学习适应页面的变化,有效地完成对表格信息的抽取。 相似文献
20.
传统Web页面语义标注方法需手工处理,或只可将Web页面中有属性的标签赋予数据,针对无属性标签数据不进行标注,不适于大规模Web页面信息标注,且标注结果不可靠。为此,提出一种新的基于集成学习的动态Web页面语义标注方法。给出动态Web页面语义标注流程。将Web页面转换成DOM树,识别待标注文本。选取抽取信息特征与训练Web页面特征,将含有语义信息的内容分配至概念抽象化的本体上,采用多分类器集成学习方法进行分类,区分待标注信息是属性标签还是数据元素,通过不同分类器预测结果的一致性对相应样本被准确标注的置信度进行衡量。通过训练页面中涵盖的属性标注规则集与抽取信息中的属性名称实现语义标注。实验结果表明,所提方法适于大规模动态Web页面语义标注,标注结果可靠。 相似文献