首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 125 毫秒
1.
基于XML的PDF文档信息抽取系统的研究*   总被引:3,自引:0,他引:3  
首先设计了科技论文的DTD文档,然后分析了PDF文档的结构。在此基础上, 我们介绍了PDF文档信息抽取系统的设计框架。该框架以上述DTD为模板,把以PDF格式表示的科技论文解析转换为有效的XML文档。  相似文献   

2.
用JAVA+XML实现网站全文检索   总被引:2,自引:0,他引:2  
介绍了用JAVA和XML实现网站站内全文检索的实现过程,即用java编写索引工具,对WEB文档进行索引,索引结果写入XML文档;用Servlet和JDOM实现读取和查询XML文档,并在客户返回查询结果。  相似文献   

3.
XML(可扩展标记语言)正在成为Web数据交换的标准格式.随着XML格式的半结构数据的大量出现,如何处理和管理XML文档已经成为了一个研究热点.XML文档聚类作为XML数据处理的重要课题,是指将具有类似特征的XML文档聚集成簇.现有的大部分XML文档聚类是基于文档结构特征的.本文提出了一个新的结构与内容相结合的XML文档聚类方法.首先从文档中抽取构件向量,并把文档转换为向量化的表示.然后,在文档相似度计算的基础上,引入一个层次聚类方法对XML文档进行聚类.在DBLP XML记录集上进行的实验表明该方法具有可行性并且性能明显优于已有方法.  相似文献   

4.
由于受到信息安全和检索效率等因素的限制,怎样能在信息安全的基础上提升科技文档共享的广泛性和深入性成为一个亟待解决的问题。本文引入结构化的科技文档资源存储模式,在此基础上实现基于知识库的高效检索策略,通过构建科技文档的采集与分词算法,实现了基于XML的语义检索。  相似文献   

5.
XML文档的约束及其应用探讨   总被引:1,自引:0,他引:1  
在XML文档中应用约束机制,可以保证其数据的规范性、一致性和有效性。文章讨论了两类XML约束,一类是基于XML模式语言XSD或文档类型定义DTD的基本约束,另一类是自定义约束——XML函数依赖,描述了这两类约束及约束验证方式。在探讨XML约束机制的同时,结合图书馆具体业务,给出并分析了几个XML约束和XML文档的实例。  相似文献   

6.
作为Internet网络的标准之一,XML文档通常用于文本数据的描述、存储和交换。本文讨论了用XML文档存储图片的技术方案,包括XML文档结构、图片存储、在线提交、下载和显示,描述了各个功能步骤的技术要点,并给出了基于ASP.NET的程序代码。本文探讨的基于纯XML文档和ASP.NET的图片管理技术具有无数据库驱动、易于实现等特点。  相似文献   

7.
XML文档和数据库的集成   总被引:1,自引:0,他引:1  
向桂林 《图书馆杂志》2002,21(7):47-51,64
本文首先阐述了需要把XML文档和数据库集成的原因;然后针对描述MBAR书目记录的XML文档,详细说明了把XML文档与数据库集成的办法;最后指出了转换过程中可能出现的一些问题。  相似文献   

8.
XML引擎研究     
XML从1998年由W3C(World Wide Web Consortium)提出之后已得到广泛的关注,各行各业都在采用XML来描述本领域的信息,比如MathML、CML、VoiceML等,随之而来的问题是产生大量XML文档,应该如何管理这些XML文档就成为一个迫切需要解决的现实问题。XML引擎研究就是根据这个问题提出的研究课题。本文所做的主要工作有:  相似文献   

9.
XML文档素数编码具有较低的编码存储空间以及在XML查询中具有较高的效率,本文利用文档对象模型DOM提供的APIs设计了获取XML文档树对应的素数编码算法Prime-DOM,实验结果显示Prime-DOM算法能够给每个XML节点分配正确的素数编码。  相似文献   

10.
介绍一种解释XML文档语义的方法。该方法使用RDF Schema描述的本体来对XML文档进行语义提取,并将结果以RDF数据模式(三元组)表现出来。  相似文献   

11.
指出传统信息检索技术对XML文档的处理,没有考虑其结构信息,描述粒度不够细致,故不能充分挖掘XML文档的表达能力;认为采用元素索引、属性索引和结构索引来记录XML文档的结构信息,可在细粒度上记载XML文档的结构,从而深层次地挖掘XML文档的表达能力。  相似文献   

12.
XML文档相似度计算方法研究   总被引:1,自引:0,他引:1  
XML(可扩展标记语言)正在成为Web上各种应用交换信息的标准.随着XML格式的半结构数据的大量出现,如何处理和管理XML文档已经成为了一个研究热点.XML文档的相似度计算是XML数据处理的重要课题,是XML文档聚类与检索的关键技术.XML文档由逻辑结构(structure)和文本内容(content)构成,可以根据结构特征或内容特征来度量XML文档之间的相似度.本文将XML文档的相似度计算方法分为基于结构的和结构与内容相结合的两类,并对各种已有的XML文档相似度计算方法进行了比较和述评.  相似文献   

13.
XML是Internet上的主流技术之一,在信息的共享和交换过程中发挥着非常重要的作用。本文介绍了在DataTrans-1000系统中进行二次开发,实现输出XML文档的方法。  相似文献   

14.
基于RDBMS的XML数据存储方法有多种,本文认为它们大体上可分为两类。第一类方法是根据XML文档数据的物理结构设计关系模式,第二类方法是根据XML文档数据的逻辑结构设计关系模式,即根据XML的结构定义(DTD或XML Schema)来设计关系表,第一类方法还可分为基于边的存储和基于结点的存储。本文将结合XML文档实例对上述方法进行分析和探讨。  相似文献   

15.
XML retrieval is a departure from standard document retrieval in which each individual XML element, ranging from italicized words or phrases to full blown articles, is a retrievable unit. The distribution of XML element lengths is unlike what we usually observe in standard document collections, prompting us to revisit the issue of document length normalization. We perform a comparative analysis of arbitrary elements versus relevant elements, and show the importance of element length as a parameter for XML retrieval. Within the language modeling framework, we investigate a range of techniques that deal with length either directly or indirectly. We observe a length-bias introduced by the amount of smoothing, and show the importance of extreme length bias for XML retrieval. We also show that simply removing shorter elements from the index (by introducing a cut-off value) does not create an appropriate element length normalization. Even after restricting the minimal size of XML elements occurring in the index, the importance of an extreme explicit length bias remains.  相似文献   

16.
《汉语主题词表》XML文档的实现对于提高词表的利用效率具有重要意义。在详细分析《汉语主题词表》各数据表之间逻辑关系基础上,利用JDOM技术实现《汉语主题词表》XML文档的自动生成。  相似文献   

17.
可扩展标记语言XML及其在数字图书馆中的应用   总被引:3,自引:0,他引:3  
李慧 《图书情报工作》2001,45(12):43-46
介绍XML的特点、文档结构和相关技术,并对XML在数字图书馆中的应用进行探讨。  相似文献   

18.
随着我国信息化的推进,需要将不同阶段、不同技术平台的信息资源进行整合,消除“信息孤岛”,使之集成于一个统一的、开放的构架之中。本文首先阐明了XML文档成为新一代Internet应用中通用的数据格式,崔分析了Web Service技术之后,提出了一种以Web、XML、SOAP技术为核心的异构和分布式的图书信息系统框架,最后给出了一个基于XML文档数据交换的应用实例。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号