共查询到15条相似文献,搜索用时 234 毫秒
1.
基于XML的PDF文档信息抽取系统的研究* 总被引:3,自引:0,他引:3
首先设计了科技论文的DTD文档,然后分析了PDF文档的结构。在此基础上, 我们介绍了PDF文档信息抽取系统的设计框架。该框架以上述DTD为模板,把以PDF格式表示的科技论文解析转换为有效的XML文档。 相似文献
2.
传统的关键词检索技术在文本检索和HTML文档检索上得到了广泛的应用,但它运用于检索XML文档时却不尽如意.为此,本文引入一种改进的遗传算法,对XML文档上的关键词检索进行了研究,提出了XML文档标记的自适应遗传训练算法与XML文档上关键词语义检索及结果排序算法. 相似文献
3.
XML文档相似度计算方法研究 总被引:1,自引:0,他引:1
XML(可扩展标记语言)正在成为Web上各种应用交换信息的标准.随着XML格式的半结构数据的大量出现,如何处理和管理XML文档已经成为了一个研究热点.XML文档的相似度计算是XML数据处理的重要课题,是XML文档聚类与检索的关键技术.XML文档由逻辑结构(structure)和文本内容(content)构成,可以根据结构特征或内容特征来度量XML文档之间的相似度.本文将XML文档的相似度计算方法分为基于结构的和结构与内容相结合的两类,并对各种已有的XML文档相似度计算方法进行了比较和述评. 相似文献
4.
基于用户相关反馈的带结构语义的XML查询词扩展 总被引:1,自引:0,他引:1
在XML文档的信息检索中,检索质量不高的一个主要原因是用户难以提出准确描述其查询意图的查询表达式,而查询扩展技术被认为是可以帮助用户构建符合其查询意图的查询表达式.本文在XML信息检索中提出了基于用户相关反馈的查询扩展技术,在查询扩展中除了考虑词频因素外还充分考虑了XML文档的结构特点对于扩展查询词选取的影响,包括文档中元素的语义权重、元素所在层次和词项与初始查询词间的距离因素对于扩展查询词选取的影响.实验证明本方法是可行的,且能较好地提高检索结果的准确率. 相似文献
5.
孙辉 《现代图书情报技术》2004,20(9):58-60
基于RDBMS的XML数据存储方法有多种,本文认为它们大体上可分为两类。第一类方法是根据XML文档数据的物理结构设计关系模式,第二类方法是根据XML文档数据的逻辑结构设计关系模式,即根据XML的结构定义(DTD或XML Schema)来设计关系表,第一类方法还可分为基于边的存储和基于结点的存储。本文将结合XML文档实例对上述方法进行分析和探讨。 相似文献
6.
XML文档的约束及其应用探讨 总被引:1,自引:0,他引:1
张健 《现代图书情报技术》2005,21(5):23-26
在XML文档中应用约束机制,可以保证其数据的规范性、一致性和有效性。文章讨论了两类XML约束,一类是基于XML模式语言XSD或文档类型定义DTD的基本约束,另一类是自定义约束——XML函数依赖,描述了这两类约束及约束验证方式。在探讨XML约束机制的同时,结合图书馆具体业务,给出并分析了几个XML约束和XML文档的实例。 相似文献
7.
8.
Clustering XML Search Results Based on the Integration of Content with Structural Semantics 总被引:1,自引:0,他引:1
Zhong Minjuan 《情报学报》2012,31(5)
检索结果聚类是提高检索性能的一种有效手段.其中,如何衡量文档间的相似性是影响聚类质量的关键因素.针对XML文档的内容和结构双重特性,提出了内容与结构语义相融合的扩展向量空间模型,并分析了影响相似性度量的各种特征,进而提出了内容与结构语义相融合的XML语义相似性度量方法.同时,针对IEEE数据集无法提供每篇文档的类别信息,本文从相关文档的分布情况引入了相关簇率和相关文档分布率的概念来进行聚类质量评价.数据集IEEE CS上的实验表明,与同类相似性度量方法和传统方法相比,本文所提方法具有可行性和更好的聚类效果. 相似文献
9.
10.
张健 《现代图书情报技术》2005,21(4):83-85
作为Internet网络的标准之一,XML文档通常用于文本数据的描述、存储和交换。本文讨论了用XML文档存储图片的技术方案,包括XML文档结构、图片存储、在线提交、下载和显示,描述了各个功能步骤的技术要点,并给出了基于ASP.NET的程序代码。本文探讨的基于纯XML文档和ASP.NET的图片管理技术具有无数据库驱动、易于实现等特点。 相似文献
11.
12.
MARC数据转换为XML文档的设计与实现 总被引:6,自引:1,他引:6
高峰 《现代图书情报技术》2005,21(1):22-25
针对广泛存在于图书馆系统中的MARC格式的大量书目数据,分析了MARC的数据结构,定义了DTD,进行了MARC-XML系统转换设计,并以河南理工大学图书馆为例,实现了MARC数据到XML文档的转换,使得面向WWW的MARC信息提供成为可能。本文的研究对当前数字图书馆建设具有重要意义。 相似文献
13.
Massih R. Amini Anastasios Tombros Nicolas Usunier Mounia Lalmas 《Information Retrieval》2007,10(3):233-255
Documents formatted in eXtensible Markup Language (XML) are available in collections of various document types. In this paper,
we present an approach for the summarisation of XML documents. The novelty of this approach lies in that it is based on features
not only from the content of documents, but also from their logical structure. We follow a machine learning, sentence extraction-based
summarisation technique. To find which features are more effective for producing summaries, this approach views sentence extraction
as an ordering task. We evaluated our summarisation model using the INEX and SUMMAC datasets. The results demonstrate that
the inclusion of features from the logical structure of documents increases the effectiveness of the summariser, and that
the learnable system is also effective and well-suited to the task of summarisation in the context of XML documents. Our approach
is generic, and is therefore applicable, apart from entire documents, to elements of varying granularity within the XML tree.
We view these results as a step towards the intelligent summarisation of XML documents.
相似文献
Mounia LalmasEmail: |
14.
This study introduces a novel framework for evaluating passage and XML retrieval. The framework focuses on a user’s effort
to localize relevant content in a result document. Measuring the effort is based on a system guided reading order of documents.
The effort is calculated as the quantity of text the user is expected to browse through. More specifically, this study seeks
evaluation metrics for retrieval methods following a specific fetch and browse approach, where in the fetch phase documents
are ranked in decreasing order according to their document score, like in document retrieval. In the browse phase, for each
retrieved document, a set of non-overlapping passages representing the relevant text within the document is retrieved. In
other words, the passages of the document are re-organized, so that the best matching passages are read first in sequential
order. We introduce an application scenario motivating the framework, and propose sample metrics based on the framework. These
metrics give a basis for the comparison of effectiveness between traditional document retrieval and passage/XML retrieval
and illuminate the benefit of passage/XML retrieval. 相似文献
15.
Most recent document standards like XML rely on structured representations. On the other hand, current information retrieval systems have been developed for flat document representations and cannot be easily extended to cope with more complex document types. The design of such systems is still an open problem. We present a new model for structured document retrieval which allows computing scores of document parts. This model is based on Bayesian networks whose conditional probabilities are learnt from a labelled collection of structured documents—which is composed of documents, queries and their associated assessments. Training these models is a complex machine learning task and is not standard. This is the focus of the paper: we propose here to train the structured Bayesian Network model using a cross-entropy training criterion. Results are presented on the INEX corpus of XML documents. 相似文献