共查询到17条相似文献,搜索用时 326 毫秒
1.
相似重复记录清理方法研究综述 总被引:3,自引:0,他引:3
介绍相似重复数据清理的步骤、框架和衡量标准。重点对检测和清除算法按照算法类型及相关改进思路进行分类综述,给出算法的适用范围和优缺点,概括现有的数据清理工具(如Merge/Purge)。对相似重复记录清理领域的研究问题进行展望,将知识和语义的概念引入到数据清理框架中是未来重要的发展趋势。 相似文献
2.
3.
本论文旨在研究大数据时代档案数据质量控制问题,并提出相应的解决方案。随着信息技术的快速发展和大数据的广泛应用,档案管理领域也面临新的挑战。本文将重点讨论档案数据质量控制的概念和重要性,分析当前档案数据质量存在的问题,并提出切实有效的质量控制方法和技术,包括数据清洗、数据标准化、数据验证等。通过实证研究或案例分析提出有效的解决方案,并讨论可能的未来发展趋势。 相似文献
4.
条件函数依赖与数据质量控制 总被引:1,自引:0,他引:1
提高数据质量对于企业管理信息系统意义重大,数据质量的提高涉及数据库的设计、数据的输入、数据的维护及数据清洗全过程。比较了条件函数依赖CFD与传统函数依赖FD;基于条件函数依赖框架对业务规则及领域知识的表达作了初步研究,对脏数据的识别和清洗提供可行的方法和思路。 相似文献
5.
6.
大数据时代档案数据质量控制机制:第一,档案数据监督管控机制。(1)前端标准规范的嵌入机制。一是档案部门需要制订前端控制阶段档案数据识别、数据检测、数据清洗、数据分类、数据录入、数据标引、元数据封装等标准规范,形成有效的规范机制管控来源端的档案数据质量。 相似文献
7.
UGC大数据中有许多前互联网时代难以获取甚至无法获取的资料,并且避免了通过传统方法获取数据的诸多缺陷,因而被作为一种新的资源运用于社会科学研究。开展这类研究,UGC大数据的质量是必须首先考虑的问题。本文从信息生产特点、信息传播过程、信息检测识别技术等多个角度,对UGC大数据质量存在的问题及其形成原因进行探析。研究发现:UGC大数据存在自身特有的缺陷,网络信息空间并不能完美地映射社会现实空间;将UGC大数据运用于社会科学研究,难以保证数据的真实性、自然性和准确性。因此,具体研究需要对数据质量进行预判和检验,并采用与传统研究方法相结合等策略来应对。 相似文献
8.
针对数字图书馆建设中的数据移植问题,通过对北京航空航天大学图书馆现有异构数据源的分析研究,结合DSpace数据存储方式的特点,设计实现一个基于.NET框架的数据移植解决方案,通过数据抽取、清洗、DC生成和装载等步骤,实现从原有系统到DSpace 的数据移植。系统的应用能有效地利用信息资源、实现数据共享。 相似文献
9.
国内图书馆科学数据研究述评 总被引:2,自引:2,他引:0
[目的/意义]梳理和分析国内图书馆科学数据研究现状,总结研究特点,并对今后的研究提出建议,使图书馆科学数据研究更好地服务科研发展并促进图书馆服务的转型。[方法/过程]采用文献计量与主题分析相结合的研究方法,重点是主题分析,研究分析数据密集型科研、科学数据以及科学数据监管3个基本概念,总结研究特点。[结果/结论]当前国内研究有3个基本特点:①重视科学数据问题;②研究逐步深化;③注重国外经验,本土化研究薄弱。对今后研究进行展望:①丰富研究方法,加强实证研究;②推动跨学科研究;③加强适合数据密集型科研发展需要的基础性问题研究。 相似文献
10.
图书馆合并后进行书目数据合并的难点及建议 总被引:3,自引:0,他引:3
本阐述了高校合并后图书馆在对多馆书目数据进行合并时所存在的问题,并通过湖南科技大学图书馆书目数据的合并工作,就如何做好合作后高校图书馆书目数据的合并给出了几点处理具体意见。 相似文献
11.
12.
文献计量分析中的数据准备工作研究 总被引:1,自引:0,他引:1
数据准备工作是文献计量分析的基础,它主要包括数据采集和数据清洗两个方面。数据的准确性直接影响文献计量分析结果的客观性。通过几个检索案例对比分析发现,数据准备工作在文献计量分析研究中十分重要。研究者可从以下4个方面改进数据准备工作:分析信息需求,选用合适的检索方法;掌握数据库的使用方法;尽量提高查全率,及时补充遗漏数据;删除误检数据。 相似文献
13.
提出一种多粒度的用户行为数据收集方法,该方法以可配置的插件形式嵌入服务器端收集数据。实验证明,该方法能提高Web使用挖掘的数据质量,简化Web使用挖掘预处理工作,并为后续挖掘工作提供多种粒度的信息,从而为分析Web用户的行为提供优质数据源。 相似文献
14.
The volume of data collected by multiple devices, such as mobile phones, sensors, satellites, is growing at an exponential rate. Accessing and aggregating different sources of data, including data outside the public domain, has the potential to provide insights for many societal challenges. This catalyzes new forms of partnerships between public, private, and nongovernmental actors aimed at leveraging different sources of data for positive societal impact and the public good. In practice there are different terms in use to label these partnerships but research has been lagging behind in systematically examining this trend. In this paper, we deconstruct the conceptualization and examine the characteristics of this emerging phenomenon by systematically reviewing academic and practitioner literature. To do so, we use the grounded theory literature review method. We identify several concepts which are used to describe this phenomenon and propose an integrative definition of “data driven social partnerships” based on them. We also identify a list of challenges which data driven social partnerships face and explore the most urgent and most cited ones, thereby proposing a research agenda. Finally, we discuss the main contributions of this emerging research field, in relation to the challenges, and systematize the knowledge base about this phenomenon for the research community. 相似文献
15.
《Journal of Informetrics》2020,14(4):101080
It is widely accepted that data is fundamental for research and should therefore be cited as textual scientific publications. However, issues like data citation, handling and counting the credit generated by such citations, remain open research questions.Data credit is a new measure of value built on top of data citation, which enables us to annotate data with a value, representing its importance. Data credit can be considered as a new tool that, together with traditional citations, helps to recognize the value of data and its creators in a world that is ever more depending on data.In this paper we define data credit distribution (DCD) as a process by which credit generated by citations is given to the single elements of a database. We focus on a scenario where a paper cites data from a database obtained by issuing a query. The citation generates credit which is then divided among the database entities responsible for generating the query output. One key aspect of our work is to credit not only the explicitly cited entities, but even those that contribute to their existence, but which are not accounted in the query output.We propose a data credit distribution strategy (CDS) based on data provenance and implement a system that uses the information provided by data citations to distribute the credit in a relational database accordingly.As use case and for evaluation purposes, we adopt the IUPHAR/BPS Guide to Pharmacology (GtoPdb), a curated relational database. We show how credit can be used to highlight areas of the database that are frequently used. Moreover, we also underline how credit rewards data and authors based on their research impact, and not merely on the number of citations. This can lead to designing new bibliometrics for data citations. 相似文献
16.