首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 326 毫秒
1.
相似重复记录清理方法研究综述   总被引:3,自引:0,他引:3  
介绍相似重复数据清理的步骤、框架和衡量标准。重点对检测和清除算法按照算法类型及相关改进思路进行分类综述,给出算法的适用范围和优缺点,概括现有的数据清理工具(如Merge/Purge)。对相似重复记录清理领域的研究问题进行展望,将知识和语义的概念引入到数据清理框架中是未来重要的发展趋势。  相似文献   

2.
[目的/意义] 针对关键词共现方法识别领域研究热点过程中数据清洗进行理论研究与探索,以辅助科研工作者准确识别领域研究热点。[方法/过程] 在文献调研的基础上,阐述数据清洗的定义和对象,并分析脏数据产生的原因和影响,进而制定数据清洗的步骤和方案,并采用实证研究方法对数据清洗的效果和方案的可行性进行验证。[结果/结论] 研究结果表明该数据清洗方案能够提高研究热点识别的准确性,从而证明了该方案的可行性。  相似文献   

3.
魏丽维 《兰台世界》2024,(2):69-71+74
本论文旨在研究大数据时代档案数据质量控制问题,并提出相应的解决方案。随着信息技术的快速发展和大数据的广泛应用,档案管理领域也面临新的挑战。本文将重点讨论档案数据质量控制的概念和重要性,分析当前档案数据质量存在的问题,并提出切实有效的质量控制方法和技术,包括数据清洗、数据标准化、数据验证等。通过实证研究或案例分析提出有效的解决方案,并讨论可能的未来发展趋势。  相似文献   

4.
条件函数依赖与数据质量控制   总被引:1,自引:0,他引:1  
提高数据质量对于企业管理信息系统意义重大,数据质量的提高涉及数据库的设计、数据的输入、数据的维护及数据清洗全过程。比较了条件函数依赖CFD与传统函数依赖FD;基于条件函数依赖框架对业务规则及领域知识的表达作了初步研究,对脏数据的识别和清洗提供可行的方法和思路。  相似文献   

5.
首先介绍国内外作者对关联数据概念及其基本原则的研究现状,分析关联数据的发布方式和发布工具以及应用研究情况,然后对关联数据与语义网二者的关系进行剖析,最后给出关联数据研究在用户接口问题、法律许可问题、评价问题、隐私问题方面面临的一些挑战,认为关联数据将会使互联网发生深刻的变革。  相似文献   

6.
大数据时代档案数据质量控制机制:第一,档案数据监督管控机制。(1)前端标准规范的嵌入机制。一是档案部门需要制订前端控制阶段档案数据识别、数据检测、数据清洗、数据分类、数据录入、数据标引、元数据封装等标准规范,形成有效的规范机制管控来源端的档案数据质量。  相似文献   

7.
陈峥 《图书馆》2021,(3):90-98
UGC大数据中有许多前互联网时代难以获取甚至无法获取的资料,并且避免了通过传统方法获取数据的诸多缺陷,因而被作为一种新的资源运用于社会科学研究。开展这类研究,UGC大数据的质量是必须首先考虑的问题。本文从信息生产特点、信息传播过程、信息检测识别技术等多个角度,对UGC大数据质量存在的问题及其形成原因进行探析。研究发现:UGC大数据存在自身特有的缺陷,网络信息空间并不能完美地映射社会现实空间;将UGC大数据运用于社会科学研究,难以保证数据的真实性、自然性和准确性。因此,具体研究需要对数据质量进行预判和检验,并采用与传统研究方法相结合等策略来应对。  相似文献   

8.
针对数字图书馆建设中的数据移植问题,通过对北京航空航天大学图书馆现有异构数据源的分析研究,结合DSpace数据存储方式的特点,设计实现一个基于.NET框架的数据移植解决方案,通过数据抽取、清洗、DC生成和装载等步骤,实现从原有系统到DSpace 的数据移植。系统的应用能有效地利用信息资源、实现数据共享。  相似文献   

9.
国内图书馆科学数据研究述评   总被引:2,自引:2,他引:0  
[目的/意义]梳理和分析国内图书馆科学数据研究现状,总结研究特点,并对今后的研究提出建议,使图书馆科学数据研究更好地服务科研发展并促进图书馆服务的转型。[方法/过程]采用文献计量与主题分析相结合的研究方法,重点是主题分析,研究分析数据密集型科研、科学数据以及科学数据监管3个基本概念,总结研究特点。[结果/结论]当前国内研究有3个基本特点:①重视科学数据问题;②研究逐步深化;③注重国外经验,本土化研究薄弱。对今后研究进行展望:①丰富研究方法,加强实证研究;②推动跨学科研究;③加强适合数据密集型科研发展需要的基础性问题研究。  相似文献   

10.
图书馆合并后进行书目数据合并的难点及建议   总被引:3,自引:0,他引:3  
本阐述了高校合并后图书馆在对多馆书目数据进行合并时所存在的问题,并通过湖南科技大学图书馆书目数据的合并工作,就如何做好合作后高校图书馆书目数据的合并给出了几点处理具体意见。  相似文献   

11.
开放科研数据面临数据重用的困境,了解国内外相关学者或机构对该问题的解决方式可为利益相关方政策制定与服务实施提供参考。本研究通过文献综述,调研学术论文、专题报道、调查报告、政策、学者博客等,述评当前学者对数据重用困难的解决方式,认为应关注科研人员的核心作用,提出科研数据重用生态系统模式,为支持科研数据重用活动提供服务新思路,并指出图书馆是科研数据重用活动的重要推动者。  相似文献   

12.
文献计量分析中的数据准备工作研究   总被引:1,自引:0,他引:1  
数据准备工作是文献计量分析的基础,它主要包括数据采集和数据清洗两个方面。数据的准确性直接影响文献计量分析结果的客观性。通过几个检索案例对比分析发现,数据准备工作在文献计量分析研究中十分重要。研究者可从以下4个方面改进数据准备工作:分析信息需求,选用合适的检索方法;掌握数据库的使用方法;尽量提高查全率,及时补充遗漏数据;删除误检数据。  相似文献   

13.
提出一种多粒度的用户行为数据收集方法,该方法以可配置的插件形式嵌入服务器端收集数据。实验证明,该方法能提高Web使用挖掘的数据质量,简化Web使用挖掘预处理工作,并为后续挖掘工作提供多种粒度的信息,从而为分析Web用户的行为提供优质数据源。  相似文献   

14.
The volume of data collected by multiple devices, such as mobile phones, sensors, satellites, is growing at an exponential rate. Accessing and aggregating different sources of data, including data outside the public domain, has the potential to provide insights for many societal challenges. This catalyzes new forms of partnerships between public, private, and nongovernmental actors aimed at leveraging different sources of data for positive societal impact and the public good. In practice there are different terms in use to label these partnerships but research has been lagging behind in systematically examining this trend. In this paper, we deconstruct the conceptualization and examine the characteristics of this emerging phenomenon by systematically reviewing academic and practitioner literature. To do so, we use the grounded theory literature review method. We identify several concepts which are used to describe this phenomenon and propose an integrative definition of “data driven social partnerships” based on them. We also identify a list of challenges which data driven social partnerships face and explore the most urgent and most cited ones, thereby proposing a research agenda. Finally, we discuss the main contributions of this emerging research field, in relation to the challenges, and systematize the knowledge base about this phenomenon for the research community.  相似文献   

15.
It is widely accepted that data is fundamental for research and should therefore be cited as textual scientific publications. However, issues like data citation, handling and counting the credit generated by such citations, remain open research questions.Data credit is a new measure of value built on top of data citation, which enables us to annotate data with a value, representing its importance. Data credit can be considered as a new tool that, together with traditional citations, helps to recognize the value of data and its creators in a world that is ever more depending on data.In this paper we define data credit distribution (DCD) as a process by which credit generated by citations is given to the single elements of a database. We focus on a scenario where a paper cites data from a database obtained by issuing a query. The citation generates credit which is then divided among the database entities responsible for generating the query output. One key aspect of our work is to credit not only the explicitly cited entities, but even those that contribute to their existence, but which are not accounted in the query output.We propose a data credit distribution strategy (CDS) based on data provenance and implement a system that uses the information provided by data citations to distribute the credit in a relational database accordingly.As use case and for evaluation purposes, we adopt the IUPHAR/BPS Guide to Pharmacology (GtoPdb), a curated relational database. We show how credit can be used to highlight areas of the database that are frequently used. Moreover, we also underline how credit rewards data and authors based on their research impact, and not merely on the number of citations. This can lead to designing new bibliometrics for data citations.  相似文献   

16.
以复旦大学图书馆2005-2010年的流通数据、复旦大学院系师生人数、2005-2010年新闻出版业出版情况为数据源,通过数据筛选、清洗、处理等方法,建模并进行多元回归分析,从海量实际数据中挖掘出影响采访经费分配的显著变量,确定变量之间的数学关系式,并进行统计校验,由此得出采访经费比例预测模型.  相似文献   

17.
2018年3月国务院发布《科学数据管理办法》,强调科研机构作为科学数据管理的责任主体,应部署本机构科学数据的管理与服务体系。科研资助机构数据政策为科研机构明确了管理科学数据的过程中需要完成的任务与目标,可以有效推进科研机构的科学数据管理实践。按照科学数据管理流程的核心环节,系统分析并梳理国际科研资助机构的数据政策,将政策要求转化为科研机构在数据管理核心环节的职责与任务,以为我国科研机构有效部署科学数据管理工作提供参考。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号