共查询到20条相似文献,搜索用时 109 毫秒
1.
【目的/意义】在新冠肺炎疫情中,科学数据为疫情分析、管控和治理提供了重要的依据和支撑,为实现新冠肺炎科学数据的价值最大化,有必要构建新冠肺炎科学数据集元数据框架。【方法/过程】文章以Re3data.org中的新冠肺炎科学数据集为例,在对科学数据集元数据进行收集整理后,构建新冠肺炎科学数据集元数据框架,利用Protégé软件实现科学数据集本体构建,并借助图数据库Neo4j对所构建的知识图谱进行存储。【结果/结论】结果表明,对Re3data.org中的新冠肺炎科学数据集元数据进行关联融合,将元数据转化为多元化的数据存储及展示形式。【创新/局限】实现了新冠肺炎科学数据集知识图谱的构建,并且在图谱之中进行实体及其关系的查询检索和推理,细粒度地创建了科学数据集本体中各个部分属性、实体之间的关联,未来还应侧重跨平台科学数据集元数据的关联与融合。 相似文献
2.
科学论文内的科学数据组织和发现研究 总被引:2,自引:0,他引:2
[目的/意义] 科学论文中的图、表等科学数据(文内数据)蕴含有丰富的知识内容。基于细粒度语义组织的文内数据发现有效聚合文献、科学数据两类科研产出,为未来实现全领域、全维度、全粒度、全类型的深度知识发现奠定基础。[方法/过程] 梳理、对比、分析现有3类文内数据的发现模式,尝试构建面向细粒度内容描述的文内数据本体,揭示文内数据的显性特征、内容特征以及与其他类型科学产出的关联特征。[结果/结论] 从面向应用的角度,提出基于本体的文内数据知识发现技术框架,细化"信息抽取—语义标注—关联应用"技术路线,针对关键点技术进行讨论。文内数据本体为科学论文内科学数据提供语义描述和关联组织依据,人工标注结合机器学习自动标注可以解决文内数据部分特征发现问题。 相似文献
3.
【目的】探究数据论文及关联数据集出版的元数据标准化工作,为数据期刊建设、科学数据出版机构开展相关创新实践提供参考,推动我国科学数据高质量发布共享。【方法】通过文献调研、内容对比和归纳法分析国内外数据论文出版现状,结合科学数据出版工作实践,提炼数据论文及关联科学数据集出版要素,明确元数据规范对象、关联关系和特点。【结果】提出符合我国管理要求的数据论文及关联科学数据集出版元数据标准规范,形成元数据标准架构,明确元素定义和属性描述,并给出应用示例。【结论】研究成果支撑了国家标准《数据论文出版元数据》研制,对推进我国科学数据产权保护、促进科学数据开放共享和充分释放数据价值具有重要意义。 相似文献
4.
[目的/意义]有效融合引文网络中的引用关系和文本属性等多元数据,增强文献节点间的语义关联,从而为数据挖掘和知识发现等任务提供有力的支撑。[方法/过程]提出了一种引文网络的知识表示方法,先利用神经网络模型学习引文网络中的k阶邻近结构;然后使用doc2vec模型学习标题、摘要等文本属性;最后给出了基于向量共享的交叉学习机制用于多元数据融合。[结果/结论]通过面向干细胞领域的CNKI引文数据集的测试,在链路预测上取得了较好的性能,证明了方法的有效性和科学性。 相似文献
5.
6.
[目的/意义]多源自媒体资源已成为获取信息的重要途径,其多源异构特性使有效知识组织面临挑战。鉴于当前缺乏统一的媒体资源元数据标准,本研究通过文本化、知识元抽取和语义关联等技术路径,旨在构建和实现针对多源自媒体资源的知识组织模型。[方法/过程]研究首先复用和自定义DC元数据,构建多源自媒体资源的元数据描述框架,并据此构建多源自媒体资源本体和语义网络。借助计算机算法实现多源自媒体资源的文本构建标准化,使知识组织研究可以深入到多源自媒体资源的具体内容中。此外,还实现了多源自媒体资源的命名实体、关键词和知识摘要的抽取,并设计了语义关联实验,以上研究都以B站、抖音、知乎等平台数据为基础。[结果/结论]通过算法在多源自媒体资源和给定虚拟馆藏资源进行关联,达成了虚拟馆藏资源到多源自媒体资源的语义关联映射,旨在发掘多源自媒体资源的多元价值,为图书馆的知识服务提供新思路。 相似文献
7.
8.
科学数据与科技文献关联分析对于实现集成信息服务、促进知识发现和完善e-science环境具有重要意义.文章从科学数据和科技文献的元数据描述元素出发,总结分析出了两者之间的几种关联模式:作者关联、学科分类号关联、关键词关联,并分析了两者基于元数据描述进行关联的可行性与优势. 相似文献
9.
[目的/意义]为了支撑数据驱动研究范式,促进科学数据的共享与利用,提高数据仓储和发现平台中数据集检索功能的效果。[方法/过程]将科学数据集检索过程分为候选数据集检索和候选数据集重排序两个主要阶段:在第一阶段,将BM25模型与基于SimCSE的稠密检索模型结合,获取潜在的相关数据集;在第二阶段,基于BERT排序模型对候选数据集的相关性进行评分,据此优化检索结果排序。[结果/结论]从国内外13个人文社科相关的科学数据仓储平台采集约10万数据集的元数据进行检索实验和效果评价,结果表明:提出的检索模型效果最优,其NDCG@10的得分分别高于基准的向量空间和BM25模型23.6和11.7个百分点;对各模型检索结果分析发现,该模型相比基准模型具有更强的语义检索能力;此外,还对模型权重设置进行分析,可为实践应用中的参数设置提供参考。[局限]仅在英文人文社科数据集上进行模型效果验证。 相似文献
10.
[目的/意义]本研究针对我国地方政府数据开放平台面临的挑战,设计并构建基于CKAN的政府数据开放平台,为我国政府数据开放平台的建设和改进提供参考。[方法/过程]在对CKAN的应用及特征进行概述的基础上,分析CKAN具有的核心功能,探讨CKAN的元数据管理以及关联数据集的API发布,最后给出平台安装的步骤和策略。[结果/结论]充分发挥CKAN平台的核心功能、元数据管理以及关联数据集的API发布等方面的优势,结合Drupal等开源内容管理框架来构建政府数据开放平台才是最优选择。 相似文献
11.
[目的/意义]为满足用户多层次、多粒度的知识获取需求,图书馆文献资源组织的对象由文献单元逐步向知识单元转变。[方法/过程]文章在研究单元信息概念和表示模型的基础上,提出基于本体和关联数据的单元信息知识组织框架,并深入探讨了实现单元信息语义组织的核心步骤。以中医养生领域为例,阐述单元信息知识组织语义模型的应用过程。[结果/结论]本文构建的单元信息知识组织模式,是实现单元信息细粒度组织、语义化揭示以及多维度关联的有效途径。该研究可为特定领域单元信息的语义应用提供参考。 相似文献
12.
13.
[研究目的]信息技术的发展丰富了社交媒体用户的沟通交流方式,研究社交网络舆情多模态知识图谱的构建对网络舆情治理具有重要的现实意义。[研究方法]基于多模态数据的语义互补,讨论了实体属性关联、图像(视频)文字描述、图像(视频)属性、图像(视频)关联等多种异构数据融合方式。在此基础上,提出社交网络舆情多模态知识图谱的构建框架,并分析了在多模态语义理解、多模态实体对齐、多模态知识表示等方面存在的问题与挑战。[研究结论]提出基于多模态知识融合的社交网络舆情多模态知识图谱构建框架,为交互方式日趋丰富的社交网络舆情治理提供有益参考。 相似文献
14.
[目的/意义]在跨学科、跨领域的大数据环境下,情报学与数据科学交互与融汇发展日益明显,数据驱动知识发现已成为情报学新的学科生长点和应用支撑能力。因此,对军事数据科学理论框架展开研究,探索军事数据科学理论框架的构建方式是很有意义的。[方法/过程]文章阐述了开展军事数据科学研究的必要性,并在界定军事数据科学内涵与外延的基础上,分析了军事数据科学与统计学、计算机科学、情报学以及军事领域知识的关系。[结果/结论]通过理论论证,提出从要素—流程—价值三视角构建军事数据科学基础理论框架的设想。 相似文献
15.
科学数据和科技文献是科研成果产出的两个重要表现形式。科技数据与科技文献关联分析对于实现集成信息服务、促进知识发现和完善E-science环境具有重要意义。文章从科学数据和科技文献的元数据出发,从两者的元数据描述中提取出表达内容特征的元数据项,并利用向量空间模型进行特征的相似性计算,从而关联科学数据与科技文献。 相似文献
16.
[目的/意义]科学数据已经成为数据驱动型科研的重要资料和产出成果,研究科学数据引用可以帮助追踪数据的使用状况、开展数据计量和评价、加速科研进程。[方法/过程]以生物信息学领域学术论文全文信息作为研究对象,利用规则抽取和人工标注形成了生物信息学引文分类数据集,对比评估6种深度学习模型与3种传统机器学习模型在数据集上的分类和识别效果。[结果/结论]实证研究效果显示,采用考虑语义和上下文特征的深度学习方法在科学数据正式引用识别任务中具有更优效果。[局限]未充分考虑数据类别不均衡问题。 相似文献
17.
[目的/意义]科学数据已经成为数据驱动型科研的重要资料和产出成果,研究科学数据引用可以帮助追踪数据的使用状况、开展数据计量和评价、加速科研进程。[方法/过程]以生物信息学领域学术论文全文信息作为研究对象,利用规则抽取和人工标注形成了生物信息学引文分类数据集,对比评估6种深度学习模型与3种传统机器学习模型在数据集上的分类和识别效果。[结果/结论]实证研究效果显示,采用考虑语义和上下文特征的深度学习方法在科学数据正式引用识别任务中具有更优效果。[局限]未充分考虑数据类别不均衡问题。 相似文献
18.
19.
[目的/意义]为知识产权数据资源的有效治理和运用提供支撑解决方案,推进知识产权领域数字化发展和信息公共服务体系升级。[方法/过程]基于对现有知识产权公共服务平台的系统调研,剖析当前知识产权公共服务数据资源的组织与利用现状;在对数据基本构成及场景支撑进行分析的基础上,进一步明确知识产权公共服务数据的语义组织内涵及其实现路径,并通过实例展示其应用效果。[结果/结论]面向公共服务场景设计从原始数据集到语义增强数据集的语义组织框架,归纳实现知识产权公共服务数据语义组织的关键技术及实践原则,形成支撑多服务场景的细粒度数据语义组织与应用模式。 相似文献
20.
[目的/意义] 旨在深化对国内生物医学数据库的元数据研究,提高国内生物医学数据开放水平。[方法/过程] 本文基于基因组学研究人员的元数据功能需求,归纳出结构需求、内容需求、关联需求和使用需求4个维度,提出生物医学元数据功能需求维度模型。通过引入内容结构视图作为分析元数据结构的模型,对国内外生物医学数据库的元数据方案进行比较研究。[结果/结论] 国内生物医学数据库可以从数据结构优化、数据质量控制、丰富研究条目和分类汇总链接4个方面推动数据开放的水平。 相似文献