首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 703 毫秒
1.
笔者结合多年工作实践,对读者数据批量录入ILASⅡ系统的方法进行了探讨和实践,总结出了简便实用的读者数据快速批量录入方法及转换格式。  相似文献   

2.
贾延霞  杨慧 《图书情报工作》2014,58(18):117-121
认为批量编目是促进电子资源获取的有效手段。针对国内电子资源批量编目的实践进行调研,涉及数据质量、相关工具、对书目系统质量的影响、面临的挑战、发现系统对电子资源批量编目的影响等内容。对调研结果进行分析,发现批量编目遇到的最普遍的挑战是数据质量问题,各馆质量评估及数据编辑修改的做法有所差异,整体上国内图书馆对数据质量的重视程度还不够。最后总结国外相关实践对我们的启示。  相似文献   

3.
[目的/意义]数据科学作为一个融合诸多领域的新兴交叉学科正在快速形成。从数据科学招聘的公告信息中,抽取出相应的实体知识不仅有助于从市场的角度了解数据科学的发展动态,而且有助于改进数据科学教学的内容。[方法/过程]基于各大招聘网站职位招聘公告,结合情报学的数据获取、标注和组织方法,构建数据科学招聘语料库并从中抽取相应的实体进行分析与研究。[结果/结论]在搜集到的11 000篇经过标注的职位招聘公告语料的基础上,基于Bi-LSTM-CRF、CRF和Bi-LSTM模型,对数据科学招聘实体的抽取任务进行性能的对比,确定最终的数据科学招聘实体自动抽取模型,设计数据科学招聘实体自动抽取平台,并构建数据科学招聘实体网络。  相似文献   

4.
通过分析动态数据在其Web 页面中的展示特点,提出一个新的自动化、结构化数据抽取方法。首先基于DOM利用算法实现快速定位数据区,从而避免处理大量噪音数据;其次引入最小DFS编码来表示DOM子树,通过聚类对记录数据区进行区分;最后对少量样本页面训练学习生成抽取规则用于数据抽取。利用原型系统针对实际网站中的页面进行数据抽取,实验结果显示其拥有较高的准确性和效率。  相似文献   

5.
适用于隐含主题抽取的K最近邻关键词自动抽取   总被引:1,自引:0,他引:1  
众所周知,K最近邻方法作为机器学习领域的一个经典的方法,在很多领域都有出色的表现.本文利用K最近邻方法的思想,提出了一种基于K最近邻的关键词自动抽取方法.现有的关键词抽取技术仅仅是对正文词汇的抽取,不能抽取隐含主题.隐含主题的抽取是关键词自动抽取技术的难点,但是该方法可以有效抽取隐含主题.该方法首先对数据进行预处理,使用向量空间模型将文本表述为数学化语言;然后,以人工标注关键词的文献数据作为训练集,使用K最近邻方法构建新文献的关键词候选集;最后,根据关键词本身的特点对候选关键词做了有效的后处理.实验表明,该方法不仅可以提高关键词抽取的准确率和召回率,还可以有效抽取文章的隐含主题.  相似文献   

6.
本文针对Unicorn系统缺少读者借阅证批量打印功能以及批量上载到Unicorn系统中的数据需要严格的格式化处理这一状况,结合工作实际,通过Delphi语言和FastReport控件,开发出一套适合Unicom系统的集借阅证打印、读者信息查重、数据完整性检验以及格式化上载数据输出等功能的借阅证生成系统,使批量办理Unicorn系统读者借阅证的工作流程得以大大简化.  相似文献   

7.
文章从影响机读目录数据库质量的因素、GLIS系统编目字段批处理功能、利用GLIS系统快速处理数据的方法3方面,论述了如何利用GLIS系统编目字段批处理功能快速批量修改MARC数据,以提高机读目录数据库质量的问题。  相似文献   

8.
Wiki在知识协作方面的便利性,使其逐渐成为人类历史上一种崭新的、高效率的知识积累方式。文章提出基于Wiki技术构建标准术语数据库建设方案,旨在集合大众力量进行知识共建;同时,利用Wiki自定义信息模板功能,在wiki用户界面下模拟实现了数据的结构化存储与查询,以及自动抽取批量发布的功能,并在实际应用中取得了良好效果,对充分发挥标准术语的知识价值、促进标准的宣贯具有积极作用。建设实践中数据质量通过术语描述规范和术语提交审订流程控制,文章对其闻可能涉及的知识产权风险进行了说明。  相似文献   

9.
海量数据集上基于特征组合的关键词自动抽取   总被引:7,自引:0,他引:7  
关键词自动抽取的任务就是使用计算机自动地从文本中抽取能够高度有效表达文本主题的词汇.小规模训练集和测试集下的关键词自动抽取已经有诸多算法实现,但是大规模分布复杂的数据集上的关键词自动抽取却很少有学者提及.本文利用现有的信息检索技术,对海量数据集上自动抽取关键词问题进行了研究,给出了一个基于特征组合的关键词自动抽取方法.该方法构造了一个大规模的关键词词典;基于TF× IDF值和其他特征,提出了更有效的关键词权重计算方法;根据关键词本身的特点,对候选关键词进行了后处理,使得抽取的关键词更符合读者的要求.本文的后续实验表明,该方法同基于Bayes和KNN等的机器学习方法相比,性能相当.使用自动评价和人工评价两种方法对抽取的关键词进行了评估.专业编辑对抽取结果的人工评价显示,约95%的自动抽取的关键词可以被专业编辑或者读者接受.  相似文献   

10.
实体关系抽取的技术方法综述*   总被引:3,自引:0,他引:3  
对实体关系抽取研究以MUC和ACE评测为主线的发展进行总结,并指出实体关系抽取任务普遍存在的三个问题是特定领域标引数据集的获取、模式的获取以及共指消解。在对当前关系抽取的相关文献、系统和项目进行分析研究的基础上,将基于非结构化文本的实体关系抽取技术方法归纳为:基于模式匹配的关系抽取、基于词典驱动的关系抽取、基于机器学习的关系抽取、基于Ontology的关系抽取以及混合抽取方法,旨在为进一步构建实体关系抽取系统提供良好借鉴。  相似文献   

11.
实现家谱文本信息的自动抽取是家谱资源深度开发利用的关键.目前深度学习在家谱文本信息抽取方面取得了良好的效果,但是对标注数据的依赖始终是其发展瓶颈之一.本文面向家谱的世系小传,研究基于小规模标注数据进行家谱人物和关系的抽取方法.具体来说:基于Bootstrapping的思想,以少量的标注数据作为初始种子集,使用深度学习B...  相似文献   

12.
智能数据抽取技术在决策支持系统中的应用研究   总被引:2,自引:0,他引:2  
本文研究了决策支持系统数据库建设中的智能数据抽取技术,分析并设计了数据抽取方案,设计并实现了智能前端抽取系统和端点用户视图,还对数据抽取的算法和操作作了研究。  相似文献   

13.
基于稿件管理数据库信息共享的表单批量输出方法   总被引:2,自引:1,他引:1  
为充分利用稿件管理数据库的信息,避免大量的重复劳动,提出了基于稿件管理数据库信息共享的编辑部常用表单的生成与批量输出方法.首先编辑各种工作表单的打印模板,然后利用稿件管理数据库中的信息,生成需要打印的表单数据,最后利用Microsoft Word的"函件合并"功能自动生成各种表单并批量输出.该方法可快速生成并打印各种工作表单,提高了工作效率和期刊信息化管理水平.  相似文献   

14.
刘伟 《图书情报工作》2015,59(12):128-134
[目的/意义] 鉴于目前同义词抽取方法无法避免抽取结果含有较多的噪音,需要较高的人工代价去除噪音,提出一种对同义词抽取结果排序的方法,使得正确结果排序提前,以达到提高抽取结果准确性及降低人工去噪代价的目的。[方法/过程] 将抽取结果转化为抽取关系有向图,基于该有向图计算抽取结果中每个词汇与被抽取词汇的词义相似性,并按照词义相似性高低进行排序。排序方法的最大特点是只利用了当前的同义词抽取方法,不需要人工参与和额外的语义知识。[结果/结论] 通过在真实数据集上进行验证,得出排序效果与抽取结果的规模呈正向关系的论点,即一个给定词汇的同义词抽取结果数量越多,排序的效果就会越好。  相似文献   

15.
面向VIVO本体的数据摄取工具   总被引:1,自引:0,他引:1  
介绍基于本体的科学家网络VIVO中的数据摄取工具,分析关系数据模型向RDF数据模型的批量数据摄取并与VIVO本体匹配的原理,阐述工具应用流程,为基于本体构建的信息服务系统或语义网应用中存在的异构数据摄取问题提供解决方法,并讨论该工具的特色和存在的问题。  相似文献   

16.
张颖怡  章成志  Daqing  He 《图书情报工作》2022,66(12):125-138
[目的/意义]问题和方法是学术论文的重要组成部分。将散落在学术论文中的问题与方法进行有效组织,例如问题与方法识别及其之间的关系抽取,可挖掘学术论文中的隐性知识,促进学科的方法体系和问题体系构建。对学术论文中问题与方法识别及其关系抽取的相关研究工作的梳理,有助于把握该研究的发展趋势、发现该研究中存在的不足,并为未来的工作提供借鉴和指导。[方法/过程]在学术论文的问题和方法的挖掘方面,现有研究围绕4个研究点展开,分别是问题与方法及其关系定义、问题与方法及其关系标注数据集构建、问题与方法识别及其关系抽取的模型设计以及问题与方法及其关系的应用。本文分别对这4个研究点进行梳理,归纳总结现有学术论文中问题和方法知识挖掘的现状。[结果/结论]分析发现,在问题与方法的相关定义中,较少结合科学哲学中的问题学等理论进行定义;在问题与方法数据集构建中,存在数据集重复标注的现象,另外,开源数据集集中在自然科学领域且一般为英语语料,中文开源语料稀缺;在问题与方法识别及其关系抽取中,现有抽取模型性能较低;有关问题和方法的研究不应止步于词语识别和关系抽取,需对挖掘出的知识进行深入分析和应用。  相似文献   

17.
图书采访批量查重探析   总被引:2,自引:0,他引:2  
本文探讨在ILASⅡ2.0系统下通过数据转换.利用图书馆自动化系统软件或专业软件,实现了图书采访批量查重.并对批量查重的实际运用和实用性进行了详细的分析。  相似文献   

18.
一、模板处理应用在数字化图书馆中 模板处理是信息抽取过程中的一种特殊技巧,它涉及自然语言的处理方法NLP(Natu-ral Language Process),利用自然语言的优势,先将图像、声音等多媒体信息的内容用文字进行确切的描述,揭示其内在的各种语义相关性、时空关联性,形成描述性的自由文本,然后直接从数据的正文中抽取数据或者从包含数据的文本中形成可识别模式,再从中抽取信息.  相似文献   

19.
鉴于重要关键词对于文本有着重要的强文本表示功能,关键词抽取和筛选在信息检索、信息抽取和知识挖掘等领域中有着重要的作用。在调研当前关键词抽取的方法后,结合医学领域已有的叙词表和工具以及BM25F加权词频公式提出基于医学文本的重要关键词抽取和筛选的技术方法。该方法主要解决两个关键问题:关键词的识别和抽取、关键词重要性的衡量和筛选。以2001-2007年骨关节炎领域的文献集合为数据来源,对该技术方法进行实践尝试,并验证其实际有效性,为知识挖掘中的重要关键词抽取提供一个行之有效的途径。  相似文献   

20.
针对专利资源,研究一种有效地从专利数据库中获取高质量双语对译语料的方法.该方法利用网页的URL命名特点获取专利数据的详细网页,以实现网页的批量下载,并通过网页解析,采用正则匹配表达式提取出网页上的所需信息,合并数据后形成双语对照的语料数据库.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号