首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 437 毫秒
1.
[目的/意义]基于数据科学与情报学领域的密切联系,对数据科学任职要求知识进行深入挖掘,有利于掌握社会对于情报学相关领域人才的需求,从而完善情报学教育的培养方案,帮助实现社会需求与高校教育的良好对接。[方法/过程]文章采集了国内主流招聘网站中数据科学相关工作岗位的招聘信息,并对数据进行解析、去重等清洗工作,对招聘信息中的任职要求实体进行人工标注,比较了LSTM,BiLSTM-CRF和BERT三种深度学习模型应用于实体识别的效果。[结果/结论]结果表明,BiLSTM-CRF模型对任职要求实体的识别效果最好,相较于其他两种深度学习模型具有一定的优势。文章根据抽取出的任职要求实体从实践能力、学历要求、脚本语言、数据处理、综合素质等方面总结了目前情报学人才应当具备的技能和素质,并由此提出了针对情报学教育的人才培养方案。  相似文献   

2.
[目的/意义]情报学作为信息科学群的一个分支学科,在大数据时代呈现出更高的职责要求,iSchool这一高校信息学院联盟培养符合新时代需求的信息领域人才。[方法/过程]为探索情报学学科的教学模式和特点,文章以iSchool培养计划为研究对象,分别基于Bi-LSTM-CRF和BERT深度学习方法,构建能力和研究领域的自动抽取模型,挖掘其中情报学科教学信息。在模型的基础上,完成iSchool培养计划的知识挖掘,统计iSchool院校对学生的能力要求以及主要的研究领域,并按照iSchool等级进行系统和深入的统计分析。[结果/结论]在上述分析的基础上,发现和总结当前情报学教育的发展态势,为我国情报学教育体系设计提供切实可行的建议。  相似文献   

3.
[目的/意义]针对在线医疗社区问答文本复杂程度高、结构化程度低的特点,结合卷积神经网络(CNN)和双向长短记忆神经网络(BiLSTM)两种深度学习模型以及条件随机场(CRF)模型,提出一套适用于在线医疗问答文本的实体识别方法并进行验证。 [过程/方法] 将问答文本进行清洗和BIO标注后,分别用CNN和BiLSTM进行字级别的特征抽取,将两种模型抽取到的特征进行融合,后放入CRF中训练出实体预测模型,再将问答文本放入训练好的模型中得到最终的实体识别结果。[结果/结论]在所选取的乳腺癌医疗社区问答文本数据集上,所提出的方法结果优于其他模型,且识别准确率达到92.3%,召回率达到89.3%,F值达到90.8%。  相似文献   

4.
【目的/意义】金融领域实体关系抽取是构造金融知识库的基础,对金融领域的文本信息利用具有重要作 用。本文提出金融领域实体关系联合抽取模型,增加了对金融文本复杂重叠关系的识别,可以有效避免传统的流 水线模型中识别错误在不同任务之间的传递。【方法/过程】本文构建了高质量金融文本语料,提出一种新的序列 标注模式和实体关系匹配规则,在预训练语言模型BERT(Bidirectional Encoder Representations from Transformers) 的基础上结合双向门控循环单元 BiGRU(Bidirectional Gated Recurrent Units)与条件随机场 CRF(Conditional Random Field)构建了端到端的序列标注模型,实现了实体关系的联合抽取。【结果/结论】针对金融领域文本数据 进行实验,实验结果表明本文提出的联合抽取模型在关系抽取以及重叠关系抽取上的F1值分别达到了0.627和 0.543,初步验证了中文语境下本文模型对金融领域实体关系抽取的有效性。【创新/局限】结合金融文本特征提出 了新的序列标注模式并构建了基于BERT的金融领域实体关系联合抽取模型,实现了对金融文本中实体间重叠关 系的识别。  相似文献   

5.
[目的/意义]从研究成果中抽取数据线索,进而构建针对特定主题的数据索引,有助于提升研究者查找数据的全面性。[方法/过程]以社会科学领域所有学科中文核心期刊中关于“COVID-19”论文的题录信息为例,分三步进行了探索。(1)随机抽取1000篇摘要进行人工标注,然后以此为基础使用自适应增强等模型训练分类器,进而使用分类器识别出使用了数据的论文。(2)从使用数据的论文摘要中标注出数据线索实体,进而使用隐马尔可夫、长短期记忆网络等模型进行实体识别。(3)使用Neo4j数据库,基于抽取出的数据线索与题录中的其他信息构建知识图谱。[结果/结论]在判断论文是否使用了数据的任务中,自适应增强模型的F1值最高,达到0.869。在数据线索实体识别任务中,隐马尔可夫模型的F1值最高,达到0.805。由抽取出的数据线索与论文关键词、作者、期刊等信息融合构建的知识图谱能够实现基于主题词查找数据线索、基于数据线索查找其他信息等应用。  相似文献   

6.
[目的/意义]识别跨学科引用的主要学科,有助于促进学科之间的知识交流,探析学科间的联系,推动学科创新发展。[方法/过程]引入物理学动能定理,从引用质量和引用转化率两方面构建引用动能模型,计算目标学科引用其他学科文献而具有的动能,根据动能的大小,识别该学科引用知识的主要来源学科,挖掘学科间的联系。[结果/结论]以图书情报学为例进行实证研究,发现管理学是与图书情报学知识交流最密切的学科,其次为计算机科学与经济学。探析图书情报学与被引学科之间的联系,促进跨学科知识交流,进而有助于研究学科之间的交叉融合现象,发掘学科生长点,培育新兴交叉学科,构建协调可持续发展的学科体系。  相似文献   

7.
丁浩  孔令圆  刘清  胡广伟 《现代情报》2023,(11):135-145
[目的/意义]本文针对农业领域提出一种基于融合多重特征词嵌入模型的农业命名实体识别方法,以提高识别准确度。[方法/过程]通过使用结合字符、位置语义、领域知识字典特征等多重特征向量作为嵌入层,充分考虑字符的位置信息和上下文语义信息,并根据农业领域的中文实体的特点改进了单一字符向量嵌入,获得更多的农业实体特征,同时采用双向长短时记忆网络BiLSTM和多头注意力机制来学习文本的长距离依赖信息,再利用条件随机场CRF获得全局最优标注序列。[结果/结论]本文在农业领域中文实体语料数据集中与9种基于基线方法进行对比实验,模型的Precision为92.2%,Recall为92.0%,F1值为92.11%,均优于其他基线模型,说明本文模型对于中文农业命名实体识别更精确。  相似文献   

8.
赵月华  朱思成  苏新宁 《情报科学》2021,39(12):165-173
【 目的/意义】解决获取虚假网络医疗信息数据集时专业知识不足的问题,帮助在小样本领域构建虚假网络 医疗信息识别模型。【方法/过程】本文提出一种基于权威辟谣信息转化提取构建网络虚假医疗信息数据集的思路, 并依次构建传统机器学习模型、CNN模型和BERT模型进行分类识别。【结果/结论】结果表明,基于辟谣信息能够 实现以较低成本、不依赖专家标注构建虚假医疗信息数据集。通过对比实验发现,基于微博数据预训练的 BERT 模型准确率为 95.91%,F1值为 94.57%,相比于传统机器学习模型和 CNN模型提升分别接近 6%和 4%,表明本文构 建的基于预训练的BERT模型在网络虚假医疗信息识别任务上取得了更好的效果。【创新/局限】本文提出的方法能 以较低成本建立专业领域的虚假信息数据集,所构建的BERT虚假医疗信息识别模型在小样本领域也具有实用价 值,但在数据集规模、深度学习模型对比、模型性能评价指标等方面还有待拓展与延伸。  相似文献   

9.
【目的/意义】对南海历史事件中具有标识意义的事件要素进行提炼与梳理,是构建南海大事记、讲好中国南海故事的基础。【方法/过程】首先总结南海历史事件的特殊性,进而论述南海叙事的具体维度,在此基础上定义事件要素划分标准实现对南海历史事件的规范建模,接着提出了一种结合规则与深度学习的事件要素自动抽取方法,最后以南海相关学术论文为对象,通过实证研究验证了该方法的有效性及效率。【结果/结论】研究表明,BERT+BiLSTM+CRF模型表现优于其它对比模型,宏观F1值达到87.73%;通过规则约束优化BERT+BiLSTM+CRF模型后,宏观F1值达到88.76%,取得了不错的效果,在面向泛化南海历史事件文本时能快速、有效地抽取出各类型事件要素实例。【创新/局限】结合南海历史事件的特征,探索了面向多维度南海叙事的事件要素自动抽取方法,实现学术论文中各类型事件要素的抽取,后续有待在更多文献资料类型上进行泛化实验。  相似文献   

10.
[研究目的]为提高专利知识图谱构建的自动化水平,并实现知识服务与交易服务的融合,提出了面向供需信息挖掘的供需知识图谱(PSD-KG)的构建思路。[研究方法]知识图谱规划方面,对专利交易涉及实体及关系进行了拓展,规划了共由12类实体和14类关系组成的PSD-KG。知识图谱构建方法上,建立专利领域词典以实现语料自动化标注,并提出了基于BERT-BiLSTM-CRF模型的语义实体识别方法。[研究结论]与传统的CRF、BiLSTM-CRF模型对比发现,该文模型的准确率、召回率和F1指数均高于85%,验证了方法的有效性;以燃料电池领域为例构建PSD-KG,通过技术供需热点识别及演化研究,识别出三类技术热点,包括:持续热门技术点、新兴热门技术点和潜在热点技术;并在交易网络分析、供需信息检索等方面挖掘新应用场景。研究成果也为专利交易推荐提供了知识库。  相似文献   

11.
任妮  鲍彤  沈耕宇  郭婷 《情报科学》2021,39(11):96-102
【 目的/意义】开展面向领域的细粒度命名实体识别研究对于提升文本挖掘精度具有重要的意义,本文以番 茄病虫害命名实体为例,探索采用深度学习技术实现面向领域的细粒度命名实体识别研究方法。【目的/意义】文章 以电子书、论文、网页作为数据源,选择品种、病虫害、症状、时间、部位、防治药剂六类实体进行标注,利用BERT和 CBOW 预训练字向量分别输入 BiLSTM-CRF 模型训练,并在识别后补充规则控制实体的边界。【结果/结论】 BERT预训练的字向量和BiLSTM-CRF结合,在补充规则控制后F值达到了81.03%,优于其它模型,在番茄病虫害 领域的实体识别中具有较好的效果。【创新/局限】BERT预训练的字向量可以有效降低番茄病虫害领域实体因分 词错误带来的影响,针对不同实体的特点,补充规则可以有效控制实体边界,提高识别准确率。但本文的规则补充 仅在测试阶段,并没有加入训练过程,整体的准确率还有待提高。  相似文献   

12.
王仁武  孟现茹  孔琦 《现代情报》2018,38(10):57-64
[目的/意义]研究利用深度学习的循环神经网络GRU结合条件随机场CRF对标注的中文文本序列进行预测,来抽取在线评论文本中的实体-属性。[方法/过程]首先根据设计好的文本序列标注规范,对评论语料分词后进行实体及其属性的命名实体标注,得到单词序列、词性序列和标注序列;然后将单词序列、词性序列转为分布式词向量表示并用于GRU循环神经网络的输入;最后输出层采用条件随机场CRF,输出标签即是实体或属性。[结果/结论]实验结果表明,本文的方法将实体-属性抽取简化为命名实体标注,并利用深度学习的GRU捕获输入数据的上下文语义以及条件随机场CRF获取输出标签的前后关系,比传统的基于规则或一般的机器学习方法具有较大的应用优势。  相似文献   

13.
丁晟春  方振  王楠 《现代情报》2009,40(3):103-110
[目的/意义] 为解决目前网络公开平台的多源异构的企业数据的散乱、无序、碎片化问题,提出Bi-LSTM-CRF深度学习模型进行商业领域中的命名实体识别工作。[方法/过程] 该方法包括对企业全称实体、企业简称实体与人名实体3类命名实体识别。[结果/结论] 实验结果显示对企业全称实体、企业简称实体与人名实体3类命名实体识别的识别率平均F值为90.85%,验证了所提方法的有效性,证明了本研究有效地改善了商业领域中的命名实体识别效率。  相似文献   

14.
[目的/意义] 研究生教育作为国民教育序列的顶端,肩负着"高端人才供给"和"科学技术创新"的双重使命,对实现国家战略、支撑现代化强国建设具有重大意义。大数据时代对我国研究生信息素质提出更高的要求,也对高校传统信息素养教育发起挑战。[方法/过程] 文章综合运用情报学、传播学与高等教育学跨学科研究方法,以情报学视角论述研究生信息素养教育引入游戏化机制的必要性,随后对美国高校游戏化信息素养教育现状展开探讨,通过对比研究获取信息有效传播路径及优势教育经验。[结果/结论] 最后基于情报学视角提出我国研究生信息素养教育游戏化策略,形成以"游戏设计服务需求、协同宣传与媒介推广、强化游戏馆员内生动力、优化游戏化学习体验"四位一体创新体系。  相似文献   

15.
【目的/意义】学术论文的结构功能是学术论文篇章结构和语义内容的集中体现,目前针对学术论文结构功 能的研究主要集中在对学术论文不同层次的识别以及从学科差异性视角探讨模型算法的适用性两方面,缺少模 型、学科、层次之间内在联系的比较研究。【方法/过程】选择中医学、图书情报、计算机、环境科学、植物学等学科中 文权威刊物发表的学术论文作为实验语料集,在引入CNN、LSTM、BERT等深度学习模型的基础上,分别从句子、 段落、章节内容等层次对学术论文进行结构功能识别。【结果/结论】实验结果表明,BERT模型对于不同学科学术论 文以及学术论文的不同层次的结构功能识别效果最优,各个模型对于不同学科学术论文篇章内容层次的识别效果 均最优,中医学较之其他学科的学术论文结构功能识别效果最优。此外,利用混淆矩阵给出不同学科学术论文结 构功能误识的具体情形并分析了误识原因。【创新/局限】本文研究为学术论文结构功能识别研究提供了第一手的 实证资料。  相似文献   

16.
[目的/意义]在大数据和人工智能的大环境下,社会对情报学人才的需求发生了改变。为此,情报学人才的培养也应做出相应的调整。[方法/过程]以问卷调查的形式展开,以情报所工作人员为调查对象,针对实际工作需求,从学历、学科背景、工作经验、跨学科学习经历、学科知识与基本能力等方面分析对情报工作者能力的具体需求,从情报学教学、专业技能培养、学科融合、实践能力培养等方面探讨我国情报学人才培养问题。[结果/结论]年龄在25~35的具有跨学科背景和学习经历的硕士更适合开展现阶段情报工作;同时情报工作者还应具备强有力的分析和洞察数据的能力。情报学人才培养应围绕数据分析流程,融合数据科学的学科内容,依次从课程设置、具体专业技能培养和实践环节展开。  相似文献   

17.
[目的/意义]对情报学知识来源的分析,有助于情报学界更好地把握学科研究内容、探究现有研究是否偏离情报学的本原。[方法/过程]文章基于4种情报学中文核心期刊的刊载文献及其中文参考文献,使用OI~*_i等指标定量分析国内情报学研究中各学科对情报学领域的知识输入量,并通过LDA主题模型识别各学科知识输入的主要内容。[结果/结论]研究发现,国内情报学研究过度依赖经济学、计算机科学、法学及管理学等学科,情报学中有关信息的研究较多,对真正的情报问题重视不够,急需加强自身理论和方法建设,增强学科独立性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号