首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
基于BERT的领域本体分类关系自动识别研究   总被引:1,自引:0,他引:1       下载免费PDF全文
【目的/意义】实现对领域本体分类关系的自动学习识别,解决领域本体知识框架结构体系的自动化构建问 题。【方法/过程】通过对领域本体分类关系自动识别的国内外研究现状及存在问题进行分析总结,以当前开源的先 进的深度学习文本预训练模型BERT为基础,研究构建了基于BERT的领域本体分类关系自动识别模型,并以资源 环境学科领域为例进行了实验研究和评估分析。【结果/结论】基于BERT构建的分类模型能够实现对领域本体分类 关系的自动识别,识别方法和流程具有极大地通用性和可移植性,识别精度比传统方法有了较大提升。【创新/局 限】微调与泛化了BERT,提高了领域本体分类关系识别模型的通用性和精度。但由于受分类标注语料的质量限 制,模型精度尚未达到峰值,有待进一步优化提升。  相似文献   

2.
李晓敏  王昊  李跃艳 《情报科学》2022,40(4):156-165
【目的/意义】为帮助科研用户快速准确地找到与自身研究兴趣相关的学术论文,构建了基于细粒度语义实 体的学术论文推荐模型。【方法/过程】将实验前期识别出的研究主题、研究对象和理论技术类语义实体作为学术论 文和核心作者的内容特征,分别利用TF-IDF算法、TextRank算法和LDA模型得到学术论文和核心作者的特征词, 利用Word2vec对特征词进行向量化,再计算核心作者和学术论文的余弦相似度,将余弦相似度值靠前的Top20推 荐给作者。【结果/结论】利用准确率、召回率和F值对基于三种算法得到的特征词生成的推荐结果进行比较评价,结 果表明,基于TF-IDF算法得到的特征词生成的推荐效果最佳,并对推荐结果进行了实例展示,可以看出本文提出 的推荐模型能够更为全面地为科研用户推荐与其研究兴趣类似的学术论文,提高科研效率。【创新/局限】本文主要 是从学术论文的内容特征入手,对类型细分后的关键词利用不同算法进行核心作者特征词筛选,进而实现学术论 文推荐,但是对学术论文中包含的网络关系并未涉及。  相似文献   

3.
赵月华  朱思成  苏新宁 《情报科学》2021,39(12):165-173
【 目的/意义】解决获取虚假网络医疗信息数据集时专业知识不足的问题,帮助在小样本领域构建虚假网络 医疗信息识别模型。【方法/过程】本文提出一种基于权威辟谣信息转化提取构建网络虚假医疗信息数据集的思路, 并依次构建传统机器学习模型、CNN模型和BERT模型进行分类识别。【结果/结论】结果表明,基于辟谣信息能够 实现以较低成本、不依赖专家标注构建虚假医疗信息数据集。通过对比实验发现,基于微博数据预训练的 BERT 模型准确率为 95.91%,F1值为 94.57%,相比于传统机器学习模型和 CNN模型提升分别接近 6%和 4%,表明本文构 建的基于预训练的BERT模型在网络虚假医疗信息识别任务上取得了更好的效果。【创新/局限】本文提出的方法能 以较低成本建立专业领域的虚假信息数据集,所构建的BERT虚假医疗信息识别模型在小样本领域也具有实用价 值,但在数据集规模、深度学习模型对比、模型性能评价指标等方面还有待拓展与延伸。  相似文献   

4.
任妮  鲍彤  沈耕宇  郭婷 《情报科学》2021,39(11):96-102
【 目的/意义】开展面向领域的细粒度命名实体识别研究对于提升文本挖掘精度具有重要的意义,本文以番 茄病虫害命名实体为例,探索采用深度学习技术实现面向领域的细粒度命名实体识别研究方法。【目的/意义】文章 以电子书、论文、网页作为数据源,选择品种、病虫害、症状、时间、部位、防治药剂六类实体进行标注,利用BERT和 CBOW 预训练字向量分别输入 BiLSTM-CRF 模型训练,并在识别后补充规则控制实体的边界。【结果/结论】 BERT预训练的字向量和BiLSTM-CRF结合,在补充规则控制后F值达到了81.03%,优于其它模型,在番茄病虫害 领域的实体识别中具有较好的效果。【创新/局限】BERT预训练的字向量可以有效降低番茄病虫害领域实体因分 词错误带来的影响,针对不同实体的特点,补充规则可以有效控制实体边界,提高识别准确率。但本文的规则补充 仅在测试阶段,并没有加入训练过程,整体的准确率还有待提高。  相似文献   

5.
唐晓波  翟夏普 《情报科学》2019,37(4):97-102
【目的/意义】如何识别文本中的知识片段进行标引,使检索系统能检索文本知识内容是提高用户信息利 用效率的关键。【方法/过程】在文献调查的基础上,文章基于本体概念模型和Word2Vec词向量模型阐述了文本片 段语义标引的流程框架,并对本体语义扩展、神经网络模型训练、文本片段标引、文本片段权重获取四个部分的关 键环节及技术做了详细说明。最后通过实验验证了该流程框架。【结果/结论】实验结果显示该方法在文本知识片 段识别上是有效的,知识识别的准确率达到80%,能够实现对文本知识内容进行标引。该方法为自动化实现基于知 识的文本信息组织提供了有益的参考。  相似文献   

6.
马达  卢嘉蓉  朱侯 《情报科学》2023,41(2):60-68
【目的/意义】探究针对微博文本的基于深度学习的情绪分类有效方法,研究微博热点事件下用户转发言论的情绪类型与隐私信息传播的关系。【方法/过程】选用BERT、BERT+CNN、BERT+RNN和ERNIE四个深度学习分类模型设置对比实验,在重新构建情绪7分类语料库的基础上验证性能较好的模型。选取4个微博热点案例,从情绪分布、情感词词频、转发时间和转发次数四个方面展开实证分析。【结果/结论】通过实证研究发现,用户在传播隐私信息是急速且短暂的,传播时以“愤怒”和“厌恶”等为代表的消极情绪占主导地位,且会因隐私信息主体的不同而产生情绪类型和表达方式上的差异。【创新/局限】研究了用户在传播隐私信息行为时的情绪特征及二者的联系,为保护社交网络用户隐私信息安全提供有价值的理论和现实依据,但所构建的语料库数据量对于训练一个高准确率的深度学习模型而言还不够,且模型对于反话、反讽等文本的识别效果不佳。  相似文献   

7.
【目的/意义】对南海历史事件中具有标识意义的事件要素进行提炼与梳理,是构建南海大事记、讲好中国南海故事的基础。【方法/过程】首先总结南海历史事件的特殊性,进而论述南海叙事的具体维度,在此基础上定义事件要素划分标准实现对南海历史事件的规范建模,接着提出了一种结合规则与深度学习的事件要素自动抽取方法,最后以南海相关学术论文为对象,通过实证研究验证了该方法的有效性及效率。【结果/结论】研究表明,BERT+BiLSTM+CRF模型表现优于其它对比模型,宏观F1值达到87.73%;通过规则约束优化BERT+BiLSTM+CRF模型后,宏观F1值达到88.76%,取得了不错的效果,在面向泛化南海历史事件文本时能快速、有效地抽取出各类型事件要素实例。【创新/局限】结合南海历史事件的特征,探索了面向多维度南海叙事的事件要素自动抽取方法,实现学术论文中各类型事件要素的抽取,后续有待在更多文献资料类型上进行泛化实验。  相似文献   

8.
范昊  何灏 《情报科学》2022,40(6):90-97
【目的/意义】随着社交媒体的发展,各类新闻数量激增,舆情监测处理越来越重要,高效精确的识别舆情新 闻可以帮助有关部门及时搜集跟踪突发事件信息并处理,减小舆论对社会的影响。本文提出一种融合 BERT、 TEXTCNN、BILSTM的新闻标题文本分类模型,充分考虑词嵌入信息、文本特征和上下文信息,以提高新闻标题类 别识别的准确率。【方法/过程】将使用BERT生成的新闻标题文本向量输入到TEXTCNN提取特征,将TEXTCNN 的结果输入到 BILSTM 捕获新闻标题上下文信息,利用 softmax判断分类结果。【结果/结论】研究表明,本文提出的 融合了基于语言模型的 BERT、基于词向量 TEXTCNN 和基于上下文机制 BILSTM 三种算法的分类模型在准确 率、精确率、召回率和F1值均达到了0.92以上,而且具有良好的泛化能力,优于传统的文本分类模型。【创新/局限】 本文使用BERT进行词嵌入,同时进行特征提取和捕获上下文语义,模型识别新闻类别表现良好,但模型参数较多 向量维度较大对训练设备要求较高,同时数据类别只有10类,未对类别更多或类别更细化的数据进行实验。  相似文献   

9.
【目的/意义】分析学科水平对用户知识交流行为和效果的影响,促进用户对学术虚拟社区的使用,提升用 户的知识交流效果,为学术虚拟社区的建设与发展提供建议。【方法/过程】以“计算机科学与技术”学科为例,收集 ResearchGate平台的用户数据和学科数据,运用描述统计法分析不同学科水平下的知识交流特征,运用因子分析法 和多层线性模型探究学科水平对用户知识交流效果的影响。【结果/结论】组织层次和个人层次的知识交流在不同 学科水平下具有不同的表现,学科水平对用户的知识交流效果具有显著的直接作用和调节作用。【创新/局限】研究 结论可能受学科特征、平台活跃度和样本均衡问题的影响。  相似文献   

10.
李枫林  柯佳 《情报科学》2019,37(1):156-164
【目的/意义】文本表示是自然语言处理的基础工作,是信息检索、文本分类、问答系统的关键问题。【方法/ 过程】论文介绍了传统的文本表示方法,按照文本不同的粒度,回顾了近五年国内外基于神经网络模型的词表示、 句子表示、篇章(段落)表示的方法,并提出了未来的研究方向。【结果/结论】实验发现,通过在神经网络模型中融入 更多的特征能得到更优的词向量,但词向量还缺乏统一的评价标准,句子向量表示通常根据具体NLP任务建模,不 同结构的模型在特征表示、运算速度上各有优劣势,篇章表示通常使用层次组合模型。  相似文献   

11.
郝彦辉  王曦  陈铎 《情报科学》2021,39(8):78-85
【目的/意义】教育招生考试备受社会各界关注,极易触发舆情事件。及时监测并准确研判相关网络信息传 播发展态势,发现潜在舆情并处置应对,对于保障考试安全和维护学校声誉具有重要意义。【方法/过程】采集研究 生复试期间主流媒体社交平台数据,将BERT语言训练模型同BiLSTM相结合,构建深度神经网络模型,对文本的 情感极性进行分析。用TextRank算法提取不同情感极性类属文本的热门主题词,监测潜在舆情并提出管理建议。 【结果/结论】实证结果表明,该模型能够有效挖掘不同情感极性下的热门主题信息,从而发现潜在隐患以及可能发 生的舆情焦点,为高校网络舆情管控提供了方法参考和实践依据。【创新/局限】与传统方法相比,基于BERT的预训 练语言模型可有效解决因数据量少而导致模型无法准确表示不同语句之间复杂关系的局限性,同时BERT可对文 本进行双向建模,捕获不同句子之间的关系特点,提升对文本情感主题挖掘的准确性。  相似文献   

12.
【目的/意义】海量科技文献中存在大量潜在“精品”文献,如何识别并利用此类文献是目前较具现实意义的 研究问题。【方法/过程】本文以Web of Science数据库中人工智能领域1990-2010年期间的文献原文及引文数据为 样本,构建该领域文献原文-引文特征向量空间,融合决策树和逻辑回归模型对文献特征向量空间进行模型训练和 潜在“精品”论文识别的测试应用。【结果/结论】实验结果表明,“发表五年后被引量”特征变量的加入能够显著提升 决策树和逻辑回归模型的识别分类效果,使得两类模型的识别准确率分别达到 84%和 89%以上,提升幅度达到 20 多个百分点。逻辑回归模型的识别效果始终优于决策树模型,通过调整两种模型的超参数,能够使得模型获得更 理想的识别效果。此外,早期人工智能领域科学研究仍处于小团队协作阶段,领域文献的基金支持和开放获取程 度较低。【创新/局限】尽管论文创新性引入机器学习方法实现潜在“精品”文献识别模型的建模与应用,然而仍需将 模型拓展到更多学科领域。  相似文献   

13.
刘运梅  张帅  王丹丹 《情报科学》2022,40(3):174-182
【目的/意义】在双一流学科建设背景下,本文基于学科研究主题分类模型、z指数评价模型,以国内图书情 报与档案管理领域 25 所一级学科点为例,建立了高校学科点的优势研究方向识别方法。【方法/过程】利用 Word2vec 模型结合 k-means 进行关键词聚类,将图情档学科划分为 12 个研究主题;其次,基于匹配的主题-学科 点-被引频次三维关系,建立25所学科点在12个研究主题下的300个评价数据集;最后,计算学科点在不同研究主 题中的zsi指数,并识别学科点的优势研究方向。【结果/结论】实验发现:z指数评价模型较好地实现了各机构发表论 文数量、质量、被引分布之间的平衡。其次,基于细粒度研究主题的学科点评价方法具有分类评价、多元化评价的 相对优势。【创新/局限】本文提出的评价模型可为不同科研群体提供一定的信息参考与决策支持,同时也为国内 高校学科评价提供了一个相对公平、个性化、多元化的评价视角;但该评价模型易受主题分类质量的影响。  相似文献   

14.
商宪丽 《情报科学》2017,35(5):25-29
【目的/意义】以主题为粒度,本文剖析交叉学科的主题结构及其内部传统学科间知识合作模式。【方法/过 程】以数字图书馆学科为交叉学科示例,对集成数据集运用潜在主题模型识别主题,通过主题共现网络分析其主题 结构,以此探寻传统学科中的研究基础,进而利用主题类型共现网络揭示不同传统学科之间的知识合作模式。【结 果/结论】数字图书馆学科中的多个主题萌发于传统学科,研究对象组合和借鉴传统学科的研究成果作为技术手段 是数字图书馆学研究中重要的主题合作模式。  相似文献   

15.
【目的/意义】金融领域实体关系抽取是构造金融知识库的基础,对金融领域的文本信息利用具有重要作 用。本文提出金融领域实体关系联合抽取模型,增加了对金融文本复杂重叠关系的识别,可以有效避免传统的流 水线模型中识别错误在不同任务之间的传递。【方法/过程】本文构建了高质量金融文本语料,提出一种新的序列 标注模式和实体关系匹配规则,在预训练语言模型BERT(Bidirectional Encoder Representations from Transformers) 的基础上结合双向门控循环单元 BiGRU(Bidirectional Gated Recurrent Units)与条件随机场 CRF(Conditional Random Field)构建了端到端的序列标注模型,实现了实体关系的联合抽取。【结果/结论】针对金融领域文本数据 进行实验,实验结果表明本文提出的联合抽取模型在关系抽取以及重叠关系抽取上的F1值分别达到了0.627和 0.543,初步验证了中文语境下本文模型对金融领域实体关系抽取的有效性。【创新/局限】结合金融文本特征提出 了新的序列标注模式并构建了基于BERT的金融领域实体关系联合抽取模型,实现了对金融文本中实体间重叠关 系的识别。  相似文献   

16.
胡玉宁  韩玺  朱学芳 《情报科学》2021,39(11):21-29
【 目的/意义】从文献实体的多特征数据融合的视角构建基于主题指纹-引文耦合的数据融合理论模型,并 对数据融合过程进行实证分析。【方法/过程】对融合主题指纹-引文的方法逻辑进行理论阐释和数学机理分析,以 乳腺小叶癌为案例呈现文献特征项的数据融合过程,通过主题指纹的类别归属与引文期刊所属JCR学科的对比发 现二者在揭示知识表征方面的功能特征。【结果/结论】融合主题指纹-引文的2-模知识网络能够发挥主题指纹和引 文共同揭示学科主题和知识结构的功能;引文信息表征了研究的学科基础、学科背景等稳定性知识结构信息,主题 指纹代表了学科研究前沿、突变主题、新兴趋势等动态性知识主题信息。【创新/局限】融合主题指纹-引文的理论模 型和分析方法是从数据融合层面将内容分析方法与引文分析方法进行结合的有效尝试,未来的研究将聚焦多模知 识网络构建、网络结构分析和量化测度研究,进一步提高该理论模型在知识服务领域应用的科学性、普适性。  相似文献   

17.
商宪丽 《情报科学》2018,36(6):57-62
【目的/意义】本文剖析交叉学科的潜在主题识别,分析潜在主题的文献数量,揭示交叉学科的研究主题、构 成和热门研究主题。【方法/过程】以数字图书馆学科为实例,构建交叉学科集成数据集,经过数据集预处理、LDA主 题模型训练、潜在主题标签标注等处理过程,挖掘出交叉学科中的潜在主题及其构成,揭示交叉学科的热门研究主 题。【结果/结论】本文提出了一种基于潜在主题模型的交叉学科主题识别方法,该方法利用了交叉学科与相关基础 学科之间的内在关联,通过整合交叉学科研究文献与相关基础学科研究文献构建集成数据集,能够更为精确地识 别交叉学科的潜在主题和热门研究主题。  相似文献   

18.
【目的/意义】基于Rao-Stirling 指数和LDA模型进行领域学科交叉主题识别,并以纳米科技为例验证将 Rao-Stirling 指数和LDA模型用于领域学科交叉主题识别的有效性和适用性。【方法/过程】基于Rao-Stirling 指数 测度领域文献学科交叉程度,设定阈值发现高度学科交叉文献。基于LDA模型对筛选出的学科交叉文献进行主题 识别,发现学科交叉点和学科交叉研究主题。【结果/结论】基于Rao-Stirling 指数从引文的角度进行领域文献学科 交叉测度可以有效地发现与某领域相关的学科交叉文献,且有利于大数据集的学科交叉文献发现研究的实现。基 于LDA模型进行学科交叉主题识别可以有效地发现学科交叉主题。两方法的组合应用为发现某领域学科交叉主 题研究提供一种新视角。  相似文献   

19.
朱光  潘高枝  李凤景 《情报科学》2022,40(4):127-137
【目的/意义】识别信息隐私研究领域的热点主题,梳理主题演化路径。【方法/过程】针对主题识别语义杂乱 等问题,提出时序关联与结构表征视角下的主题演化分析方法。首先利用LDA(Latent Dirichlet Allocation)模型识 别多时间窗口下的文献主题,进一步运用共词分析绘制语义更为独立的主题凝聚子群。在此基础上,从时序关联 维度计算相邻窗口下主题间的相似度,梳理演化路径;从结构表征维度,设计主题新颖度、中心性、影响力等计量指 标,探寻信息隐私前沿和热点主题的演化变迁。【结果/结论】实证分析结果表明,本文方法可以深度挖掘信息隐私 领域研究主题,从宏微观两个维度全面梳理主题的演化路径。研究有利于探测信息隐私研究的前沿。【创新/局限】 综合运用LDA主题模型与共词分析方法绘制主题凝聚子群,从时序演化和结构表征两个维度探寻主题演化路径。 未来研究中有待于引入多种数据源以对比主题差异,有待于引入多元组术语改善主题识别效果。  相似文献   

20.
【目的/意义】跨学科输入知识是指其他学科(跨学科)的知识被目标学科多次引用,并逐渐成为目标学科的研究内容,刺激知识创新与生长,进而促进学科发展。因此,识别跨学科输入知识,测量其对目标学科发展的影响力,有利于分析学科进步的跨学科来源及作用力大小,有利于把握学科创新发展的现状与趋势。【方法/过程】基于跨学科引用,从跨学科输入知识在目标学科的研究热度、研究广度、研究深度3个方面,构建跨学科输入知识对目标学科发展的影响力模型,测度影响力程度。并以图书情报学跨学科程度较高的6种期刊数据为研究对象进行实证研究。【结果/结论】通过影响力模型,测量跨学科输入知识对图书情报学的影响力大小,并根据趋势分析法将跨学科知识的影响力趋势分为上升型、稳定型和下降型。【创新/局限】本文构建跨学科知识对学科发展的影响力模型并验证其有效性,后续将进一步分析跨学科知识对目标学科的作用点,识别跨学科知识生长点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号