首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
商宪丽 《情报科学》2018,36(6):57-62
【目的/意义】本文剖析交叉学科的潜在主题识别,分析潜在主题的文献数量,揭示交叉学科的研究主题、构 成和热门研究主题。【方法/过程】以数字图书馆学科为实例,构建交叉学科集成数据集,经过数据集预处理、LDA主 题模型训练、潜在主题标签标注等处理过程,挖掘出交叉学科中的潜在主题及其构成,揭示交叉学科的热门研究主 题。【结果/结论】本文提出了一种基于潜在主题模型的交叉学科主题识别方法,该方法利用了交叉学科与相关基础 学科之间的内在关联,通过整合交叉学科研究文献与相关基础学科研究文献构建集成数据集,能够更为精确地识 别交叉学科的潜在主题和热门研究主题。  相似文献   

2.
赵月华  朱思成  苏新宁 《情报科学》2021,39(12):165-173
【 目的/意义】解决获取虚假网络医疗信息数据集时专业知识不足的问题,帮助在小样本领域构建虚假网络 医疗信息识别模型。【方法/过程】本文提出一种基于权威辟谣信息转化提取构建网络虚假医疗信息数据集的思路, 并依次构建传统机器学习模型、CNN模型和BERT模型进行分类识别。【结果/结论】结果表明,基于辟谣信息能够 实现以较低成本、不依赖专家标注构建虚假医疗信息数据集。通过对比实验发现,基于微博数据预训练的 BERT 模型准确率为 95.91%,F1值为 94.57%,相比于传统机器学习模型和 CNN模型提升分别接近 6%和 4%,表明本文构 建的基于预训练的BERT模型在网络虚假医疗信息识别任务上取得了更好的效果。【创新/局限】本文提出的方法能 以较低成本建立专业领域的虚假信息数据集,所构建的BERT虚假医疗信息识别模型在小样本领域也具有实用价 值,但在数据集规模、深度学习模型对比、模型性能评价指标等方面还有待拓展与延伸。  相似文献   

3.
【目的/意义】全面分析中外科技文献可以把握当前某个领域或主题的研究热点和研究趋势,为了应对机器 翻译在分析海量外文科技文献时存在的科技术语翻译“领域不一致”问题,需要对科技术语信息匹配进行研究。【方 法/过程】提出了一种基于领域知识库的科技术语信息匹配模型,通过利用领域知识库构建领域多义术语词典,为 科技术语匹配更多翻译候选,并结合语言学特征、领域信息以及LSTM语言模型来挑选最合适译文。【结果/结论】用 化工领域的数据进行测试,验证模型的有效性,为深入分析外文文献中的技术理论提供了可靠又便捷的方法。  相似文献   

4.
周鑫  熊回香  肖兵 《情报科学》2023,(3):145-154
【目的/意义】针对在线医疗信息结构松散,医疗平台医生推荐精度不足的现状,设计了一种基于标签和患者咨询文本的医生推荐算法,提升医生推荐效果。【方法/过程】利用Word2vec模型训练患者咨询文本得到特征向量,改进余弦相似度算法计算医生推荐集A;利用LDA模型训练医生标签得到医生在主题上投影的概率分布,改进KL距离算法计算医生推荐集B;基于社会网络分析理论设计相关算法重构医生网络链接,选择中心性指标得到最终医生推荐集C。【结果/结论】以“丁香医生”数据进行实证,面向UGC数据丰富了算法的可用程度,弥补了单一推荐方法的不足,提高了推荐的精度。本文所提方法有效提升了医生推荐精度。【创新/局限】通过融合标签和患者咨询文本,采用社会网络分析实现了医生混合推荐。虽然通过中心性指标进行重要医生挖掘,但挖掘效果有提升空间。  相似文献   

5.
闫盛枫 《情报科学》2021,39(9):146-154
【目的/意义】探测特定领域政策文本语义主题,揭示我国政策部署领域与未来发展趋势。【方法/过程】提出 一种融合词向量语义增强和DTM模型的公共政策文本时序建模与可视化方法,采用DTM模型实现政策文本的时 序切割和主题建模,利用深度学习Word2vec算法中Skip-gram词嵌入技术可以对上下文词汇进行有效预测,增强 其语义表达性和政策解释性,以更为准确地揭示我国公共政策的部署重点。【结果/结论】实验表明本文提出的方法 对于公共政策主题识别和政策文本量化具有更好的知识抽取和语义表达能力,对我国公共政策挖掘和信息揭示具 有良好的揭示。【创新/局限】提出融合词向量语义增强和DTM模型的公共政策文本时序建模方法,一定程度上提 升了政策文本的主题语义表达,未来考虑利用深度学习技术如LSTM算法、BERT模型等识别政策中的领域知识单 元和语法结构。  相似文献   

6.
【目的/意义】海量科技文献中存在大量潜在“精品”文献,如何识别并利用此类文献是目前较具现实意义的 研究问题。【方法/过程】本文以Web of Science数据库中人工智能领域1990-2010年期间的文献原文及引文数据为 样本,构建该领域文献原文-引文特征向量空间,融合决策树和逻辑回归模型对文献特征向量空间进行模型训练和 潜在“精品”论文识别的测试应用。【结果/结论】实验结果表明,“发表五年后被引量”特征变量的加入能够显著提升 决策树和逻辑回归模型的识别分类效果,使得两类模型的识别准确率分别达到 84%和 89%以上,提升幅度达到 20 多个百分点。逻辑回归模型的识别效果始终优于决策树模型,通过调整两种模型的超参数,能够使得模型获得更 理想的识别效果。此外,早期人工智能领域科学研究仍处于小团队协作阶段,领域文献的基金支持和开放获取程 度较低。【创新/局限】尽管论文创新性引入机器学习方法实现潜在“精品”文献识别模型的建模与应用,然而仍需将 模型拓展到更多学科领域。  相似文献   

7.
王日花 《情报科学》2021,39(10):76-87
【目的/意义】解决自动问答系统构建过程中数据集构建成本高的问题,以及自动问答过程中仅考虑问题或 答案本身相关性的局限。【方法/过程】提出了一种融合标注问答库和社区问答数据的数据集构建方法,构建问题关 键词-问题-答案-答案簇多层异构网络模型,并给出了基于该模型的自动问答算法。获取图书馆语料进行处理作 为实验数据,将BERT-Cos、AINN、BiMPM模型作为对比对象进行了实验与分析。【结果/结论】通过实验得到了各 模型在图书馆自动问答任务上的效果,本文所提模型在各评价指标上均优于其他模型,模型准确率达87.85%。【创 新/局限】本文提出的多数据源融合数据集构建方法和自动问答模型在问答任务中相对于已有方法具有更好的表 现,同时根据模型效果分析给出用户提问词长建议。  相似文献   

8.
基于BERT的领域本体分类关系自动识别研究   总被引:1,自引:0,他引:1       下载免费PDF全文
【目的/意义】实现对领域本体分类关系的自动学习识别,解决领域本体知识框架结构体系的自动化构建问 题。【方法/过程】通过对领域本体分类关系自动识别的国内外研究现状及存在问题进行分析总结,以当前开源的先 进的深度学习文本预训练模型BERT为基础,研究构建了基于BERT的领域本体分类关系自动识别模型,并以资源 环境学科领域为例进行了实验研究和评估分析。【结果/结论】基于BERT构建的分类模型能够实现对领域本体分类 关系的自动识别,识别方法和流程具有极大地通用性和可移植性,识别精度比传统方法有了较大提升。【创新/局 限】微调与泛化了BERT,提高了领域本体分类关系识别模型的通用性和精度。但由于受分类标注语料的质量限 制,模型精度尚未达到峰值,有待进一步优化提升。  相似文献   

9.
【目的/意义】金融领域实体关系抽取是构造金融知识库的基础,对金融领域的文本信息利用具有重要作 用。本文提出金融领域实体关系联合抽取模型,增加了对金融文本复杂重叠关系的识别,可以有效避免传统的流 水线模型中识别错误在不同任务之间的传递。【方法/过程】本文构建了高质量金融文本语料,提出一种新的序列 标注模式和实体关系匹配规则,在预训练语言模型BERT(Bidirectional Encoder Representations from Transformers) 的基础上结合双向门控循环单元 BiGRU(Bidirectional Gated Recurrent Units)与条件随机场 CRF(Conditional Random Field)构建了端到端的序列标注模型,实现了实体关系的联合抽取。【结果/结论】针对金融领域文本数据 进行实验,实验结果表明本文提出的联合抽取模型在关系抽取以及重叠关系抽取上的F1值分别达到了0.627和 0.543,初步验证了中文语境下本文模型对金融领域实体关系抽取的有效性。【创新/局限】结合金融文本特征提出 了新的序列标注模式并构建了基于BERT的金融领域实体关系联合抽取模型,实现了对金融文本中实体间重叠关 系的识别。  相似文献   

10.
郭雪梅 《情报科学》2020,38(2):68-74
【目的/意义】为了提高信息服务的质量,文章融合“用户-标签-资源项”关系模型以及时间因素对于用户 标注资源的影响,提出了一种个性化推荐方法。【方法/过程】首先建立起“用户-标签-资源项”三者之间的关系模 型,分别计算用户对标签的偏好程度以及资源与标签的相关程度,以此为基础进行用户相似性和资源项相似性的 度量;然后,考虑标签使用的时间因素对用户兴趣偏好的影响结合基于用户标注行为的用户相似性以及资源项相 似性度量方法提出了改进的个性化推荐方法。【结果/结论】提出了一种综合标签和时间因素的推荐算法,该方法利 用标签使用频率描述用户偏好,并结合标签使用的时间因素动态更新用户偏好,提高推荐精度。该方法应用于医 学信息服务应用场景之中,并收集实验数据,最后将提出的方法与其他基于标签信息的协同过滤推荐方法在实验 数据集进行比较,实验结果发现该方法在推荐效果上优于对比方法。  相似文献   

11.
张景素  魏明珠 《情报科学》2022,40(10):164-170
【目的/意义】旨在研究少量标注样本构建古文断句模型,减少在模型训练过程中样本标注所需的成本,为 探索数字技术与人文学科的融合发展提供崭新的思路。【方法/过程】从古文样本的不确定性和多样性出发,提出一 种加权多策略选样方法,有效结合了 BERT-BiLSTM-CRF、BERT-CRF等古文断句模型。通过引入信息熵和相 似性等概念,深入分析古籍文本的不确定性和多样性,运用加权计算评估古文样本对模型训练的价值高低,对加权 多策略方法所筛选的有价值样本进行人工标注,同时更新到训练集进行模型迭代训练。【结果/结论】以古籍《宋史》 为例进行研究,所提出的方法分别在 BERT-BiLSTM-CRF、BERT-CRF等古文断句模型训练过程中减少原来训 练样本量的50%、55%,进一步验证了方法的有效性。【创新/局限】加权多策略选样的方法为古文断句模型训练提供 了一种新思路,未来将探索该方法在古籍整理中其他任务的适用性。  相似文献   

12.
【目的/意义】基于Rao-Stirling 指数和LDA模型进行领域学科交叉主题识别,并以纳米科技为例验证将 Rao-Stirling 指数和LDA模型用于领域学科交叉主题识别的有效性和适用性。【方法/过程】基于Rao-Stirling 指数 测度领域文献学科交叉程度,设定阈值发现高度学科交叉文献。基于LDA模型对筛选出的学科交叉文献进行主题 识别,发现学科交叉点和学科交叉研究主题。【结果/结论】基于Rao-Stirling 指数从引文的角度进行领域文献学科 交叉测度可以有效地发现与某领域相关的学科交叉文献,且有利于大数据集的学科交叉文献发现研究的实现。基 于LDA模型进行学科交叉主题识别可以有效地发现学科交叉主题。两方法的组合应用为发现某领域学科交叉主 题研究提供一种新视角。  相似文献   

13.
徐路路  王芳 《情报科学》2019,37(8):22-28
【目的/意义】识别科学研究前沿主题,预测未来发展趋势。【方法/过程】首先利用主题概率模型识别出论文、 专利及基金项目多源数据中的科学前沿主题;考虑研究前沿主题演化的复杂性和非线性的特点,利用机器学习算 法和支持向量机模型预测主题发展趋势,并采用改进后的粒子群算法对模型参数进行优化,以提高传统支持向量 机模型在处理非线性、小样本等数据上的预测准确度。【结果/结论】实验对比发现,本方法对于研究前沿主题的预测 准确度较高,准确识别出石墨烯领域未来发展趋势。  相似文献   

14.
张彬  徐建民  吴树芳 《情报科学》2020,38(4):147-152
【目的/意义】通过对大数据环境下的多源用户兴趣特征有效融合,缓解个性化推荐中用户兴趣偏好数据的稀疏性和准确性问题。【方法/过程】考虑到多域的数据权威度、内容质量及体系结构的差异化较为明显,提出了基于多源用户标签的跨域兴趣融合模型,首先把多个域中的用户兴趣进行标签化处理,然后利用跨域用户识别和标签权重归一方法得到多个域的用户实体-标签矩阵,最后使用域权重影响系数对标签进行融合,构造具有复合权重的用户兴趣标签集。【结果/结论】使用5个来源数据域进行实验与分析,融合模型能够有效提高标签用户覆盖效果,在查全率不断提高的情况,融合域能够保持较高的标签用户查准率,有效提高用户兴趣特征的描绘效果。  相似文献   

15.
程雅倩  黄玮  金晓祥  贾佳 《情报科学》2022,39(2):155-161
【目的/意义】由于自媒体平台中的多标签文本具有高维性和不平衡性,导致文本分类效果较差,因此通过 研究5G环境下高校图书馆自媒体平台多标签文本分类方法对解决该问题具有重要意义。【方法/过程】本文首先通 过对采集的5G环境下高校图书馆自媒体平台多标签文本进行预处理,包括无意义数据去除、文本分词以及去停用 词等;然后采用改进主成分分析方法进行多标签文本降维处理,利用向量空间模型实现文本平衡化处理;最后以处 理后的文本为基础,采用Adaboost和SVM两种算法构建文本分类器,实现多标签文本分类。【结果/结论】实验结果 表明,本文拟定的自媒体平台标签文本分类方法可以使汉明损失降低,F1值提高,多标签文本分类效果好,且耗时 较低,具有可靠性。【创新/局限】由于本研究中的数据集数量不够多,所以在测试和验证方面,得出的结果具有一定 局限性。因此在未来研究中期望利用更为丰富的数据库,对所设计的方法做出进一步的改进与创新。  相似文献   

16.
【目的/意义】为了提高图书情报的实时检索能力,需要进行图书情报共引数据整合模型设计。【方法/过程】 提出一种基于文献计量共引分析的图书情报数据的整合方法,构建图书情报文献计量共引数据整合的射频标签识 别模型,采用RFID标签技术进行图书情报文献计量共引数据的自动采样,对采样的大数据采用语义相似度特征提 取方法进行信息融合;结合文献计量共引分析方法进行图书情报数据的自适应聚类分析和整合分类,构建反映图 书情报归类的语义本体模型。通过自相关特征匹配方法实现对图书情报文献计量共引数据的优化分类检索和整 合。【结果/结论】测试结果表明,采用该模型进行图书情报文献计量共引数据整合的分类性能较好,数据检索的查 全率和查准率较高,提高了图书情报的检索效率。  相似文献   

17.
程齐凯  李信  陆伟 《情报科学》2019,37(7):41-47
【目的/意义】构建一个较大规模的学术文献词汇功能标准化数据集,并对其进行描述分析,以期为学术检 索、文献推荐和科学计量等应用研究提供更加科学合理的数据支撑。【方法/过程】在学术文本词汇功能框架的基础 上,针对“研究问题”和“研究方法”这两种领域无关词汇功能,生成学术文献词汇功能自动标引规则模板,开发相应 的词汇功能标注平台,对88 865篇计算机领域文献进行自动标引,并对得到的数据集进行整体分析、热点和趋势分 析以及研究方法特点分析。【结果/结论】得到一个包含23 221个不重复研究问题的Topic数据集、18427个不重复研 究方法的Method数据集和30 145个“问题-方法”对的Topic-Method数据集;人工检验准确率高于95%。此外,文 章还创新性地提出了研究方法的 “功能特点”,并进行了相关实践。  相似文献   

18.
[目的/意义]网络新闻是获取突发事件情报的重要来源之一,提高海量网络新闻中突发事件的识别准确率和分类效果,并减少非突发事件新闻造成的开放集识别问题和降低人工标注非突发事件新闻的成本,这是当前突发事件识别与分类研究的重要课题。[方法/过程]选择BERT预训练模型获得文本的特征表示,融合不同层级之间的语义信息增强文本表示的质量,采用自适应决策边界模型,学习各突发事件类别在高维语义表示空间上的球形最佳决策边界,根据新闻样本的文本表示和各突发事件类别的球形最佳决策边界的欧几里得距离,检测出突发事件新闻并判断突发事件的类别,并在CEC公开数据集和实时爬取的中文新闻数据集CEN上对模型的有效性进行验证。[结果/结论]实验结果表明,本文模型在CEC数据集和CEN数据集上的宏F1值分别为98.46%和95.80%,与基准模型相比,本文模型的宏F1值分别提升了5.15%和19.69%。模型应用展示了提出方法在解决实际问题时的有效性。[局限]未考虑突发事件新闻可能存在多标签的情况。  相似文献   

19.
曾金  贺国秀 《情报科学》2019,37(3):136-140
【目的/意义】基于社交媒体用户分享的图像、博文及用户标签数据,为用户推荐潜在的好友,从而更好的为 用户做个性化推荐和精准化服务。【方法/过程】在获取微博用户分享的图像、博文及用户标签的基础上,通过使用 深度学习的方法利用图像、博文及用户标签数据来表达用户兴趣特征,基于这三类特征组合,通过计算用户之间的 余弦相似度来挖掘与目标用户兴趣最相近的若干个候选用户。同时,探讨了多模数据在无监督学习下的用户推荐 问题,并与单模数据进行比较。【结果/结论】实验结果表明,利用图像、博文和用户标签合成的多模数据对用户的兴 趣进行建模并进行好友推荐较单模数据效果好。  相似文献   

20.
陈杰  马静  李晓峰  郭小宇 《情报科学》2022,40(3):117-125
【目的/意义】本文融合文本和图像的多模态信息进行情感识别,引入图片模态信息进行情感语义增强,旨在 解决单一文本模态信息无法准确判定情感极性的问题。【方法/过程】本文以网民在新浪微博发表的微博数据为实 验对象,提出了一种基于DR-Transformer模型的多模态情感识别算法,使用预训练的DenseNet和RoBERTa模型, 分别提取图片模态和文本模态的情感特征;通过引入Modal Embedding机制,达到标识不同模态特征来源的目的; 采用浅层Transformer Encoder对不同模态的情感特征进行融合,利用Self-Attention机制动态调整各模态信息特征 的权重。【结果/结论】在微博数据集上的实验表明:模型情感识别准确率为 79.84%;相较于基于单一文本、图片模 态的情感分类算法,本模型准确率分别提升了 4.74%、19.05%;相较于对不同模态特征向量进行直接拼接的特征融 合方法,本模型准确率提升了 1.12%。充分说明了本模型在情感识别的问题上具有科学性、合理性、有效性。【创 新/局限】利用 Modal Embedding 和 Self-Attention 机制能够有效的融合多模态信息。微博网络舆情数据集还需进 一步扩充。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号