首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 43 毫秒
1.
【目的/意义】旨在将社会化问答社区中碎片化的答案关联起来,并为用户提供不同主题的高质量答案和更 好的知识服务。【方法/过程】首先,本研究利用Doc2vec算法计算答案之间的语义相似度,并构建答案语义网络。其 次,利用Louvain算法对答案语义网络进行社区划分,并用TextRank算法抽取各个主题下文档的关键词,使用词云 对每个主题进行可视化展示。最后,利用PageRank算法对聚类后的答案语义网络进行排序,从而实现答案文档的 主题聚合和排序。【结果/结论】本研究使用“知乎”上的问答数据进行了实证研究。结果表明,所提出的答案聚合和 排序方法不仅能够向用户直观地展示答案之间的关联强度和各个主题答案的主要内容,还能够为用户提供分主题 的答案排序结果,自动为用户筛选高质量的答案。【创新/局限】创新性地提出了答案语义网络,并基于答案语义网 络,提出了一种集聚合、主题可视化和排序于一体的答案知识组织方法。  相似文献   

2.
赵月华  朱思成  苏新宁 《情报科学》2021,39(12):165-173
【 目的/意义】解决获取虚假网络医疗信息数据集时专业知识不足的问题,帮助在小样本领域构建虚假网络 医疗信息识别模型。【方法/过程】本文提出一种基于权威辟谣信息转化提取构建网络虚假医疗信息数据集的思路, 并依次构建传统机器学习模型、CNN模型和BERT模型进行分类识别。【结果/结论】结果表明,基于辟谣信息能够 实现以较低成本、不依赖专家标注构建虚假医疗信息数据集。通过对比实验发现,基于微博数据预训练的 BERT 模型准确率为 95.91%,F1值为 94.57%,相比于传统机器学习模型和 CNN模型提升分别接近 6%和 4%,表明本文构 建的基于预训练的BERT模型在网络虚假医疗信息识别任务上取得了更好的效果。【创新/局限】本文提出的方法能 以较低成本建立专业领域的虚假信息数据集,所构建的BERT虚假医疗信息识别模型在小样本领域也具有实用价 值,但在数据集规模、深度学习模型对比、模型性能评价指标等方面还有待拓展与延伸。  相似文献   

3.
林萍  吕健超 《情报科学》2023,41(2):135-142
【目的/意义】提出基于Stacking集成学习的问答信息采纳行为识别策略,促进在线健康社区问答的精准化推送、助推数字化医疗服务高质量发展。【方法/过程】构建以集成学习方法和非集成学习方法为基学习器、以逻辑回归算法(LR)为元学习器的Stacking集成学习模型,比较单预测模型、同类预测模型组合、不同类预测模型组合的Stacking集成学习模型预测精度,选取“寻医问药”平台的慢性病问答构建数据集验证模型的优越性,并选取“快速问医生有问必答120”平台数据验证模型的可移植性。【结果/结论】Stacking集成模型相比于单预测模型能够更精准识别被采纳问答信息,模型具有较强的泛化性,可以适用于不同的在线健康社区。【创新/局限】本文基于Stacking集成思想构建两阶段预测模型,并借助机器学习构建最佳预测模型组合,显著提高在线健康社区问答信息采纳识别精度,但伴随问答信息积累,在线健康社区问答模式不断发展变化,考虑结合历史数据和每日更新数据的动态预测方法是未来研究工作重点。  相似文献   

4.
王佳敏  吴乐艳  李鹏程  熊资  陆伟  杜佳 《情报科学》2021,39(11):173-179
【目的/意义】本文构建了一个大规模学术文献致谢功能数据集,并提出一种基于SciBERT的致谢功能识别 模型,为致谢文本的挖掘和分析提供高质量的数据支持和有效的识别方法。【方法/过程】采用人工的方式扩展和完 善致谢功能分类规则,生成学术文献致谢功能自动标引规则模板,对1,750,275条致谢文本进行功能标引。在此基 础上,采用 SciBERT 模型对致谢文本句进行向量表达,引入 Softmax 回归模型实现致谢功能自动分类,采用 warmup策略进行模型调优,并与基准实验进行对比。【结果/结论】得到一个大规模、高质量的学术文献致谢功能数 据集,经人工检验准确率达到93%;基于SciBERT的识别模型比基准模型表现更好,在扩展数据集上的F1值高于 98%,在各个类别上的预测结果也有不同程度的提升。【创新/局限】致谢功能识别模型缺少对致谢文本独有特征的 考虑和融合。  相似文献   

5.
【目的/意义】图书馆数据治理成熟度评价旨在衡量图书馆数据治理能力强弱程度,对促进图书馆数据治 理实施进程和改善图书馆数据治理中存在缺陷有着指导性作用。【方法/过程】本文通过分析现有的数据治理构成 要素的相关研究,提出了图书馆数据治理的构成要素模型。基于此,本文结合图书馆数据治理的行业特殊性和能 力成熟度模型,从数据处理流程与图书馆数据治理构成要素两个宏观维度出发,构建图书馆数据治理能力成熟度 模型,并确立了图书馆数据治理评价体系。【结果/结论】本文所构建的图书馆数据治理成熟度评价模型提供了判断 图书馆数据治理能力成熟度等级的有效工具,可以反映图书馆数据治理的具体实施效果,快速定位其薄弱环节,并 据此提出有针对性的提升策略。【创新/局限】本文基于CMM模型,结合数据处理流程和图书馆数据治理构成要素 构建了图书馆数据治理成熟度评价体系。然而由于当前实际进行数据治理的图书馆数量较少,因而未能较为全面 地对比不同图书馆之间数据治理能力差异。  相似文献   

6.
昌宁  窦永香  徐薇 《情报科学》2021,39(6):108-116
【目的/意义】本文利用多源数据,通过对科技文献作者的名称进行消歧,使作者与科技文献呈一一对应的 关系。【方法/过程】本文提出首先将采集的多源数据进行预处理,形成了同一姓名作者文献组成的待消解的重名数 据集,通过合作关系构建学术圈以发现歧义,最后通过机构和领域进行消歧。【结果/结论】实验采集了各级教育、自 动化及计算机技术、信息与知识传播、数理科学和化学、无线电电子学、中国医学等6个不同的学科的文献题录数 据,本文提出的基于规则的消歧具有良好的消歧效果。通过多源数据融合、机构和领域多指标消歧,能够达到较高 的消歧效果。【创新/局限】解决了同机构同领域消歧的难题,并考虑了增量问题,构建了完整的消歧模型。  相似文献   

7.
【目的/意义】通过概念层次关系自动抽取可以快速地在大数据集上进行细粒度的概念语义层次自动划分, 为后续领域本体的精细化构建提供参考。【方法/过程】首先,在由复合术语和关键词组成的术语集上,通过词频、篇 章频率和语义相似度进行筛选,得到学术论文评价领域概念集;其次,考虑概念共现关系和上下文语义信息,前者 用文献-概念矩阵和概念共现矩阵表达,后者用word2vec词向量表示,通过余弦相似度进行集成,得到概念相似度 矩阵;最后,以关联度最大的概念为聚类中心,利用谱聚类对相似度矩阵进行聚类,得到学术论文评价领域概念层 次体系。【结果/结论】经实验验证,本研究提出的模型有较高的准确率,构建的领域概念层次结构合理。【创新/局限】 本文提出了一种基于词共现与词向量的概念层次关系自动抽取模型,可以实现概念层次关系的自动抽取,但类标 签确定的方法比较简单,可以进一步探究。  相似文献   

8.
【目的/意义】为了改善传统评价的主观性和模糊性,更好地体现高校图书馆数字资源用户需求,在用户贡 献指标的基础上构建服务质量评价体系,基于灰色关联分析构建GA-BPNN模型用于高校图书馆数字资源服务质 量评价。【方法/过程】从用户需求的角度征询用户意见,提炼影响服务质量评价的关键要素,在实证分析的基础上 构建了一个相对科学、合理的初步评价模型。然后采集样本,以灰色关联度表征服务质量评价结果。最后应用 MATLAB 进行仿真实验,对比分析 GA-BPNN 模型及标准 BPNN 模型的表现优劣。【结果/结论】GA 优化后的 BPNN的性能得到改善,预测值更接近真实值,容错性高,稳定性好,期望对高校及其他图书馆数字资源建设、服务 质量评价及服务创新研究有参考作用。【创新/局限】提出一种基于用户需求的高校图书馆数字资源服务质量评价 方法,主要局限是调查数据覆盖范围不够全面。  相似文献   

9.
【目的/意义】本文基于颜色、纹理等外部特征与局部视觉特征构成的底层语义特征数据并采用随机森林的 方法对医学图像信息进行语义自动标注,为医务工作者提供临床决策参考,便于普通公众理解医学知识和了解个 人健康情况,也可以在大数据环境下扩展图书情报领域研究人员对信息组织与处理的范围,促进学科交叉与融合, 提升智慧医学的发展,为健康中国战略提供智力与技术支持。【方法/过程】融合图书情报领域知识与医学知识,将 图像语义标注看作为一个多类分类问题,首先,抽取颜色、纹理等外部特征及局部视觉特征等底层语义特征;然后, 运用随机森林的方法,设计了基于随机森林的医学图像自动标注方案。【结果/结论】融合底层语义特征的医学图像 信息自动标注的方案与随机树标注方案相比较,具有较好的效果。【创新/局限】将视觉语义词典作为医学图像的底 层语义特征引入到图像标注中;运用随机森林构建的医学图像标注方案;局限在于仅采用BreaKHis数据集为实验 数据。  相似文献   

10.
【目的/意义】大数据环境下,如何对海量的移动图书馆数据资源进行挖掘、重组和深度融合,从而获取最有 价值的信息对移动图书馆的长远发展至关重要。【方法/过程】构建了大数据深度融合的移动图书馆情境化推荐系 统,通过深度融合图书馆用户的情境信息,有效缓解大数据环境下评分数据稀疏导致的推荐性能下降问题;同时采 用MapReduce的并行处理方式,以此提高大数据的融合与挖掘性能。【结果/结论】实验结果表明,大数据深度融合 的移动图书馆情境化推荐系统较好地将情境信息融入到移动图书馆知识推荐过程中,改进了推荐性能,有利于为 用户提供精准的个性化服务资源,MapReduce化的并行处理方法也有效提升了大数据融合与挖掘的性能与效率。  相似文献   

11.
基于马尔可夫模型的图书馆用户聚类分群方法研究   总被引:1,自引:0,他引:1       下载免费PDF全文
吴艳玲  孙思阳 《情报科学》2021,39(11):167-172
【目的/意义】针对图书馆用户群体聚类分群不稳定且错误率较高的问题,提出基于马尔可夫模型的图书馆 用户聚类分群方法,提升图书馆用户聚类分群精准度。【方法/过程】采用一阶马尔可夫混合模型构建用户动作序列 模型,通过模型产生用户行为聚类,体现用户动作的动态性,采用自适应自然梯度算法,依据用户行为分离状态自 适应调整自身步长,优化模型参数学习中模型自动选择问题,实现最佳图书馆用户聚类分群。【结果/结论】通过实 验结果能够证明,实际聚类数量小于L值时,提出方法能够实现参数学习过程中模型的自动选择。提出方法的分群 数量最多,能够划分出最大的取值区间,聚类错误率最低为0.22%,聚类性能比较稳定,分群结果更加精准,达到了 设计的预期。【创新/局限】采用一阶马尔可夫混合模型实现了图书馆用户聚类分群。后续将进一步研究可考虑用 户序列间关联的高阶马尔可夫分量模型,以提高分群算法的准确性和稳定性。  相似文献   

12.
吕美娇  李青青 《情报科学》2022,40(6):141-148
【目的/意义】解析社会化问答社区用户知识交互过程,识别用户交互过程中的关键影响因素,为管理者优 化用户体验,提高社区知识服务水平提供参考。【方法/过程】本文基于社会化问答社区信息生态链模型,利用问卷 调查法和访谈法,从交互主体、交互内容、交互平台以及交互环境四个维度构建了用户知识交互行为影响因素体 系,并运用DEMATEL方法对关键影响因素进行识别。【结果/结论】根据各因素的关联作用分析,表明了体验感知、 社区氛围、自我效能、价值认知、知识质量是社会化问答社区用户知识交互行为的关键影响因素,并据此为社区发 展提出了相关建议。【创新/局限】本文利用 DEMATEL 方法系统全面地分析了社会化问答社区知识交互行为影响 因素间的相互作用,揭示了影响用户知识交互行为的关键影响因素,为社区发展提出了相关建议。但研究数据存 在主观性,且缺乏实例验证。  相似文献   

13.
张国标  李洁  胡潇戈 《情报科学》2021,39(10):126-132
【目的/意义】社交媒体在改变新闻传播以及人类获取信息方式的同时,也成为了虚假新闻传播的主要渠 道。因此,快速识别社交媒体中的虚假新闻,扼制虚假信息的传播,对净化网络空间、维护公共安全至关重要。【方 法/过程】为了有效识别社交媒体上发布的虚假新闻,本文基于对虚假新闻内容特征的深入剖析,分别设计了文本 词向量、文本情感、图像底层、图像语义特征的表示方法,用以提取社交网络中虚假新闻的图像特征信息和文本特 征信息,构建多模态特征融合的虚假新闻检测模型,并使用MediaEval2015数据集对模型性能进行效果验证。【结果/ 结论】通过对比分析不同特征组合方式和不同分类方法的实验结果,发现融合文本特征和图像特征的多模态模型 可以有效提升虚假新闻检测效果。【创新/局限】研究从多模态的角度设计了虚假新闻检测模型,融合了文本与图像 的多种特征。然而采用向量拼接来实现特征融合,不仅无法实现各种特征的充分互补,而且容易造成维度灾难。  相似文献   

14.
【目的/意义】在新冠肺炎疫情中,科学数据为疫情分析、管控和治理提供了重要的依据和支撑,为实现新冠肺炎科学数据的价值最大化,有必要构建新冠肺炎科学数据集元数据框架。【方法/过程】文章以Re3data.org中的新冠肺炎科学数据集为例,在对科学数据集元数据进行收集整理后,构建新冠肺炎科学数据集元数据框架,利用Protégé软件实现科学数据集本体构建,并借助图数据库Neo4j对所构建的知识图谱进行存储。【结果/结论】结果表明,对Re3data.org中的新冠肺炎科学数据集元数据进行关联融合,将元数据转化为多元化的数据存储及展示形式。【创新/局限】实现了新冠肺炎科学数据集知识图谱的构建,并且在图谱之中进行实体及其关系的查询检索和推理,细粒度地创建了科学数据集本体中各个部分属性、实体之间的关联,未来还应侧重跨平台科学数据集元数据的关联与融合。  相似文献   

15.
陈杰  马静  李晓峰  郭小宇 《情报科学》2022,40(3):117-125
【目的/意义】本文融合文本和图像的多模态信息进行情感识别,引入图片模态信息进行情感语义增强,旨在 解决单一文本模态信息无法准确判定情感极性的问题。【方法/过程】本文以网民在新浪微博发表的微博数据为实 验对象,提出了一种基于DR-Transformer模型的多模态情感识别算法,使用预训练的DenseNet和RoBERTa模型, 分别提取图片模态和文本模态的情感特征;通过引入Modal Embedding机制,达到标识不同模态特征来源的目的; 采用浅层Transformer Encoder对不同模态的情感特征进行融合,利用Self-Attention机制动态调整各模态信息特征 的权重。【结果/结论】在微博数据集上的实验表明:模型情感识别准确率为 79.84%;相较于基于单一文本、图片模 态的情感分类算法,本模型准确率分别提升了 4.74%、19.05%;相较于对不同模态特征向量进行直接拼接的特征融 合方法,本模型准确率提升了 1.12%。充分说明了本模型在情感识别的问题上具有科学性、合理性、有效性。【创 新/局限】利用 Modal Embedding 和 Self-Attention 机制能够有效的融合多模态信息。微博网络舆情数据集还需进 一步扩充。  相似文献   

16.
【目的/意义】论文学术价值识别是科技成果评价的重要内容,利用论文内容贡献度和加权平均被引量指标 能够实现论文学术价值的早期识别,推动科技成果价值的早发现早实现。【方法/过程】本文首先基于模式匹配和共 现分析方法抽取了论文问题知识元关系和方法知识元关系;其次按照问题与方法知识元关系进行检索,构建问题 与方法相关文献集;然后基于相关文献集提出论文学术价值指标计算方法,并通过归一化贡献度-加权平均被引量 矩阵,实现了论文学术价值早期识别;最后采用图书情报领域期刊论文数据进行了实验研究。【结果/结论】实验结 果表明,本文提出的方法能够实现论文学术价值的早期识别,有利于推进高质量、高水平科技成果的推广与应用。 【创新/局限】后续研究将把更多论文知识元纳入计算,进一步提高论文学术价值早期识别效果。  相似文献   

17.
柯佳 《情报科学》2021,39(10):165-169
【目的/意义】实体关系抽取是构建领域本体、知识图谱、开发问答系统的基础工作。远程监督方法将大规 模非结构化文本与已有的知识库实体对齐,自动标注训练样本,解决了有监督机器学习方法人工标注训练语料耗 时费力的问题,但也带来了数据噪声。【方法/过程】本文详细梳理了近些年远程监督结合深度学习技术,降低训练 样本噪声,提升实体关系抽取性能的方法。【结果/结论】卷积神经网络能更好的捕获句子局部、关键特征、长短时记 忆网络能更好的处理句子实体对远距离依赖关系,模型自动抽取句子词法、句法特征,注意力机制给予句子关键上 下文、单词更大的权重,在神经网络模型中融入先验知识能丰富句子实体对的语义信息,显著提升关系抽取性能。 【创新/局限】下一步的研究应考虑实体对重叠关系、实体对长尾语义关系的处理方法,更加全面的解决实体对关系 噪声问题。  相似文献   

18.
【目的/意义】构建图书馆短视频推广能力评价模型可以指导图书馆制定和完善相应的推广计划,提升推广效果,构建更加和谐的图书馆短视频生态。【方法/过程】通过文献调研和专家调查法,以信息生态理论为基础,从资源—竞争—繁衍三维视角构建面向管理者的图书馆短视频推广能力评价模型。并选择“湖北省图书馆”和“上海图书馆”两个公共图书馆抖音账号,运用多层次模糊评价法进行实证评估。【结果/结论】依据所提出的评价模型,实证表明湖北省图书馆具有相对较高的推广能力。【创新/局限】本文的创新之处在于从资源、竞合以及繁衍三维视角能够更全面系统地考察图书馆短视频推广能力,不足之处在于采用了主观评价方法,今后可尝试采用更为客观的评价方法。  相似文献   

19.
吴树芳  吴崇崇  朱杰 《情报科学》2021,39(8):103-111
【目的/意义】微博用户画像的精准构建,可有效识别用户的需求,提高个性化推荐的准确率。针对现有微 博用户画像构建方法对用户特征提取不全面、不准确的问题,本文提出了基于兴趣转移的用户画像构建方法。【方 法/过程】首先,依据层次分析法确定不同兴趣行为的权重,并将其用于修订兴趣词权重,获得用户的初始兴趣词 集;然后,依据生命周期理论获得用户兴趣行为周期,构建兴趣转移的时间衰减函数,实现对用户兴趣词集的动态 更新和叠加;最后,将用户的静态属性标签与基于兴趣转移的动态兴趣标签融合构建微博用户画像。【结果/结论】 实验采用从新浪微博爬取的真实数据作为数据集,实验结果显示:与已有微博用户画像构建方法相比,本文提出的 方法在个性化推荐中具有较好的性能。【创新/局限】创新点为:借鉴生命周期理论刻画微博用户兴趣行为周期,构 造兴趣转移的时间衰减函数,实现兴趣标签的动态更新。局限是未对静态属性标签的重要性进行界定,且未对存 在异常波动的兴趣行为曲线进行深入探讨。  相似文献   

20.
李莉  林雨蓝  姚瑞波 《情报科学》2018,36(10):64-70
【目的/意义】挖掘出客服聊天记录中蕴含的主题,为客服自动问答系统的设计及优化提供指导方案。【方 法/过程】本文针对保险网站客服聊天记录这类交互式短文本,利用会话切分、分词提取以及词汇过滤等方法进行 文本预处理,通过名词短语提取、高频词汇提取以及外部数据集引入等方法进行特征选择,最终应用 LDA建模方法 获取交互式文本主题。【结果/结论】模型结果显示:用户主要关注保险详情、保险金额以及保险险种等主题。不同 主题之间的话题具有一定的独立性,主题和话题之间存在很强的相关性。LDA模型结果成功挖掘出用户关注的主 题,这为电子商务网站运营方进行自动问答系统的设计和优化提供了指导方案。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号