期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

商宪丽《情报科学》2018,36(6):57-62

【目的/意义】本文剖析交叉学科的潜在主题识别,分析潜在主题的文献数量,揭示交叉学科的研究主题、构成和热门研究主题。【方法/过程】以数字图书馆学科为实例,构建交叉学科集成数据集,经过数据集预处理、LDA主题模型训练、潜在主题标签标注等处理过程,挖掘出交叉学科中的潜在主题及其构成,揭示交叉学科的热门研究主题。【结果/结论】本文提出了一种基于潜在主题模型的交叉学科主题识别方法,该方法利用了交叉学科与相关基础学科之间的内在关联,通过整合交叉学科研究文献与相关基础学科研究文献构建集成数据集,能够更为精确地识别交叉学科的潜在主题和热门研究主题。相似文献

2.

面向网络虚假医疗信息的识别模型构建研究——一种基于预训练的BERT模型

下载免费PDF全文

赵月华朱思成苏新宁《情报科学》2021,39(12):165-173

【目的/意义】解决获取虚假网络医疗信息数据集时专业知识不足的问题,帮助在小样本领域构建虚假网络医疗信息识别模型。【方法/过程】本文提出一种基于权威辟谣信息转化提取构建网络虚假医疗信息数据集的思路, 并依次构建传统机器学习模型、CNN模型和BERT模型进行分类识别。【结果/结论】结果表明,基于辟谣信息能够实现以较低成本、不依赖专家标注构建虚假医疗信息数据集。通过对比实验发现,基于微博数据预训练的 BERT 模型准确率为 95.91%,F1值为 94.57%,相比于传统机器学习模型和 CNN模型提升分别接近 6%和 4%,表明本文构建的基于预训练的BERT模型在网络虚假医疗信息识别任务上取得了更好的效果。【创新/局限】本文提出的方法能以较低成本建立专业领域的虚假信息数据集,所构建的BERT虚假医疗信息识别模型在小样本领域也具有实用价值,但在数据集规模、深度学习模型对比、模型性能评价指标等方面还有待拓展与延伸。相似文献

3.

基于领域知识库的科技术语信息匹配模型研究

下载免费PDF全文

孙玥莹何彦青吴广印《情报科学》2019,37(8):16-21

【目的/意义】全面分析中外科技文献可以把握当前某个领域或主题的研究热点和研究趋势,为了应对机器翻译在分析海量外文科技文献时存在的科技术语翻译“领域不一致”问题,需要对科技术语信息匹配进行研究。【方法/过程】提出了一种基于领域知识库的科技术语信息匹配模型,通过利用领域知识库构建领域多义术语词典,为科技术语匹配更多翻译候选,并结合语言学特征、领域信息以及LSTM语言模型来挑选最合适译文。【结果/结论】用化工领域的数据进行测试,验证模型的有效性,为深入分析外文文献中的技术理论提供了可靠又便捷的方法。相似文献

4.

一种融合标签和患者咨询文本的医生推荐算法

周鑫熊回香肖兵《情报科学》2023,(3):145-154

【目的/意义】针对在线医疗信息结构松散，医疗平台医生推荐精度不足的现状，设计了一种基于标签和患者咨询文本的医生推荐算法，提升医生推荐效果。【方法/过程】利用Word2vec模型训练患者咨询文本得到特征向量，改进余弦相似度算法计算医生推荐集A；利用LDA模型训练医生标签得到医生在主题上投影的概率分布，改进KL距离算法计算医生推荐集B；基于社会网络分析理论设计相关算法重构医生网络链接，选择中心性指标得到最终医生推荐集C。【结果/结论】以“丁香医生”数据进行实证，面向UGC数据丰富了算法的可用程度，弥补了单一推荐方法的不足，提高了推荐的精度。本文所提方法有效提升了医生推荐精度。【创新/局限】通过融合标签和患者咨询文本，采用社会网络分析实现了医生混合推荐。虽然通过中心性指标进行重要医生挖掘，但挖掘效果有提升空间。相似文献

5.

融合词向量语义增强和DTM模型的公共政策文本时序建模与演化分析——以“大数据领域”为例

下载免费PDF全文

闫盛枫《情报科学》2021,39(9):146-154

【目的/意义】探测特定领域政策文本语义主题,揭示我国政策部署领域与未来发展趋势。【方法/过程】提出一种融合词向量语义增强和DTM模型的公共政策文本时序建模与可视化方法,采用DTM模型实现政策文本的时序切割和主题建模,利用深度学习Word2vec算法中Skip-gram词嵌入技术可以对上下文词汇进行有效预测,增强其语义表达性和政策解释性,以更为准确地揭示我国公共政策的部署重点。【结果/结论】实验表明本文提出的方法对于公共政策主题识别和政策文本量化具有更好的知识抽取和语义表达能力,对我国公共政策挖掘和信息揭示具有良好的揭示。【创新/局限】提出融合词向量语义增强和DTM模型的公共政策文本时序建模方法,一定程度上提升了政策文本的主题语义表达,未来考虑利用深度学习技术如LSTM算法、BERT模型等识别政策中的领域知识单元和语法结构。相似文献

6.

基于决策树和逻辑回归模型的人工智能领域潜在“精品”论文识别研究

下载免费PDF全文

崔静静胡泽文任萍《情报科学》2022,40(5):90-96

【目的/意义】海量科技文献中存在大量潜在“精品”文献,如何识别并利用此类文献是目前较具现实意义的研究问题。【方法/过程】本文以Web of Science数据库中人工智能领域1990-2010年期间的文献原文及引文数据为样本,构建该领域文献原文-引文特征向量空间,融合决策树和逻辑回归模型对文献特征向量空间进行模型训练和潜在“精品”论文识别的测试应用。【结果/结论】实验结果表明,“发表五年后被引量”特征变量的加入能够显著提升决策树和逻辑回归模型的识别分类效果,使得两类模型的识别准确率分别达到84%和89%以上,提升幅度达到20多个百分点。逻辑回归模型的识别效果始终优于决策树模型,通过调整两种模型的超参数,能够使得模型获得更理想的识别效果。此外,早期人工智能领域科学研究仍处于小团队协作阶段,领域文献的基金支持和开放获取程度较低。【创新/局限】尽管论文创新性引入机器学习方法实现潜在“精品”文献识别模型的建模与应用,然而仍需将模型拓展到更多学科领域。相似文献

7.

基于多层异构网络的自动问答模型研究

下载免费PDF全文

王日花《情报科学》2021,39(10):76-87

【目的/意义】解决自动问答系统构建过程中数据集构建成本高的问题,以及自动问答过程中仅考虑问题或答案本身相关性的局限。【方法/过程】提出了一种融合标注问答库和社区问答数据的数据集构建方法,构建问题关键词-问题-答案-答案簇多层异构网络模型,并给出了基于该模型的自动问答算法。获取图书馆语料进行处理作为实验数据,将BERT-Cos、AINN、BiMPM模型作为对比对象进行了实验与分析。【结果/结论】通过实验得到了各模型在图书馆自动问答任务上的效果,本文所提模型在各评价指标上均优于其他模型,模型准确率达87.85%。【创新/局限】本文提出的多数据源融合数据集构建方法和自动问答模型在问答任务中相对于已有方法具有更好的表现,同时根据模型效果分析给出用户提问词长建议。相似文献

8.

基于BERT的领域本体分类关系自动识别研究 总被引：1，自引：0，他引：1

下载免费PDF全文

王思丽杨恒祝忠明刘巍《情报科学》2021,39(7):75-82

【目的/意义】实现对领域本体分类关系的自动学习识别,解决领域本体知识框架结构体系的自动化构建问题。【方法/过程】通过对领域本体分类关系自动识别的国内外研究现状及存在问题进行分析总结,以当前开源的先进的深度学习文本预训练模型BERT为基础,研究构建了基于BERT的领域本体分类关系自动识别模型,并以资源环境学科领域为例进行了实验研究和评估分析。【结果/结论】基于BERT构建的分类模型能够实现对领域本体分类关系的自动识别,识别方法和流程具有极大地通用性和可移植性,识别精度比传统方法有了较大提升。【创新/局限】微调与泛化了BERT,提高了领域本体分类关系识别模型的通用性和精度。但由于受分类标注语料的质量限制,模型精度尚未达到峰值,有待进一步优化提升。相似文献

9.

基于社会化标签的用户标注行为和时间因素的个性化推荐方法研究

下载免费PDF全文

郭雪梅《情报科学》2020,38(2):68-74

【目的/意义】为了提高信息服务的质量,文章融合“用户-标签-资源项”关系模型以及时间因素对于用户标注资源的影响,提出了一种个性化推荐方法。【方法/过程】首先建立起“用户-标签-资源项”三者之间的关系模型,分别计算用户对标签的偏好程度以及资源与标签的相关程度,以此为基础进行用户相似性和资源项相似性的度量;然后,考虑标签使用的时间因素对用户兴趣偏好的影响结合基于用户标注行为的用户相似性以及资源项相似性度量方法提出了改进的个性化推荐方法。【结果/结论】提出了一种综合标签和时间因素的推荐算法,该方法利用标签使用频率描述用户偏好,并结合标签使用的时间因素动态更新用户偏好,提高推荐精度。该方法应用于医学信息服务应用场景之中,并收集实验数据,最后将提出的方法与其他基于标签信息的协同过滤推荐方法在实验数据集进行比较,实验结果发现该方法在推荐效果上优于对比方法。相似文献

10.

金融领域文本序列标注与实体关系联合抽取研究

下载免费PDF全文

唐晓波刘志源《情报科学》2021,39(5):3-11

【目的/意义】金融领域实体关系抽取是构造金融知识库的基础,对金融领域的文本信息利用具有重要作用。本文提出金融领域实体关系联合抽取模型,增加了对金融文本复杂重叠关系的识别,可以有效避免传统的流水线模型中识别错误在不同任务之间的传递。【方法/过程】本文构建了高质量金融文本语料,提出一种新的序列标注模式和实体关系匹配规则,在预训练语言模型BERT（Bidirectional Encoder Representations from Transformers）的基础上结合双向门控循环单元 BiGRU（Bidirectional Gated Recurrent Units）与条件随机场 CRF（Conditional Random Field）构建了端到端的序列标注模型,实现了实体关系的联合抽取。【结果/结论】针对金融领域文本数据进行实验,实验结果表明本文提出的联合抽取模型在关系抽取以及重叠关系抽取上的F1值分别达到了0.627和 0.543,初步验证了中文语境下本文模型对金融领域实体关系抽取的有效性。【创新/局限】结合金融文本特征提出了新的序列标注模式并构建了基于BERT的金融领域实体关系联合抽取模型,实现了对金融文本中实体间重叠关系的识别。相似文献

11.

基于加权多策略选样的古文断句模型研究——以古籍《宋史》为例

下载免费PDF全文

张景素魏明珠《情报科学》2022,40(10):164-170

【目的/意义】旨在研究少量标注样本构建古文断句模型,减少在模型训练过程中样本标注所需的成本,为探索数字技术与人文学科的融合发展提供崭新的思路。【方法/过程】从古文样本的不确定性和多样性出发,提出一种加权多策略选样方法,有效结合了BERT-BiLSTM-CRF、BERT-CRF等古文断句模型。通过引入信息熵和相似性等概念,深入分析古籍文本的不确定性和多样性,运用加权计算评估古文样本对模型训练的价值高低,对加权多策略方法所筛选的有价值样本进行人工标注,同时更新到训练集进行模型迭代训练。【结果/结论】以古籍《宋史》为例进行研究,所提出的方法分别在BERT-BiLSTM-CRF、BERT-CRF等古文断句模型训练过程中减少原来训练样本量的50%、55%,进一步验证了方法的有效性。【创新/局限】加权多策略选样的方法为古文断句模型训练提供了一种新思路,未来将探索该方法在古籍整理中其他任务的适用性。相似文献

12.

基于Rao-Stirling指数和LDA模型的领域学科交叉主题识别——以纳米科技为例

下载免费PDF全文

韩正琪刘小平寇晶晶《情报科学》2020,38(2):116-124

【目的/意义】基于Rao-Stirling 指数和LDA模型进行领域学科交叉主题识别,并以纳米科技为例验证将 Rao-Stirling 指数和LDA模型用于领域学科交叉主题识别的有效性和适用性。【方法/过程】基于Rao-Stirling 指数测度领域文献学科交叉程度,设定阈值发现高度学科交叉文献。基于LDA模型对筛选出的学科交叉文献进行主题识别,发现学科交叉点和学科交叉研究主题。【结果/结论】基于Rao-Stirling 指数从引文的角度进行领域文献学科交叉测度可以有效地发现与某领域相关的学科交叉文献,且有利于大数据集的学科交叉文献发现研究的实现。基于LDA模型进行学科交叉主题识别可以有效地发现学科交叉主题。两方法的组合应用为发现某领域学科交叉主题研究提供一种新视角。相似文献

13.

基于支持向量机和改进粒子群算法的科学前沿预测模型研究

下载免费PDF全文

徐路路王芳《情报科学》2019,37(8):22-28

【目的/意义】识别科学研究前沿主题,预测未来发展趋势。【方法/过程】首先利用主题概率模型识别出论文、专利及基金项目多源数据中的科学前沿主题;考虑研究前沿主题演化的复杂性和非线性的特点,利用机器学习算法和支持向量机模型预测主题发展趋势,并采用改进后的粒子群算法对模型参数进行优化,以提高传统支持向量机模型在处理非线性、小样本等数据上的预测准确度。【结果/结论】实验对比发现,本方法对于研究前沿主题的预测准确度较高,准确识别出石墨烯领域未来发展趋势。相似文献

14.

基于多源用户标签的跨域兴趣融合模型研究

下载免费PDF全文

张彬徐建民吴树芳《情报科学》2020,38(4):147-152

【目的/意义】通过对大数据环境下的多源用户兴趣特征有效融合,缓解个性化推荐中用户兴趣偏好数据的稀疏性和准确性问题。【方法/过程】考虑到多域的数据权威度、内容质量及体系结构的差异化较为明显,提出了基于多源用户标签的跨域兴趣融合模型,首先把多个域中的用户兴趣进行标签化处理,然后利用跨域用户识别和标签权重归一方法得到多个域的用户实体-标签矩阵,最后使用域权重影响系数对标签进行融合,构造具有复合权重的用户兴趣标签集。【结果/结论】使用5个来源数据域进行实验与分析,融合模型能够有效提高标签用户覆盖效果,在查全率不断提高的情况,融合域能够保持较高的标签用户查准率,有效提高用户兴趣特征的描绘效果。相似文献

15.

5G环境下高校图书馆自媒体平台多标签文本分类方法研究

下载免费PDF全文

程雅倩黄玮金晓祥贾佳《情报科学》2022,39(2):155-161

【目的/意义】由于自媒体平台中的多标签文本具有高维性和不平衡性,导致文本分类效果较差,因此通过研究5G环境下高校图书馆自媒体平台多标签文本分类方法对解决该问题具有重要意义。【方法/过程】本文首先通过对采集的5G环境下高校图书馆自媒体平台多标签文本进行预处理,包括无意义数据去除、文本分词以及去停用词等;然后采用改进主成分分析方法进行多标签文本降维处理,利用向量空间模型实现文本平衡化处理;最后以处理后的文本为基础,采用Adaboost和SVM两种算法构建文本分类器,实现多标签文本分类。【结果/结论】实验结果表明,本文拟定的自媒体平台标签文本分类方法可以使汉明损失降低,F1值提高,多标签文本分类效果好,且耗时较低,具有可靠性。【创新/局限】由于本研究中的数据集数量不够多,所以在测试和验证方面,得出的结果具有一定局限性。因此在未来研究中期望利用更为丰富的数据库,对所设计的方法做出进一步的改进与创新。相似文献

16.

领域无关学术文献词汇功能标准化数据集构建及分析

下载免费PDF全文

程齐凯李信陆伟《情报科学》2019,37(7):41-47

【目的/意义】构建一个较大规模的学术文献词汇功能标准化数据集,并对其进行描述分析,以期为学术检索、文献推荐和科学计量等应用研究提供更加科学合理的数据支撑。【方法/过程】在学术文本词汇功能框架的基础上,针对“研究问题”和“研究方法”这两种领域无关词汇功能,生成学术文献词汇功能自动标引规则模板,开发相应的词汇功能标注平台,对88 865篇计算机领域文献进行自动标引,并对得到的数据集进行整体分析、热点和趋势分析以及研究方法特点分析。【结果/结论】得到一个包含23 221个不重复研究问题的Topic数据集、18427个不重复研究方法的Method数据集和30 145个“问题-方法”对的Topic-Method数据集;人工检验准确率高于95%。此外,文章还创新性地提出了研究方法的 “功能特点”,并进行了相关实践。相似文献

17.

基于文献计量共引分析的图书情报数据整合方法

下载免费PDF全文

吴青霞刘东亮王丹张祥合《情报科学》2019,37(11):112-115

【目的/意义】为了提高图书情报的实时检索能力,需要进行图书情报共引数据整合模型设计。【方法/过程】提出一种基于文献计量共引分析的图书情报数据的整合方法,构建图书情报文献计量共引数据整合的射频标签识别模型,采用RFID标签技术进行图书情报文献计量共引数据的自动采样,对采样的大数据采用语义相似度特征提取方法进行信息融合;结合文献计量共引分析方法进行图书情报数据的自适应聚类分析和整合分类,构建反映图书情报归类的语义本体模型。通过自相关特征匹配方法实现对图书情报文献计量共引数据的优化分类检索和整合。【结果/结论】测试结果表明,采用该模型进行图书情报文献计量共引数据整合的分类性能较好,数据检索的查全率和查准率较高,提高了图书情报的检索效率。相似文献

18.

开放领域新闻中基于自适应决策边界的突发事件识别和分类研究

胡庭恺陈祖琴葛继科陈超董焱《情报理论与实践》2023,(2):194-200

[目的/意义]网络新闻是获取突发事件情报的重要来源之一,提高海量网络新闻中突发事件的识别准确率和分类效果,并减少非突发事件新闻造成的开放集识别问题和降低人工标注非突发事件新闻的成本,这是当前突发事件识别与分类研究的重要课题。[方法/过程]选择BERT预训练模型获得文本的特征表示,融合不同层级之间的语义信息增强文本表示的质量,采用自适应决策边界模型,学习各突发事件类别在高维语义表示空间上的球形最佳决策边界,根据新闻样本的文本表示和各突发事件类别的球形最佳决策边界的欧几里得距离,检测出突发事件新闻并判断突发事件的类别,并在CEC公开数据集和实时爬取的中文新闻数据集CEN上对模型的有效性进行验证。[结果/结论]实验结果表明,本文模型在CEC数据集和CEN数据集上的宏F1值分别为98.46%和95.80%,与基准模型相比,本文模型的宏F1值分别提升了5.15%和19.69%。模型应用展示了提出方法在解决实际问题时的有效性。[局限]未考虑突发事件新闻可能存在多标签的情况。相似文献

19.

基于多模数据的微博用户好友推荐研究

下载免费PDF全文

曾金贺国秀《情报科学》2019,37(3):136-140

【目的/意义】基于社交媒体用户分享的图像、博文及用户标签数据,为用户推荐潜在的好友,从而更好的为用户做个性化推荐和精准化服务。【方法/过程】在获取微博用户分享的图像、博文及用户标签的基础上,通过使用深度学习的方法利用图像、博文及用户标签数据来表达用户兴趣特征,基于这三类特征组合,通过计算用户之间的余弦相似度来挖掘与目标用户兴趣最相近的若干个候选用户。同时,探讨了多模数据在无监督学习下的用户推荐问题,并与单模数据进行比较。【结果/结论】实验结果表明,利用图像、博文和用户标签合成的多模数据对用户的兴趣进行建模并进行好友推荐较单模数据效果好。相似文献

20.

基于引文全文本的医学领域突破性文献识别研究

王雪杨雪梅林紫洛关陟昊唐小利《情报杂志》2021,40(3):132-138

[目的/意义]从学术共同体的评论性引用视角出发,以引文全文本为基础,结合词频统计、深度学习等方法,探析引文文本中表征突破性评价的文本特征并构建自动识别模型以实现从海量文献中识别潜在突破性文献。[方法/过程]以诺贝尔生理学或医学奖获得者的关键文献以及Science十大科学突破主题的代表文献(医学领域)作为金标准突破性文献集并获取引用语句,对引用语句进行词频统计并结合人工筛选获取表征突破性评价的常用词。对引用语句进行人工标注,利用BERT、BIOBERT模型进行训练形成自动识别模型,并选择癌症领域进行实证分析。[结果/结论]结果表明,学术共同体在评价具有重大突破价值的文献时具有明显的文本特征;相较BERT模型,生物医学语言表示模型BIOBERT对突破性评价引用语句的识别能力明显增强,F1值为0.84。基于引用语句的自动识别模型能够较为精准地识别具有重要学术价值的文献并能在一定程度上实现早期识别和早期评价。相似文献