首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
高楠  高嘉骐  陈洪璞 《情报科学》2023,(3):127-135+172
【目的/意义】通过综合使用论文和专利数据源,开展新兴技术的识别与演化路径方法研究,期望以此提高学科领域新兴技术探测研究的准确性和科学性。【方法/过程】首先,针对集成电路这一特定领域使用Word2Vec语义相似度与字符串相似度相结合的方法构建词袋,并利用LDA主题模型发现并识别集成电路领域隐含的技术主题,构建新颖度、强度和热度等多维指标对新兴技术进行对比和甄别。其次,划分时间窗,采用余弦相似度算法计算相邻时间窗内主题间的相似性,以可视化路径的形式将筛选结果进行呈现,以此判断主题演化关系类型。【结果/结论】研究发现,集成电路领域呈现学界与业界研究成果相互促进的良好态势,结合论文与专利数据的新兴技术识别方法,可以有效且清晰的发现集成电路研究领域的热点型、增长型、成熟型和潜在型技术主题,并通过新兴技术演化路径的构建,揭示了领域科学与技术间知识的交互与转移。【创新/局限】本研究创新性采用Word2Vec语义相似度与字符串相似度相结合的方法构建词袋,提高了词袋构建质量,为后续基于LDA主题模型识别隐含的技术主题奠定了基础,但在数据源的多样性、时滞性问题,以及模型阈值设置的客观性上还存在局限性,需要...  相似文献   

2.
朱光  潘高枝  李凤景 《情报科学》2022,40(4):127-137
【目的/意义】识别信息隐私研究领域的热点主题,梳理主题演化路径。【方法/过程】针对主题识别语义杂乱 等问题,提出时序关联与结构表征视角下的主题演化分析方法。首先利用LDA(Latent Dirichlet Allocation)模型识 别多时间窗口下的文献主题,进一步运用共词分析绘制语义更为独立的主题凝聚子群。在此基础上,从时序关联 维度计算相邻窗口下主题间的相似度,梳理演化路径;从结构表征维度,设计主题新颖度、中心性、影响力等计量指 标,探寻信息隐私前沿和热点主题的演化变迁。【结果/结论】实证分析结果表明,本文方法可以深度挖掘信息隐私 领域研究主题,从宏微观两个维度全面梳理主题的演化路径。研究有利于探测信息隐私研究的前沿。【创新/局限】 综合运用LDA主题模型与共词分析方法绘制主题凝聚子群,从时序演化和结构表征两个维度探寻主题演化路径。 未来研究中有待于引入多种数据源以对比主题差异,有待于引入多元组术语改善主题识别效果。  相似文献   

3.
张毅  李欣 《情报科学》2019,37(11):169-177
【目的/意义】将人工智能技术与可视化技术相结合,解析文章题名与摘要中包含的隐藏信息,为探索我国 图书情报领域的研究历史与现状提供全新研究视角。【方法/过程】从CNKI数据库中下载CSSCI来源期刊中图书情 报学领域的全部文章元数据148 956条,利用自然语言处理技术抽取题名与摘要中的标签、分类以及情感倾向,通 过统计、聚类、神经网络预测以及知识图谱等方法,绘制期刊下载与被引关系图、构建影响文献被引因素模型、研究 热点与情感倾向迁移图以及高质量文章的知识图谱等。【结果/结论】揭示了1957-2018年图书情报领域文献被引与 下载的关系,挖掘文献被引的影响因素,找出研究热点的变迁演化以及高被引文献的特征。  相似文献   

4.
【目的/意义】金融领域实体关系抽取是构造金融知识库的基础,对金融领域的文本信息利用具有重要作 用。本文提出金融领域实体关系联合抽取模型,增加了对金融文本复杂重叠关系的识别,可以有效避免传统的流 水线模型中识别错误在不同任务之间的传递。【方法/过程】本文构建了高质量金融文本语料,提出一种新的序列 标注模式和实体关系匹配规则,在预训练语言模型BERT(Bidirectional Encoder Representations from Transformers) 的基础上结合双向门控循环单元 BiGRU(Bidirectional Gated Recurrent Units)与条件随机场 CRF(Conditional Random Field)构建了端到端的序列标注模型,实现了实体关系的联合抽取。【结果/结论】针对金融领域文本数据 进行实验,实验结果表明本文提出的联合抽取模型在关系抽取以及重叠关系抽取上的F1值分别达到了0.627和 0.543,初步验证了中文语境下本文模型对金融领域实体关系抽取的有效性。【创新/局限】结合金融文本特征提出 了新的序列标注模式并构建了基于BERT的金融领域实体关系联合抽取模型,实现了对金融文本中实体间重叠关 系的识别。  相似文献   

5.
【目的/意义】论文学术价值识别是科技成果评价的重要内容,利用论文内容贡献度和加权平均被引量指标 能够实现论文学术价值的早期识别,推动科技成果价值的早发现早实现。【方法/过程】本文首先基于模式匹配和共 现分析方法抽取了论文问题知识元关系和方法知识元关系;其次按照问题与方法知识元关系进行检索,构建问题 与方法相关文献集;然后基于相关文献集提出论文学术价值指标计算方法,并通过归一化贡献度-加权平均被引量 矩阵,实现了论文学术价值早期识别;最后采用图书情报领域期刊论文数据进行了实验研究。【结果/结论】实验结 果表明,本文提出的方法能够实现论文学术价值的早期识别,有利于推进高质量、高水平科技成果的推广与应用。 【创新/局限】后续研究将把更多论文知识元纳入计算,进一步提高论文学术价值早期识别效果。  相似文献   

6.
【目的/意义】引用动机不同会导致一篇论文在多次被引用时的引用主题和重点产生差异,识别这些被引主题并分析其变化,有助于引用动机分析,提高文献推荐效果。【方法/过程】本文首先抽取被引文献的上下文语境信息,根据文本长度界定多种引用内容的划分范围;然后结合多种文本聚类方法,识别被引主题并比较其异同;最后通过时序比较,分析被引主题的演化路径和过程。【结果/结论】选取人工智能研究领域中的代表性高被引论文进行分析,发现前后句是对当前引用句的重要补充,引用句及其前后句组合能够更好地揭示被引主题;基于引用内容的被引主题呈现出多样化的特征,揭示了原文内容的扩展和引用动机的差异;被引主题演化分析能够有效地揭示原文内容被应用或改进的方向、主题、方法和技术。【创新/局限】形成基于引用内容聚类的文献被引主题识别及其演化分析框架,证明被引主题的差异化以及对原文的补充作用,同时揭示引用内容的主题时序变化的特征与现实意义,后续有必要扩大研究样本,使得研究结果具有更好的通用性。  相似文献   

7.
张雷  谭慧雯  张璇  韩龙 《情报科学》2022,40(3):144-151
【目的/意义】构建高校师德舆情微博用户评论LDA模型,可以更精准识别舆情演化特征和分析关键主题传 播路径,帮助高校和相关部门更为有效地进行舆情监管和舆情引导。【方法/过程】本文以“天津大学一教授学术造 假”事件为例,基于 LDA模型构建高校师德舆情下微博用户主题生成模型,采用困惑度评价指标确定 LDA模型最 优主题数,采用信息熵确定每一主题在不同日期的主题强度,通过关键词共现知识图谱、词云展现舆情话题的演 变,最后基于主题相似度确定主题传播路径。【结果/结论】LDA模型和信息熵可以解析出网络用户群体关注的重要 主题热点,精准识别舆情演化特征,识别主题最优传播路径进行舆论引导,对爆发的舆情实现预测和管制优化。【创 新/局限】文章创新性地构建高校学术道德舆情的LDA主题模型,有效确定微博用户群体主题、识别舆情演化特征、 分析主题间传播路径,具有普适性;进一步扩大高校师德其他舆情分析及结合网络舆情情感分析为下一步的研究 内容。  相似文献   

8.
阿柔娜 《情报科学》2023,(5):153-160
【目的/意义】分析数据隐私风险的时序主题关联,理清热点主题的演化路径,探索有温度的数据隐私风险治理。【方法/过程】基于WOS核心合集和Scopus数据库收录的数据隐私风险领域相关文献,通过LDA主题模型将文本按照时间片切分,并识别各时间片的研究主题;再通过余弦相似度计算分析相邻时间片主题的时序关联,梳理主题演化路径并探索研究前沿。【结果/结论】数据隐私风险研究的关注点逐渐从对识别、评估和缓解数据隐私风险技术本身的关注,转向对平台、算法和场景整体性情境的关注,这需要通过数字伦理、法律和社会等方面共同助力形成负责任的技术,以期构建数字信任环境。【创新/局限】本研究对跨学科和跨领域的数据隐私风险研究的演化路径进行梳理,探索数据隐私风险治理的有效路径。未来可进一步细化不同时期的主题,并深入分析不同时间片的新兴技术对数据隐私风险的影响。  相似文献   

9.
徐海玲 《情报科学》2022,40(7):48-54
【目的/意义】基于事理图谱的方法对网络舆情事件进行揭示,能够准确分析舆情事件的发展趋势和脉络, 为政府部门的舆情管控和舆情引导献计献策。【方法/过程】以微博“长征5B失控”的相关主题与评论内容为研究对 象,对提取的数据进行清洗和处理、抽取和泛化,分别生成顺承事件对和因果事件对,并对其顺承关系和因果关系 进行识别,从而构建网络舆情事理图谱。【结果/结论】在网络舆情的发展过程中,可以看出因果事件的演化路径具 有时间发生短,演化路径短的特点,伴随着时间的推移,其演化的趋势也逐步降低;网络舆情顺承事件具有传播的 时间长,传播的路径多且具有多向性的传播特点,在顺承事件的传播过程中,往往伴随着因果事件,且舆情事件的 走向与网民的情绪有很大的关联。【创新/局限】构建基于事理图谱的网络舆情的演化路径,同时揭示网络舆情演化 的传播特点与现实意义,后续有必要扩大研究样本,使得研究结果具有更好地通用性。  相似文献   

10.
[目的/意义]语句层共被引的关系内容抽取与分类有助于揭示共被引论文间的主题关联。[方法/过程]文章从共被引主题的相似性和相关性出发,利用引用标注位置、作者、语义角色分析、句法分析等信息,将语句层共被引关系划分为同系列、同主题、发展关联、运用关联、并列关联,然后抽取相应的引用主题,构建<被引论文及主题,关系类型,共被引论文及主题>双层三元组,实现共被引关系内容结构化表达,并在Neo4j图数据库中呈现。[结果/结论]实验采用Athar引用语料库;结果表明,本文研究方法可提高语句层共被引网络中关系的可读性和共被引论文的语义搜索、问答与推荐的效率。[局限]实验方法针对英文文献而设计,未来将在更多领域的英文语料上进行验证,并从名词性关系识别、术语选择等方面完善关系内容抽取与分类。  相似文献   

11.
【目的/意义】随着网络社交媒体的发展,舆情文本中隐含的主题越来越能体现出人们的关注点所在及变化 情况,因此对其进行检测及演化分析具有重要意义。【方法/过程】为了解决OLDA模型存在的主题混合及权重定义 问题,本文提出了一种可变在线LDA模型(variable online LDA,VOLDA),通过构建主题相似度矩阵,明确主题变化 关系,在主题内容演化矩阵中剔除含有旧主题的时间片,从而构建变长的演化矩阵,并在此基础上设计动态权重计 算方法及先验参数优化方法。【结果/结论】基于论坛文本数据的实验结果表明,VOLDA模型能够有效减少新主题 出现后的主题混合问题,并且提高主题在演化过程中的表示能力。  相似文献   

12.
【目的/意义】随着LDA模型成为微博信息推荐的主要工具,众多的LDA演化模型的使用问题成为研究者 亟待解决地问题。【方法/过程】首先,从演化发展角度对LDA模型运行机理进行了解析,揭示了模型使用的先决条 件和算法内涵;其次,从不同需求的视角揭示了RB-LDA、RT-LDA、C-LDA、MB-LDA等扩展模型对LDA模型的 功能性补充;最后,提出LDA模型的技术演化方向。【结果/结论】结果表明可利用微型本体来提升语义性、利用多种 模型融合来提升精度、利用大数据来提升数据质量是LDA模型未来的演化方向,可使LDA模型信息推荐能力的更 具个性化和精准化。  相似文献   

13.
【目的/意义】构建主题-主题关联的学科知识网络,从主题之间语义关联角度度量主题在学科知识网络中 的影响力,分析学科知识结构演化规律,为热点、前沿主题探测提供方法支撑。【方法/过程】基于 LDA主题模型抽取 学科领域研究主题,利用主题在科学文献中的共现关系构建主题-主题关联的学科知识网络,并提出主题影响力概 念和度量方法;基于复杂网络结构分析方法对学科领域生命周期内主题-主题关联的学科知识网络进行演化分 析。【结果/结论】实证分析表明主题的网络影响力是主题强度、被学者关注度等外部特征指标的有力补充,可用来 探测热点、前沿主题。同时,学科知识结构随着学科领域的发展表现出较强的小世界网络特征。  相似文献   

14.
柯佳 《情报科学》2021,39(10):165-169
【目的/意义】实体关系抽取是构建领域本体、知识图谱、开发问答系统的基础工作。远程监督方法将大规 模非结构化文本与已有的知识库实体对齐,自动标注训练样本,解决了有监督机器学习方法人工标注训练语料耗 时费力的问题,但也带来了数据噪声。【方法/过程】本文详细梳理了近些年远程监督结合深度学习技术,降低训练 样本噪声,提升实体关系抽取性能的方法。【结果/结论】卷积神经网络能更好的捕获句子局部、关键特征、长短时记 忆网络能更好的处理句子实体对远距离依赖关系,模型自动抽取句子词法、句法特征,注意力机制给予句子关键上 下文、单词更大的权重,在神经网络模型中融入先验知识能丰富句子实体对的语义信息,显著提升关系抽取性能。 【创新/局限】下一步的研究应考虑实体对重叠关系、实体对长尾语义关系的处理方法,更加全面的解决实体对关系 噪声问题。  相似文献   

15.
赵霞 《情报科学》2023,(5):34-41
【目的/意义】数字阅读给人们的知识与信息获取带来了巨大的变化,识别数字阅读领域的研究热点及其主题演化路径,有助于对数字阅读领域建立起动态的全景化视野。【方法/过程】文章以数字阅读领域的高水平论文为基础数据源,基于关键词共现关系构建领域知识网络,通过高频次与高度值关键词识别领域研究热点,采用SLM社团发现算法和主题密度图跟踪分析领域的主题演化路径。【结果/结论】研究结果表明,数字阅读领域已具有相对稳定的知识体系架构;从数字出版到阅读推广再到问题消解,领域研究逐渐走向成熟;从关注阅读形式到关注阅读效果,领域研究进入内涵式发展道路。【创新/局限】研究工作主要聚焦于国内学术界具有代表性的高水平研究层次,未来的研究工作将纳入更广泛的数据来源,进行更加全面细致地研究。  相似文献   

16.
梁珊  邱明涛  马静 《情报科学》2017,35(7):44-49
【目的/意义】考虑到使用LDA模型进行主题抽取时,抽取到的特征词是无序的,破坏了原有的主谓宾结 构,导致抽取效果不准确,可读性差的缺陷,构造了WO词序模型,并将LDA模型与WO模型结合,提出了基于 LDA-WO混合模型的微博主题有序特征抽取算法。【方法/过程】使用LDA模型进行主题建模,获得无序特征词, 然后通过WO模型对特征词进行排序,将特征词与原语料进行对比,构造特征词-语料位置矩阵,通过对特征词的 位置排序,构造特征词词序权值矩阵,最终获得有序的特征词,完成对话题特征的有序抽取。【结果/结论】本文以真 实新浪微博数据为实验对象,实验结果表明基于LDA-WO模型的特征词提取方法进行特征抽取,抽取到的特征词 可读性更强,可弥补传统LDA模型在话题可解释性上的不足。  相似文献   

17.
熊回香  李跃艳 《情报科学》2019,37(12):19-26
【目的/意义】学术网站是学者发现研究兴趣的有效途径,研究学者推荐与跨语言论文推荐有助于学者更好 地开展学术研究。【方法/过程】利用论文之间的引用与被引关系分别爬取参考文献集合和被引文献集合,构建学者 推荐与跨语言论文推荐模型。首先通过Word2vec算法模型生成候选相关学者集和候选相关论文集,计算 Word2vec得分;然后分别进行加权处理,最终得到学者推荐列表和跨语言论文推荐列表。以CSSCI中的《中国图书 馆学报》、《情报学报》和《图书情报工作》三种代表性期刊在2016-2017年载文的参考文献集合与被引文献集合为数 据来源进行实证分析,并验证模型的科学性与可行性。【结果/结论】实证结果表明,该模型可以很好地发现相关学 者以及相关论文。  相似文献   

18.
潘晓  段鑫星 《情报科学》2021,39(7):131-135
【目的/意义】针对当前中小企业情报收集系统模型收集情报的准确性、信息检索查全率以及情报分类管理 效率较低的问题,提出基于LDA及模糊VIKOR法的中小企业情报收集系统模型构建。【方法/过程】根据LDA模型 设计并构建中小企业情报收集系统模型架构,通过企业管理架构采集知识资源,将获取的知识分别划分至管理架 构相应模块中,实现企业知识整合管理。根据模糊VIKOR法设计了中小企业情报分类步骤,引入贝叶斯统计的标 准法,获取最佳主题数量,采用Gibbs抽样算法得出分类隐含层主题集合概率整体分布的向量,实现中小企业情报 收集系统分类管理。【结果/结论】实验结果表明,该系统的准确性较高,能够有效提高情报分类管理效率以及信息 检索查全率。【创新/局限】本文采用LDA模型整合管理企业知识,结合模糊VIKOR法分类管理企业情报收集,构建 准确高效的系统模型,但本文构建的系统模型未应用于实际企业中进行反馈与完善。  相似文献   

19.
刘振 《情报科学》2018,36(9):115-117
【目的/意义】为了帮助科研人员从海量信息中发现热点和重大研究进展,抽取出有用的事件信息。【方法/ 过程】采用条件随机场方法和语义角色标注技术,构建了模型进行训练和学习。【结果/结论】提出了科技事件抽取 框架,实现了科技事件抽取系统,取得了一定的抽取效果,该系统的可扩展性和可移植性有待提高。  相似文献   

20.
【目的/意义】在新冠肺炎疫情中,科学数据为疫情分析、管控和治理提供了重要的依据和支撑,为实现新冠肺炎科学数据的价值最大化,有必要构建新冠肺炎科学数据集元数据框架。【方法/过程】文章以Re3data.org中的新冠肺炎科学数据集为例,在对科学数据集元数据进行收集整理后,构建新冠肺炎科学数据集元数据框架,利用Protégé软件实现科学数据集本体构建,并借助图数据库Neo4j对所构建的知识图谱进行存储。【结果/结论】结果表明,对Re3data.org中的新冠肺炎科学数据集元数据进行关联融合,将元数据转化为多元化的数据存储及展示形式。【创新/局限】实现了新冠肺炎科学数据集知识图谱的构建,并且在图谱之中进行实体及其关系的查询检索和推理,细粒度地创建了科学数据集本体中各个部分属性、实体之间的关联,未来还应侧重跨平台科学数据集元数据的关联与融合。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号