首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 218 毫秒
1.
张晗  赵玉虹 《图书情报工作》2016,60(11):135-142
[目的/意义]针对共词分析存在的普遍问题,提出一种基于细粒度语义分析的共词网络构建与分析方法。[方法/过程]借助SemRep实现源文本主题概念及其语义关系的规范化抽取并由此构建语义共词网络,然后以节点的中心度和边的频次为指标对内容特征词进行抽取,利用UMLS语义网络规定的语义搭配模式,通过概念-语义类型-语义类型组的两级映射,对语义述谓项进行类团划分。[结果/结论]通过与常规共词分析方法比较,发现基于细粒度语义关系的共词分析能有效地揭示文本主题内容,利用UMLS语义网络资源能从语义学角度清晰准确地对语义共词网络进行类团划分。  相似文献   

2.
[目的/意义] 采用hLDA从专利语料库中抽取层次主题,以描述隐藏在专利文本中的技术结构,并基于层次主题随时间变化情况进行技术演化分析。[方法/过程] 从专利术语中获取闭频繁项集,并基于此建立关联规则网络来度量术语的重要性和术语间语义关系强弱,进而对语料库进行重构,并对不同时间片段的专利集合进行层次主题结构抽取。[结果/结论] 将本方法应用于硬盘驱动器磁头领域的专利数据分析,实证结果表明该方法是一种可行和有效的技术演化分析方法。  相似文献   

3.
[目的/意义]为改善作者共被引分析(author co-citation analysis,ACA)在识别学科领域知识结构中缺乏内容信息的不足,将文献内容信息(题名、摘要、关键词)引入到作者共被引分析中,提出一种新的作者共被引分析方法,即"内容与ACA融合的方法(content and author co-citation analysis,C-ACA)"。[方法/过程]以"学科服务"主题领域为例,分别建立ACA作者相似矩阵Aij、作者-内容矩阵并转换为作者相似矩阵Bij;通过构建线性融合函数实现作者文献内容与ACA的融合;最后通过提取作者主题因子成分并在NetDraw环境下进行2-模图可视化,挖掘并呈现学科服务研究领域的知识结构。[结果/结论]与传统ACA方法比较,C-ACA方法能够更准确、更细致地挖掘和揭示学科领域知识结构。  相似文献   

4.
社交媒体虚假健康信息特征识别   总被引:3,自引:2,他引:1  
[目的/意义] 识别社交媒体虚假健康信息特征,构建社交媒体虚假健康信息特征清单,以期为社交媒体虚假健康信息特征的测度提供一定理论支撑,也为用户和社交媒体平台判别虚假健康信息提供有益参考。[方法/过程] 采集1 004条社交媒体健康数据,利用程序化编码抽取社交媒体虚假健康信息的关键特征,运用卡方检验和方差分析揭示社交媒体虚假健康信息的显著特征,并构建社交媒体虚假健康信息特征清单。[结果/结论] 研究结果表明,社交媒体虚假健康信息特征具有表面特征、语义特征和来源特征3个维度、11个主要特征以及29个子特征。其中,社交媒体上食品安全主题的虚假健康信息在"术语包装"特征上表现得更为显著;"夸大事实"为社交媒体上常见疾病主题虚假健康信息的显著特征;社交媒体上养生保健主题的虚假健康信息具有"元数据缺失"和"假借权威"显著特征。  相似文献   

5.
[目的/意义] 基于社交媒体,探索突发事件信息生命周期中不同利益相关者的动态分类及其关注主题的演变规律,为更精准的危机信息监测与动态决策提供依据。[方法/过程] 以特定危机事件的事实文本数据为来源,以利益相关者理论和动态主题模型为指导,构建三维动态主题演化模型以对社交媒体危机事件中不同利益相关者的分类与话题关注进行主题挖掘。其中包括时间粒度划分、利益相关者的定量评估、基于时间和主体的危机主题观点识别与刻画,并利用可视化工具对该动态趋势进行表征。[结果/结论] 基于三维动态主题演化模型,利益相关者的组成与分类在不同阶段中具有明显的差异性,同时其关注主题与行为特征也体现出不同的偏好性和动态差异性。危机主体的动态与危机主题的动态有效结合,能够更加全面地表达舆情传播的特点和规律。  相似文献   

6.
[目的/意义] 中医药是中华文化的传承,对现代医学发展具有重要作用,应受到高度重视。利用数字技术组织中医古籍,对其进行保护与重用具有重要意义。[方法/过程] 以简帛医药文献为研究对象,分别构建简帛医药书目本体和内容本体,并通过书目本体和内容本体的连接形成简帛医药文献本体模型;利用命名实体识别模型抽取实体概念,利用依存句法分析和规则的方法抽取实体关系,最终将简帛医药文献数据存入图数据库,实现简帛医药文献知识图谱可视化与检索查询结果呈现。[结果/结论] 利用本体和知识图谱,提出简帛医药知识组织方法,建立具有逻辑关系的简帛医药知识链,形成中医药领域知识的语义网络,在中医古籍的智能化方面做出有益的探索,有助于中药知识的普及与传承。  相似文献   

7.
[目的/意义] 探索从科技论文中挖掘出作者研究思路的可能性和技术手段,从而高效地获得新的研究创意。[方法/过程] 提出一种从单篇科技论文中抽取概念地图的方法,通过构建其微观概念地图(MCM)来形象地描述作者在研究中重视并运用的知识结构,通过对概念及其关系的定量分析来推测作者的研究重点和创新思路。[结果/结论] 选取一篇发表在2014年Science期刊上的关于聚类方法的论文,展示其MCM的抽取及论文研究思路的挖掘过程,验证所提方法的有效性。  相似文献   

8.
[目的/意义] 在进行大规模知识库构建时,基于手工方式的构建模式效率较低并且可行性较差,因此,从网络百科中自动地获取海量知识已经被越来越多的学者所关注。目前的研究主要关注于从英文网络百科数据源进行海量知识的抽取,而面向中文百科数据源进行的知识抽取研究工作尚处于起步阶段。[方法/过程] 为解决中文大规模知识库的构建问题,提出一种新的基于中文网络百科架构的大规模知识库的自动化构建方法:在第一阶段,对知识三元组中的主语和宾语之间的语义关系进行自扩展学习;在第二阶段,基于条件随机场和支持向量机协同分类器,对标注出的属性和属性值实体之间的语义关系进行预测。[结果/结论] 实验评测结果表明,该方法较前人工作在典型中文百科分类页面中的实体识别查准率和查全率分别最高有约10%和6%的提升。  相似文献   

9.
[目的/意义] 针对本文作者为了对敦煌壁画图像蕴含的信息进行语义描述、揭示与标注而提出的层次性图像语义描述框架(SDFDI),采用内容分析法验证其合理性。[方法/过程] 以中国知网、维普数据库和万方数据库中的237篇敦煌壁画图像研究文献为样本,借助人工编码,统计非语义A类信息、基本语义B类和C类信息、复杂语义D类信息的分布情况以及其与SDFDI框架的匹配率。[结果/结论] 统计结果显示,在敦煌壁画研究文献中,这4类信息呈现正态分布,匹配率也说明SDFDI框架可以作为图像深度语义标注的参照基准。  相似文献   

10.
[目的/意义] 针对SAO结构短文本分类时面临的语义特征短缺和领域知识不足问题,提出一种融合语义联想和BERT的SAO分类方法,以期提高短文本分类效果。[方法/过程] 以图情领域SAO短文本为数据源,首先设计了一种包含"扩展-重构-降噪"三环节的语义联想方案,即通过语义扩展和SAO重构延展SAO语义信息,通过语义降噪解决扩展后的噪声干扰问题;然后利用BERT模型对语义联想后的SAO短文本进行训练;最后在分类部分实现自动分类。[结果/结论] 在分别对比了不同联想值、学习率和分类器后,实验结果表明当联想值为10、学习率为4e-5时SAO短文本分类效果达到最优,平均F1值为0.852 2,与SVM、LSTM和单纯的BERT相比,F1值分别提高了0.103 1、0.153 8和0.140 5。  相似文献   

11.
[目的/意义] 从数字人文视角出发,实现敦煌吐鲁番医药文献的数字化及知识组织与可视化,为敦煌吐鲁番医药文献的传承、普及与智能化服务做出贡献。[方法/过程] 采用自顶向下方法,参考BIBFRAME书目模型及中医药学语言系统(TCMLS)构建敦煌吐鲁番医药文献本体模型,利用哈工大语言技术云平台LTP实现词性标注与三元组自动抽取,构建敦煌吐鲁番医药文献知识图谱。[结果/结论] 利用所构建的本体及知识图谱可实现敦煌吐鲁番医药文献知识组织工作,知识图谱能够实现语义查询,为敦煌吐鲁番医药文献的智能化理解奠定基础。  相似文献   

12.
[目的/意义] 面向文化遗产领域的知识分析研究,对领域知识建模、知识组织、智慧数据资源建设等具有重要意义。[方法/过程] 为明确文化遗产领域知识结构与特征,基于对领域本体的计算与分析,系统剖析文化遗产领域核心共享概念以及领域知识关联关系,提出并构建文化遗产领域知识纲要。[结果/结论] 文化遗产领域核心共享概念包括领域对象与实体、类型与概念、时间与空间、事件与活动、文献与作品、代理者等内容,领域知识关联关系丰富多样且较为复杂。研究结论有助于更全面地理解与认识文化遗产领域知识体系,指导领域本体开发与知识建模,促进领域知识的有效组织与管理。  相似文献   

13.
[目的/意义] 信息技术的快速发展与广泛应用推动了敦煌学研究的变革,使敦煌学研究及其知识资源的利用更加便利,由于还停留在现有数据库传统知识平台与检索方式上,使敦煌遗书图像知识的价值挖掘不全面。为此,笔者对敦煌遗书图像研究进行梳理,对敦煌图像知识发现的深度和广度及其知识关联进行充分的语义描述,以利于发掘敦煌遗书图像的多元价值。[方法/过程] 通过敦煌遗书图像研究现状的考量、语义描述,根据敦煌遗书图像语义特征设计其语义特征层级模型,结合智能+关联数据技术构建敦煌遗书图像知识关联的组织框架,并深入分析了敦煌遗书图像知识关联及其组织框架中的数据收集层、语义描述层、数据关联层、资源应用层。[结果/结论] 提出敦煌遗书知识关联模型的实践价值,能够打通与外部开放数据关联渠道、提高敦煌遗书图像智能化的检索质量以及提升敦煌遗书图像知识服务的深度与广度。  相似文献   

14.
郭进京  黄奇 《图书情报工作》2021,65(20):123-134
[目的/意义] 科学研究(尤其是医学研究)充满了不确定性,识别研究中的矛盾知识主张将有助于识别"科学分歧/不一致的科学结论",推动潜在变革性科学研究的识别和相关研究的完善。[方法/过程] 以阿尔茨海默病为例,将PubMed文摘数据作为数据源,采用SemRep工具进行三元组抽取。制定表征矛盾意义的知识主张识别规则,依据不确定性程度高低对来源语句进行划分,分别采用单句识别和跨语句识别两种途径,识别以三元组形式表示的、具有矛盾意义的医学研究知识主张。[结果/结论] 从来源于PubMed的6 574篇医学文摘中共计识别出49组(涉及277对三元组)矛盾知识主张。阿尔茨海默病在诊断和治疗方面的研究仍存在部分争议和矛盾,有待进一步验证。矛盾知识主张识别为潜在变革性医学研究前沿发现提供新思路,可用于基于知识计量的知识发现和为知识图谱可信度计算提供参考。  相似文献   

15.
[目的/意义] 为解决现有网页文本缺乏起源标注的问题,提出一种借助PROV本体发现相似网页文本起源关系的方法。[方法/过程] 通过聚类算法、自动语义标注和关联数据构建等技术的综合应用,结合PROV-POL溯源模型,检测网页文本实体的演变过程,实现文本级和属性级两级溯源方案。[结果/结论] 实验验证了借助语义网技术和数据溯源模型实现网页文本数据溯源的可行性,但实验过程中聚类算法的召回率有待提高。  相似文献   

16.
[目的/意义]通过对国内外多语本体领域映射技术相关研究成果的总结和EuroWordNet案例分析,为国内跨语言信息检索系统映射机制的建立提供借鉴和参考。[方法/过程]选取目前发展较为成熟的多语本体库EuroWordNet作为案例,分别从数据库设计、本体构建、概念存储和多语文化差异的映射处理4个方面对其中间语言索引机制(Inter-Lingual-Index,ILI)进行分析。[结果/结论]嵌入式的数据库结构设计、概念抽取及同义词集对应关系的界定、概念存储的细粒度化和复杂等价关系的建立是建立跨语言信息检索映射机制的关键。  相似文献   

17.
[目的/意义] 科技文献中的概念是对文献中知识高度凝练的表达,通常以定义句的形式出现在科技文献中。自动从概念定义句中抽取概念,能够进一步挖掘科技文献中蕴含的重要知识。[方法/过程] 通过分析概念定义句的结构、句式等模式特征,提出以WCL数据集为基础的语料构建方案,并采用BERT+BiLSTM+CRF模型学习概念定义句的模式,从而实现概念短语抽取。[结果/结论] 结合以往对概念定义句模式特征的研究,创新性地提出一种基于序列标注学习概念定义句的组成模式,从而实现概念短语抽取。通过BERT+BiLSTM+CRF模型,有效学习了概念定义句中的上下文语义、句式结构、组成项分布等模式特征,实现了句子中概念短语的抽取。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号