首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 171 毫秒
1.
彭博 《情报杂志》2022,(8):156-162+178
[研究目的]实体间关联关系是知识的基本载体,对网络文物信息资源中实体关系进行抽取是大数据环境下进行文物知识发现、绘制文物知识图谱的前提,也是文物信息资源开发利用需要解决的重要问题。[研究方法]针对网络文物信息资源结构化数据标准详实、实体关系特征明确、语言描述规范等特征,从知识库中查询实体关系并依照规则进行实体关系标注,利用元数据标准进行实体关系对齐,使用预训练语言模型获取字符特征,应用深度学习有关方法获取语义特征,进行了非结构化文物信息资源实体关系的抽取。[研究结论]研究表明,在与其他预训练语言模型及深度学习方法的关系抽取对比实验中,该方法的综合效率相对较高,并根据实体关系分类的不同进行特征挖掘,为文物信息资源的研究与推广提供了有益的参考。  相似文献   

2.
柯佳 《情报科学》2021,39(10):165-169
【目的/意义】实体关系抽取是构建领域本体、知识图谱、开发问答系统的基础工作。远程监督方法将大规 模非结构化文本与已有的知识库实体对齐,自动标注训练样本,解决了有监督机器学习方法人工标注训练语料耗 时费力的问题,但也带来了数据噪声。【方法/过程】本文详细梳理了近些年远程监督结合深度学习技术,降低训练 样本噪声,提升实体关系抽取性能的方法。【结果/结论】卷积神经网络能更好的捕获句子局部、关键特征、长短时记 忆网络能更好的处理句子实体对远距离依赖关系,模型自动抽取句子词法、句法特征,注意力机制给予句子关键上 下文、单词更大的权重,在神经网络模型中融入先验知识能丰富句子实体对的语义信息,显著提升关系抽取性能。 【创新/局限】下一步的研究应考虑实体对重叠关系、实体对长尾语义关系的处理方法,更加全面的解决实体对关系 噪声问题。  相似文献   

3.
实体关系抽取和实体关系分类是信息抽取中重要的研究领域,不仅要识别文本中的实体,还要确定这些实体之间的关系,能够辅助机器对文本语义的理解。提出了一种基于关系相似度计算的实体关系分类模型,并针对7种常见实体关系进行了分类实验。  相似文献   

4.
[目的/意义]旨在为提升政策文本的自动化处理程度提供参考。[方法/过程]在梳理已有政策本体及其构建方式基础上,提出由词汇语义主导的自下而上的本体构建方法,运用本体构建工具Protégé5.5.0构建科技创新政策文本本体,对部分政策内容进行标注并可视化。[结果/结论]该本体适用于科技创新政策文本的结构化语义抽取,能够在一定程度上揭示科技创新政策的结构化语义特征。  相似文献   

5.
鲍玉来  耿雪来  飞龙 《现代情报》2019,39(8):132-136
[目的/意义]在非结构化语料集中抽取知识要素,是实现知识图谱的重要环节,本文探索了应用深度学习中的卷积神经网络(CNN)模型进行旅游领域知识关系抽取方法。[方法/过程]抓取专业旅游网站的相关数据建立语料库,对部分语料进行人工标注作为训练集和测试集,通过Python语言编程实现分词、向量化及CNN模型,进行关系抽取实验。[结果/结论]实验结果表明,应用卷积神经网络对非结构化的旅游文本进行关系抽取时能够取得满意的效果(Precision 0.77,Recall 0.76,F1-measure 0.76)。抽取结果通过人工校对进行优化后,可以为旅游知识图谱构建、领域本体构建等工作奠定基础。  相似文献   

6.
丁浩  孔令圆  刘清  胡广伟 《现代情报》2023,(11):135-145
[目的/意义]本文针对农业领域提出一种基于融合多重特征词嵌入模型的农业命名实体识别方法,以提高识别准确度。[方法/过程]通过使用结合字符、位置语义、领域知识字典特征等多重特征向量作为嵌入层,充分考虑字符的位置信息和上下文语义信息,并根据农业领域的中文实体的特点改进了单一字符向量嵌入,获得更多的农业实体特征,同时采用双向长短时记忆网络BiLSTM和多头注意力机制来学习文本的长距离依赖信息,再利用条件随机场CRF获得全局最优标注序列。[结果/结论]本文在农业领域中文实体语料数据集中与9种基于基线方法进行对比实验,模型的Precision为92.2%,Recall为92.0%,F1值为92.11%,均优于其他基线模型,说明本文模型对于中文农业命名实体识别更精确。  相似文献   

7.
徐红霞 《情报杂志》2023,(12):153-158+167
[研究目的]在知识海量增长的时代,知识图谱问答面临信息需求与知识图谱加速更新的现实情境,亟需探索关系链接模型在关系类型频繁更新时仍能保持链接效果的方法,实现未见关系类别与用户提问的精准语义匹配。[研究方法]针对模型泛化性不足与灾难性遗忘问题,引入Adapter-Bert迁移学习框架;针对模型对辨别性语义部分的捕获能力不足问题,引入实体特征与问题变换,并将稠密向量与问句抽象意义形式化表示两种不同的语义表示方式进行融合。[研究结论]结果表明,方法在未见关系链接任务上的准确率达到98.80%,相较bert基线模型有显著提高,提升了未见关系链接的效果。  相似文献   

8.
[研究目的]从学术关系角度研究机构知识库科研实体相关关系,能够使机构知识库资源通过学术关系发现实现语义聚集。[研究方法]分析机构知识库所含资源类型与特征、学术关系内涵,提出机构知识库主要科研实体之间存在的学术关系,在此基础上,构建包含数据层、描述层、关联层、应用层四个层面的机构知识库科研实体学术关系发现体系。[研究结论]该方法体系可使机构知识库中具有学术关系的科研实体建立链接、实现关联,形成学术关系网络,在可视化揭示、语义化检索、智慧化服务等方面进行应用。  相似文献   

9.
[目的/意义]为了实现从非结构化的在线评论中有效提取用户需求,文章提出了数据驱动下产品需求识别的方法。[方法/过程]利用Word2vec表示学习方法,获取评论文本内容的语义向量表示;结合K-means算法和LSA模型实现评论文本聚类,识别产品需求主题;在此基础上,通过网络分析方法探索需求主题间的关联关系。以华为手机的评论数据为例进行方法验证。[结果/结论]结果表明,基于语义的文本特征可以取得较好的聚类效果,与传统方法相比,CH指标和SC指标均得到显著提高,验证了该方法的有效性。研究方法和结果能够为企业产品创新和运营决策提供一定参考。[局限]样本数据集规模不够,缺少跨平台实验计算和比较。  相似文献   

10.
李枫林  柯佳 《情报科学》2018,36(3):169-176
【目的/意义】从大量非结构化文本中抽取出结构化的实体及其关系,是优化搜索引擎、建立知识图谱、开发 智能问答系统的基础工作。【方法/过程】介绍了深度学习框架下不同神经网络模型实现实体关系抽取的方法,比较 了各种模型的优劣势,结合远程监督和注意力机制进一步提高关系抽取性能,最后指出了深度学习模型的不足及 未来发展方向。【结果/结论】实验发现,卷积神经网络擅长捕获句子局部关键信息,循环神经网络擅长捕获句子的 上下文信息,能反映句子多个实体之间的高阶关系,递归神经网络适合短文本的关系抽取。如果模型能结合自然 语言的先验知识,实体关系抽取将会取得更好的效果。  相似文献   

11.
[目的/意义]针对单纯使用统计自然语言处理技术对社交网络上产生的短文本数据进行意向分类时存在的特征稀疏、语义模糊和标记数据不足等问题,提出了一种融合心理语言学信息的Co-training意图分类方法。[方法/过程]首先,为丰富语义信息,在提取文本特征的同时融合带有情感倾向的心理语言学线索对特征维度进行扩展。其次,针对标记数据有限的问题,在模型训练阶段使用半监督集成法对两种机器学习分类方法(基于事件内容表达分类器与情感事件表达分类器)进行协同训练(Co-training)。最后,采用置信度乘积的投票制进行分类。[结论/结果]实验结果表明融入心理语言学信息的语料再经过协同训练的分类效果更优。  相似文献   

12.
Relation classification is one of the most fundamental tasks in the area of cross-media, which is essential for many practical applications such as information extraction, question&answer system, and knowledge base construction. In the cross-media semantic retrieval task, in order to meet the needs of cross-media uniform representation and semantic analysis, it is necessary to analyze the semantic potential relationship and construct semantic-related cross-media knowledge graph. The relationship classification technology is an important part of solving semantic correlation classification. Most of existing methods regard relation classification as a multi-classification task, without considering the correlation between different relationships. However, two relationships in the opposite directions are usually not independent of each other. Hence, this kind of relationships are easily confused in the traditional way. In order to solve the problem of confusing the relationships of the same semantic with different entity directions, this paper proposes a neural network fusing discrimination information for relation classification. In the proposed model, discrimination information is used to distinguish the relationship of the same semantic with different entity directions, the direction of entity in space is transformed into the direction of vector in mathematics by the method of entity vector subtraction, and the result of entity vector subtraction is used as discrimination information. The model consists of three modules: sentence representation module, relation discrimination module and discrimination fusion module. Moreover, two fusion methods are used for feature fusion. One is a Cascade-based feature fusion method, and another is a feature fusion method based on convolution neural network. In addition, this paper uses the new function added by cross-entropy function and deformed Max-Margin function as the loss function of the model. The experimental results show that the proposed discriminant feature is effective in distinguishing confusing relationships, and the proposed loss function can improve the performance of the model to a certain extent. Finally, the proposed model achieves 84.8% of the F1 value without any additional features or NLP analysis tools. Hence, the proposed method has a promising prospect of being incorporated in various cross-media systems.  相似文献   

13.
[目的/意义]为满足用户多层次、多粒度的知识获取需求,图书馆文献资源组织的对象由文献单元逐步向知识单元转变。[方法/过程]文章在研究单元信息概念和表示模型的基础上,提出基于本体和关联数据的单元信息知识组织框架,并深入探讨了实现单元信息语义组织的核心步骤。以中医养生领域为例,阐述单元信息知识组织语义模型的应用过程。[结果/结论]本文构建的单元信息知识组织模式,是实现单元信息细粒度组织、语义化揭示以及多维度关联的有效途径。该研究可为特定领域单元信息的语义应用提供参考。  相似文献   

14.
Automatic text classification is the task of organizing documents into pre-determined classes, generally using machine learning algorithms. Generally speaking, it is one of the most important methods to organize and make use of the gigantic amounts of information that exist in unstructured textual format. Text classification is a widely studied research area of language processing and text mining. In traditional text classification, a document is represented as a bag of words where the words in other words terms are cut from their finer context i.e. their location in a sentence or in a document. Only the broader context of document is used with some type of term frequency information in the vector space. Consequently, semantics of words that can be inferred from the finer context of its location in a sentence and its relations with neighboring words are usually ignored. However, meaning of words, semantic connections between words, documents and even classes are obviously important since methods that capture semantics generally reach better classification performances. Several surveys have been published to analyze diverse approaches for the traditional text classification methods. Most of these surveys cover application of different semantic term relatedness methods in text classification up to a certain degree. However, they do not specifically target semantic text classification algorithms and their advantages over the traditional text classification. In order to fill this gap, we undertake a comprehensive discussion of semantic text classification vs. traditional text classification. This survey explores the past and recent advancements in semantic text classification and attempts to organize existing approaches under five fundamental categories; domain knowledge-based approaches, corpus-based approaches, deep learning based approaches, word/character sequence enhanced approaches and linguistic enriched approaches. Furthermore, this survey highlights the advantages of semantic text classification algorithms over the traditional text classification algorithms.  相似文献   

15.
Extracting semantic relationships between entities from text documents is challenging in information extraction and important for deep information processing and management. This paper investigates the incorporation of diverse lexical, syntactic and semantic knowledge in feature-based relation extraction using support vector machines. Our study illustrates that the base phrase chunking information is very effective for relation extraction and contributes to most of the performance improvement from syntactic aspect while current commonly used features from full parsing give limited further enhancement. This suggests that most of useful information in full parse trees for relation extraction is shallow and can be captured by chunking. This indicates that a cheap and robust solution in relation extraction can be achieved without decreasing too much in performance. We also demonstrate how semantic information such as WordNet, can be used in feature-based relation extraction to further improve the performance. Evaluation on the ACE benchmark corpora shows that effective incorporation of diverse features enables our system outperform previously best-reported systems. It also shows that our feature-based system significantly outperforms tree kernel-based systems. This suggests that current tree kernels fail to effectively explore structured syntactic information in relation extraction.  相似文献   

16.
王仁武  孟现茹  孔琦 《现代情报》2018,38(10):57-64
[目的/意义]研究利用深度学习的循环神经网络GRU结合条件随机场CRF对标注的中文文本序列进行预测,来抽取在线评论文本中的实体-属性。[方法/过程]首先根据设计好的文本序列标注规范,对评论语料分词后进行实体及其属性的命名实体标注,得到单词序列、词性序列和标注序列;然后将单词序列、词性序列转为分布式词向量表示并用于GRU循环神经网络的输入;最后输出层采用条件随机场CRF,输出标签即是实体或属性。[结果/结论]实验结果表明,本文的方法将实体-属性抽取简化为命名实体标注,并利用深度学习的GRU捕获输入数据的上下文语义以及条件随机场CRF获取输出标签的前后关系,比传统的基于规则或一般的机器学习方法具有较大的应用优势。  相似文献   

17.
张晓丹 《情报杂志》2021,(1):184-188
[目的/意义]随着互联网数字资源的剧增,如何从海量数据中挖掘出有价值的信息成为数据挖掘领域研究的热点问题。文本大数据分类是这一领域的关键问题之一。随着深度学习的发展,使得基于深度学习的文本大数据分类成为可能。[方法/过程]针对近年来出现的图神经网络文本分类效率低的问题,提出改进的方法。利用文本、句子及关键词构建拓扑关系图和拓扑关系矩阵,利用马尔科夫链采样算法对每一层的节点进行采样,再利用多级降维方法实现特征降维,最后采用归纳式推理的方式实现文本分类。[结果/结论]为了测试该文所提方法的性能,利用常用的公用语料库和自行构建的NSTL科技期刊文献语料库对本文提出的方法进行实验,与当前常用的文本分类模型进行准确率和推理时间的比较。实验结果表明,所提出的方法可在保证文本及文献大数据分类准确率的前提下,有效提高分类的效率。  相似文献   

18.
徐彤阳  滕琦 《情报杂志》2021,(4):163-169
[目的/意义]作为科研人员知识获取、交流与利用的重要场所,虚拟学术社区资源具有数量多、价值高等特征,探索智能问答服务在社区的理论、方法与应用,对推动学术资源高效检索与利用,促进知识服务创新具有重要意义。[方法/过程]梳理虚拟学术社区研究现状与目前知识服务存在的不足,联合双向长短期记忆网络(BiLSTW)、文本相似度等技术作为支撑,基于注意力机制的CNN的智能问答方式构建学术社区内资源的智能问答模型,增加注意力分支以抽取细粒度特征,提高检索速度,提升科研效率。[结果/结论]智能化技术的应用实现学术资源的深度聚合,实现传统信息交互与智能化新技术的协同发展,提升了学术资源利用率,扩大信息资源共建共享。  相似文献   

19.
[目的/意义] 在信息检索、科技论文评价和知识结构演化方面,引文分析都起着至关重要的作用。随着格式化全文数据库的出现,引文分析迈入了4.0时代——全文引文分析阶段。但是,目前还没有中文的格式化全文数据库,这极大地制约了全文引文分析在我国科技文献中的研究和应用。[方法/过程] 在本文中我们提出建立高效的中文全文引文分析依赖的数据集和检索平台的方法,主要包括:1)提出了基于规则和SVM分类方法的论文元数据和引用提取方法;2)提出基于Spark平台的实现高效引文内容分析标准化数据集生成方法;3)提出建立引用内容的科技文献检索平台。[结果/结论] 引文内容分析标准化数据集的建立将全面提升全文引文分析在我国科技领域中的研究效能,提高科技文献查找精度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号