一种基于多元数据融合的引文网络知识表示方法 |
| |
引用本文: | 陈文杰,许海云.一种基于多元数据融合的引文网络知识表示方法[J].情报理论与实践,2020,43(1):150-154,134. |
| |
作者姓名: | 陈文杰 许海云 |
| |
作者单位: | 中国科学院成都文献情报中心,四川 成都610041;中国科学院成都文献情报中心,四川 成都610041 |
| |
基金项目: | 中国科学院“十三五”信息化项目“面向干细胞领域知识发现的科研信息化应用”(项目编号:XXH13506);中国科学院青年创新促进会项目(项目编号:2016159)的研究成果;国家自然科学基金项目“基于科学—技术主题关联分析的创新演化路径识别方法研究”(项目编号:71704170) |
| |
摘 要: | 目的/意义]有效融合引文网络中的引用关系和文本属性等多元数据,增强文献节点间的语义关联,从而为数据挖掘和知识发现等任务提供有力的支撑。方法/过程]提出了一种引文网络的知识表示方法,先利用神经网络模型学习引文网络中的k阶邻近结构;然后使用doc2vec模型学习标题、摘要等文本属性;最后给出了基于向量共享的交叉学习机制用于多元数据融合。结果/结论]通过面向干细胞领域的CNKI引文数据集的测试,在链路预测上取得了较好的性能,证明了方法的有效性和科学性。
|
关 键 词: | 引文网络 多元数据融合 知识表示 word2vec doc2vec |
A Knowledge Representation Method for Citation Network Based on Multi-data Fusion |
| |
Abstract: | Purpose/significance] Effectively integrate multi-dimensional data such as citation relations and text attributes in citation networks,and enhance the semantic association between document nodes,thus providing powerful support for data mining and knowledge discovery. Method/process] Propose a knowledge representation method for citation network. Firstly,method uses the neural network model to learn the k-order neighbor structure in the citation network. Then use the doc2 vec model to learn text attributes such as titles and abstracts. Finally,a cross-learning mechanism based on vector sharing is presented for multi-data fusion.Result/conclusion] Through test of CNKI citation data sets for the stem cell field,get a better performance in link prediction,prove the effectiveness and scientificity of the method. |
| |
Keywords: | citation network multi-data fusion knowledge representation word2vec doc2vec |
本文献已被 维普 万方数据 等数据库收录! |
|