基于语义匹配的海量异构数据自动化集成方法研究期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

按检索

基于语义匹配的海量异构数据自动化集成方法研究

引用本文：	李贺,李晓琳.基于语义匹配的海量异构数据自动化集成方法研究[J].教育技术导刊,2018,17(4):194-196.

作者姓名：	李贺李晓琳

作者单位：	北京锐安科技有限公司，北京 100096

摘要：	随着互联网与信息化的普及，数据数量、数据来源与数据格式的复杂性愈加突出。互联网、传感器、人工收集等多种来源产生了海量异构数据，为解决多源异构数据处理问题，设计一种将海量异构数据自动化集成到同一数据仓库的方法。通过建立元数据模型（以数据集为单位）将来源数据按数据集分类，映射整合到数据仓库中，通过CRF序列标注模型、Skip-Gram神经网络、TF*IDF等机器学习技术，解决了数据仓库集成中语义映射的难题，实现了海量多源异构数据的自动化入库，为之后的数据分析挖掘提供了良好基础。
关键词：	海量异构数据处理元数据 CRF序列标注 Skip Gram神经网络 TF*IDF算法

	点击此处可从《教育技术导刊》浏览原始摘要信息
	点击此处可从《教育技术导刊》下载免费的PDF全文