基于语义匹配的海量异构数据自动化集成方法研究 |
| |
引用本文: | 李贺,李晓琳.基于语义匹配的海量异构数据自动化集成方法研究[J].教育技术导刊,2018,17(4):194-196. |
| |
作者姓名: | 李贺 李晓琳 |
| |
作者单位: | 北京锐安科技有限公司,北京 100096 |
| |
摘 要: | 随着互联网与信息化的普及,数据数量、数据来源与数据格式的复杂性愈加突出。互联网、传感器、人工收集等多种来源产生了海量异构数据,为解决多源异构数据处理问题,设计一种将海量异构数据自动化集成到同一数据仓库的方法。通过建立元数据模型(以数据集为单位)将来源数据按数据集分类,映射整合到数据仓库中,通过CRF序列标注模型、Skip-Gram神经网络、TF*IDF等机器学习技术,解决了数据仓库集成中语义映射的难题,实现了海量多源异构数据的自动化入库,为之后的数据分析挖掘提供了良好基础。
|
关 键 词: | 海量异构数据处理 元数据 CRF序列标注 Skip Gram神经网络 TF*IDF算法 |
|
| 点击此处可从《教育技术导刊》浏览原始摘要信息 |
| 点击此处可从《教育技术导刊》下载免费的PDF全文 |
|