加入收藏 | 设为首页 | 会员中心 | 我要投稿 源码网 (https://www.900php.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 传媒 > 正文

基于动态知识图谱的大规模数据集成解决方案

发布时间:2020-05-31 01:10:39 所属栏目:传媒 来源:站长网
导读:副标题#e# 在信息高速变化的时代,企业、政府对数据的认知是一个不断变化的过程。通常某个数据集成项目的初期,客户与集成方对数据、业务的认知都是不全面的,比如今天提供了人口库的数据,明天提供车辆数据、后天又提供了卡口数据在这种场景下,如果利用常

 这是因为,在HBase中是按照每种本体类型一张表进行存储的,而需要融合的数据必然是多个源的数据写到HBase的一张表中,HBase的rowkey设计为MD5(PK),而column设计为数据源ID,因此若多源数据存在相同的主键,则会存储到HBase同一行的不同列中。而后续的ETL任务,则会将多列的数据按照融合规则进行融合后在Elasticsearch中建立索引。 由此可见,不同本体数据写入互不影响,而同一本体新增数据源,若发生融合,会写入到不同列中。此时下一次ETL任务就会用新的数据覆盖Elasticsearch中旧的数据,完成索引重建。而当融合规则发生变更时,同样不需要再从客户数据源接入数据,只需要进行索引重建即可。
https://mmbiz.qpic.cn/mmbiz_png/K97zBXUIORsYlm2YdiciawvdHDEzNVvoTXFxgrhMTMfAMWmnQQTklUEUItu9ua8JjqZd4PmqHzyIsrZFL2IQCnFQ/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

4.“事件”数据的动态性

由于本体库中的数据,是固化的高价值密度数据,而“事件”数据天然是低价值密度的,并且具有时效性。

(编辑:源码网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读