大数据的关键技术与计算模式
在最近十几年发展起来最核心的大数据技术是数据的存储以
大数据关键技术可以从数据采集层,数据存储管理,数据处理分析和数据隐私安全这4个层面来讲,每个层面都有它相应的大数据技术存在。 在最近十几年发展起来最核心的大数据技术是数据的存储以及数据分析处理。这两层代表了当前大数据代表性的核心技术,归结起来称为两大核心技术。 具体来讲一个是分布式处理,一个是分布式存储。 随着大数据的发展,数据量不断增加,怎么存储海量数据困扰了很多企业,分布式存贮应运而生。当一台机器存不下的时候,只能借助于整个集群网络去存储,这叫分布式存储。 同理,要进行数据处理和分析的时候,单台计算机没有办法做实时需求怎么办呢?也是要构建一个由成百上千乃至上万台计算机组成的集群,是用整个集群去完成处理。 分布式存储主要是谷歌的技术代表,处理也是以谷歌技术为代表。 这里面的最核心的东西就是分布式数据库和分布式文件系统,这两者指的是分布式存储技术;而分布式处理技术的代表,就是谷歌提出来MapReduce。 讲了关键技术以后,我们再看一下关于大数据计算模式的问题。 为什么讲这个问题呢?这是因为虽然现在有非常多的大数据技术相关的产品存在,但是没有任何产品可以同时满足你所有的需求。 所以我们一定要非常清楚,知道大数据产品到底解决什么问题。 大数据产品所服务的计算模式是不一样的,有些是用批处理,有些呢是用实时计算,有些则是用交互式的计算。 每个产品,它应用领域是不同的,所以我们要对它的模式进行区分。按照处理方式不同我们可以把它分为四种。 批处理 我们所熟悉的MapReduce就是就是属于批处理模式。就是把一堆数据一起拿过来,做个批量处理。 它不适合于做实时的交互式的计算,不能满足时效性要求,只要是批处理的数据都不可能给你秒级响应。 除了代表性产品MapReduce,还包括在15年异军突起的一个产品叫spark,也是批处理的方式。 但是它的实施性要比MapReduce更好,而且它解决了MapReduce当中的一些缺点。MapReduce没有办法高效的应用迭代计算,但是spark可以做迭代计算,我们很多应用当中需要做迭代计算了比如数据挖掘,那这个时候就不能用MapReduce,就需要用spark。 流计算 流计算,我们说的是专门针对流数据的实时计算。比如用户点击流,这些都是流失的数据,他源源不断的到达系统,你是要及时的给出分析,马上给出响应,而不能说一批一批给处理。只要一批批处理,马上失去它的实时这种商业价值。 所以这个时候你是不能用批处理的,你只能用什么?流计算框架去做。它是用来做各种秒级的针对数据流的实时响应的。 图计算 我们很多的产品像MapReduce确实可以处理图结构数据,但是效率不高,所以有些公司专门设计研发可以高效地处理图结构数据的产品。 实际上我们现实当中很多应用都是可以把它转为图结构的,比如说社交网络数据、地理信息系统的数据对吧。这类数据都可以用图计算的软件去处理。 查询分析计算 就是交互式查询。企业高管到电脑前面,他出了一条指令:海量数据,一秒钟两秒钟,马上给我查询结果。 这个时候呢,就需要借助在大数据时代专门的大数据查询分析软件,就是以满足交互式查询分析需求为目标的产品,它具有非常高的实时性。典型代表的产品如谷歌公司的dremel,还有其他的像hive、Cassandra等等。 大家一定要理解不同的产品,它是服务于不同的计算问题的。 所以在面对需求的时候,对不同业务问题, 一定要有针对性的去选择能够解决这类业务问题的产品。 莱牛的大数据ETL课程,是更多年轻人的选择。课程总学时为3个月,与学员签订《就业协议》,学完即可就业,找到工作。 长按识别下方二维码,了解课程详情: 长按扫码 了解课程内容 *青岛莱牛教育有限公司简介:公司成立于2016年,位于山东省青岛市市北区四流南路80号大数据关键技术,多年来专注于大数据ETL人才培养,已向社会输出超过13000名高端人才。微信公众号:青岛莱牛教育(ID:gh_a8a8881d6a91),客服微信(Lnjy_022)。 (编辑:源码网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |