华迪公司大数据应用标准架构
实时计算分层
在华迪大数据应用体系中,部分数据的采集、分析结果的产生以及分析算法等,需要基于大数据的实时计算技术来提供。
华迪公司基于Spark RDD编程模型来进行实时计算,基于Hadoo
实时计算分层 在华迪大数据应用体系中,部分数据的采集、分析结果的产生以及分析算法等,需要基于大数据的实时计算技术来提供。 华迪公司基于Spark RDD编程模型来进行实时计算,基于Hadoop YARN资源调度,可有效处理数据库(包括非结构化数据和结构化数据)、流数据以及图片资源等。 对于华迪大数据应用体系而言,采用实时计算,可满足在不给服务器增加太多资源压力的前提下大数据架构标准,提供实时服务。 离线计算分层 大数据应用体系中,多数情况下是对已有的数据进行清洗和分析,不需要进行实时应用的提供。 华迪采用YARN作为资源调度管理组件(部分应用可能需要采用Mesos做资源调度),采用HDFS作为计算存储,使用MapReduce编程模型进行离线计算。 对于华迪大数据应用体系而言,离线计算的优势颇多:可以有效利用服务器硬件,最大程度提高大数据应用的运行效率,减少维护频率。 云计算、云存储平台 为了提高计算能力,需要在有限的硬件条件下构建出满足大数据应用体系的分布式计算环境。因此,在华迪大数据应用体系中,对硬件资源进行资源虚拟化。 在华迪大数据应用体系中,资源虚拟化分为虚拟机和容器技术两种虚拟化方式,分别针对于不同的存储、计算、分析以及内容展示等服务提供支撑。 (编辑:源码网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |