取消
搜索历史
热搜词
原创
活动
创新2.0
I T
产业
当前位置:首页 >互联网•IT > 大数据 > 大数据分析 > 正文
大数据与云化
来源:中兴大数据  作者:关涛 2020-04-26 09:11:03
随着网络信息化应用的普及,各种信息系统采集、输出的数据量也越来越大,这促成了大数据系统的诞生和发展。顾名思义,大数据系统一般用于处...

随着网络信息化应用的普及,各种信息系统采集、输出的数据量也越来越大,这促成了大数据系统的诞生和发展。顾名思义,大数据系统一般用于处理海量数据的情况,其运行时需要基于存储、计算集群的环境;而云计算则是另一个技术范畴,在前几年一度是非常热门的话题,现在逐渐进入实际应用阶段,有不少单位都开始建设自己的云计算环境。

大数据系统最初是基于物理机环境部署,并取得了较好的大数据分析运算效果。随着大数据应用的普及,出现了更多的应用场景。例如快速部署使用然后立即释放的临时集群,以及适应不同情况规模可变化、满足伸缩性要求的集群等。从根本上说这些应用场景的出现是要求降低大数据的使用成本,其特性可归结为快速部署及释放、集群规模弹性伸缩、利用现有云设施的资源、多个用户群体共用大数据服务等几个方面,这正是大数据云化所涉及的内容。

大数据的云化包含两个层次:一个是把大数据部署在云系统上,即底层运行基础设施的云化,对运维人员和系统所有者有较大影响;另外是对上层提供的大数据服务的云化,对使用大数据的人员有影响。

大数据基础设施云化

不同的单位、项目,其大数据运行的基础设施不同。对于业务种类较多的大型企业,很可能建立了自己的通用型数据中心,拥有较多的业务种类,其中一部分需要使用大数据。这种情况会希望大数据集群也能在现有的数据中心上部署运行,以便使用数据中心的资源。这样的数据中心,客户往往有应用的部署管理方案,大数据使用其中部分资源,需要考虑的是大数据平台自身在数据中心IaaS系统上的部署。

大数据在数据中心IaaS上的部署方式可分为手工和自动两种方式。自动方式效率高,部署便捷。但这种方式需要一个新的子系统,这个子系统和IaaS交互,从IaaS申请计算、存储、网络等资源,并构建大数据集群。由于市场上的IaaS种类较多,这种方式需要能适配不同的IaaS系统。对于大数据平台提供商,较合适的方式是选择业界主流的IaaS系统进行适配,以及支持自己所处市场的主要客户所用的IaaS系统,如图1所示。

目前业界几个大数据厂商都有自己的解决方式,整体思路上大同小异。例如Cloudera 开发了Director子系统,在自己的Enterprise发行版中提供,并未开源,可见Cloudera把对IaaS的支持视为商业方面较关键的特性,是和社区版进行区分的一个重要标志。Hortonworks、MapR等也有把自己的大数据系统部署在IaaS上的能力。

对于业务种类不多的企业或单位,其业务和大数据有紧密关联,或者直接是从大数据发展而来。和业务种类较多的企业不同,这些企业需要使用的是大数据业务,建立的数据中心可以成为大数据中心,在大数据中心上构建自己的业务应用。这个大数据中心是企业专用类型,可以由企业自己打造,而非外购建立IaaS系统,然后在其上部署大数据的方式。

企业在建立自己的大数据中心时,会根据自己的业务场景、技术存储等选择自己的大数据云化路线。和通用的数据中心不同,这种特地打造的中心可能不会选择一个厚重的IaaS层,而是会根据自己的情况选择一个较轻量的方式,并在其上部署大数据系统。目前业界常用的方式为选择容器化技术和一种资源管理系统,根据情况再叠加一个部署系统来实现大数据的云化,如图2所示。这种方式是把大数据部署在容器上,或者说在一个PaaS上更合适。技术选择较多,建立和维护的工作相对于通用型的IaaS较小。

当前业界的一些互联网公司,其数据量较大,业务基本是围绕大数据进行处理。这些情况下,企业很可能会选择自己建立大数据中心,技术路线也往往是自己选择的,各个公司的大数据云化技术各不相同,具有自己的特点。yarn、mesos、k8s以及各种相关技术都可在这些大数据中心内看到。

大数据底层基础设施的云化,能为控制大数据的部署成本等方面带来益处,但同时要注意到,基于云化设置会丢失一定的物理部署的特性,对大数据集群整体的性能、可靠性、资源使用效率等可能会有一些影响。

大数据服务云化

大数据服务的云化,主要是将一个大数据中心的服务能力进行虚拟化,多个用户群体可共用服务能力,但单个用户群体有类似独占的使用体验。即真正提供服务的是一个共用的大数据中心,使用服务的可以是多个不同的用户群体,各用户群体互相隔离,单个用户群体在限定的范围内使用大数据的服务,如图3所示。鉴于大数据中心往往需要大量的资金、人力的投入,为单个用户群体建立专用中心是不现实的,因此大数据服务的云化在这些场景是很有价值,也可能是必须的选择。

要达到大数据服务云化的效果,需要限制用户群体对大数据中心的占用。首先要对用户群体可用的数据进行隔离,以保证多个用户群体在同一个大数据集群上的各自数据不会混淆,不会出现未经授权的访问。其次需要对执行作业所需的计算、网络资源进行隔离,以保证各用户群体的作业在为自己分配的范围内运行,不会挤占其它用户群体的资源。为用户群体分配好资源后,用户群体可在此范围内安排资源的使用、观察、统计等工作。云化的服务可以提供一个用户自服务的渠道,供用户自行管理可用的资源、数据等内容。在使用过程中,会需要其它一些功能,例如用户的验证、访问的管控、审计,对资源使用的计费等衍生问题的处理。

大数据服务的云化,可以在多个用户群体间平摊大数据中心的建设、运维成本,提高大数据中心的使用效率。对单个群体而言,也省去了维护大数据系统带来的庞大资金、人力投入,有助于降低大数据的使用门槛。

中兴通讯是大数据系统提供商,拥有自己的大数据发行版本ZDH。在物理机部署方式之外,也会为用户提供多种IaaS系统上部署ZDH的能力,支持业界主流的云系统,例如vmware的云设施、openstack等IaaS系统,提高在云设施系统上的部署效率;在没有IaaS的场景,提供容器化的部署方式,以提高全生命周期内的效率。

大数据云化服务方面,ZDH的ODPP系统为用户提供大数据服务能力的云化。ODPP将一个大数据集群进行逻辑切分,为不同的用户群体提供多个大数据处理空间,各用户群体在各自的空间内使用大数据集群提供的大数据存储、处理等服务能力,例如大数据的存储、计算、数据库等,相当于各个用户群体都拥有一个独立的大数据集群,并可对各自空间的资源、权限等进行分配和管控,实现各个空间的数据、资源的隔离。ODPP还额外提供一些服务管理类的功能,供用户自行处理数据、管理空间,例如空间的管理工具、数据的传送工具、以及图形化的管理界面等。通过ODPP对ZDH大数据平台服务的云化,用户能更方便的使用ZDH涵盖的大数据服务。

通过在云化的基础设施上的部署,大数据系统降低了建设、部署、运维等环节的投入,有助于提升大数据系统的部署数量。另一方面,通过把自身服务能力的云化,降低了使用环节的门槛,有助于大数据应用的普及。通过这两个层次的云化,大数据必将在生产、生活中提供更多的服务,产生更大的影响。

编辑:宋含怡
关键字:     大数据  信息化  云计算 
活动 直播间  | CIO智行社

分享到微信 ×

打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。