取消
搜索历史
热搜词
原创
活动
产业创新
转型理念
ENI专访
当前位置:首页 >文章发布 > 正文
IBM为何重金押注Spark?
来源:CSDN  : 谭茂 2015-07-27 14:59:56
投入超过3500名研究和开发人员在全球十余个实验室开展与Spark相关的项目在IBM的发展历史上,从来没有一个开源软件如此受到重视,这业意味着IBM资助的力度之大相当于每年数亿美元的投入。IBM何以赌博式的押注Spark?在开源时代,IBM将发生怎样的变化?

投入超过3500名研究和开发人员在全球十余个实验室开展与Spark相关的项目——在IBM的发展历史上,从来没有一个开源软件如此受到重视,这业意味着IBM资助的力度之大相当于每年数亿美元的投入。IBM何以赌博式的押注Spark?在开源时代,IBM将发生怎样的变化?带着种种问题,IBM大中华区大数据与分析事业部总经理钟泽敏先生;IBM大中华区大数据与分析事业部数据平台方案总经理刘胜利先生;IBM大中华区软件架构师总监、IBM技术科学院委员林旭光先生;IBM大中华区大数据分析平台销售总监洪建勋先生与CSDN进行了独家沟通。

Spark——IBM未来十年最重要的事

如果说最大数据领域Hadoop引领了潮流,那么Spark无疑也成为了这场变革中的佼佼者。曾有人指出“如果说Hadoop胜在规模的话,那么Spark就胜在速度。”而IBM此次宣布与Spark开源的合作,也看出蓝色巨人在大数据在逐渐强化自己的能力。

IBM大中华区大数据与分析事业部总经理钟泽敏强调:在中国市场,不同领域的开源技术发展的很快,包括Spark。因此IBM把这个事情结合起来,叫“数据的力量跟开源的发展”, IBM的数据跟Spark发展在全世界以及中国也是非常的重要。这是IBM的看法,这是我们未来十年IBM在开源社区以及Spark是一个最重要的项目。

IBM大中华区大数据与分析事业部总经理钟泽敏对于IBM方面对Spark的支持提出两点:首先IBM作为一个在数据方面非常成熟的厂商,非常愿意把一些最新的技术带到开源包括Spark里面;第二个,我们要使一个开源社区有很好的发展,就需要重视对技术的人员有关技术的培训。

据悉,目前IBM已经在Developer Works上提供免费的Spark课程,在第三季度,就会有第二波的Spark基本的课程出来,更多的技术专家可以透过IBM技术培训去理解最新的Spark的发展是怎么样的。

注入蓝色基因的Spark终将引领大数据潮流

在采访中IBM大中华区大数据与分析事业部数据平台方案总经理刘胜利先生特别提到了未来IBM在Spark上的几个关键的投入:

技术方面

SystemML是IBM超过十年以上的时间已经在研发的机器学习的技术。IBM在SystemML研究上至少在主流业界上我们领先十年以上,并且有一些实际的产品化的东西,2011年1月26日, IBM超级计算机沃森(Watson)在公开测试中击败了美国智力竞赛节目《危险边缘》的两位总冠军,这里面其中整合了很多SystemML技术学习的功能,当然沃森(Watson)本身是一个非常复杂的人工智能的系统,其中核心之一就是机器学习的一些内容。而IBM则希望能够实现对于Spark本身把SystemML的功能输送给Spark,能够让Spark具有更强大的学习能力,让数据科学家专注于算法,而不是一些很简单的很细节的技术本身。同时能够让机器学习的历程实现比较标准化的东西。

培训方面:

IBM的培训不光是对IBM内部人员的培训,也为市场上的开发人员以及市场上一些公司的技术人员能够提供比较先进的这些技术,包括Spark技术。据悉IBM在全球宣布要培养100万数据科学家(data scientist)。目前,IBM方面已经准备好的培训课程包括Spark基本原理的初级和二级培训,以及Spark高级开发系列培训和数据科学一些方法论的培训。这些培训不光是IBM自己做,也和IBM在全球一些主要的合作伙伴像Databricks、AMPLab等等,这些都是在技术上非常具有创新、领先的一些合作伙伴。

刘胜利表示:在全球,IBM也会成立Spark技术中心,现在在美国Spark技术中心已经成立起来。这个技术中心的一个任务是推广Spark技术在公司以及在客户的采用,对Spark的采用。我们会围绕着Spark在商业问题上的解决提供一些方案,包括免费的教育资源以及Spark的一些改进和Spark上的应用。

刘胜利强调:IBM大数据分析部门希望在这几点上能够对整个业界产生一定的影响,包括专家的培养、互动体验、培训以及端对端,也就是到最终客户实际应用到应用方面的咨询、实施和运行,也要结合云数据中心这样的概念,把Spark技术利用起来。

对此,我们也不难看出IBM此举的决心和魄力,更乐意看到融合了IBM传统的研发能力,加上IBM对新技术的快速推动,和这些公司的合作, 可以推动Spark在全球客户快速采用以及方便采用上能够提供极大的便利性。

IBM携手Spark开启开源时代

尽管IBM与Spark这场互助行动刚刚开始,但是Spark作为一项服务已经IBM Bluemix平台上提供给客户。IBM把Spark转到Bluemix上,实际上结合IBM大的公司的战略——CMASS,也就是云、大数据分析、社交媒体、移动互联、安全这样一个大的公司策略。首先,把Spark跑在云平台上,其次,IBM在Hadoop系统上现有的Hadoop bigInsights,采用OpenStack Platform这样一个平台,把Spark集成在新的开源的平台上。

IBM技术科学院委员林旭光先生表示:这样的好处就是用户既可以用Hadoop技术又可以用Spark技术,既可以是开源又可以是开放平台的。这是我们Hadoop版本在致力于做的一个方向,这个产品已经到4.0版本,现在Spark已经是我们在这个产品里面一个马上可以使用的技术。

此外“流分析”的技术也是IBM在大数据中一个非常重要的计算模式,而IBM Streams现在已经可以跑在Spark上。前文我们已经提到Spark以快诸称,而流本身的特点也是快,加在一起则是快上加快。“所以,我们希望IBM流的技术以及自己本身的技术和Spark开源技术结合在一起,能够更好的提供业界的开放的流计算的模式。” 林旭光说。“在年内我们还会陆续推出更多基于Spark的产品出来,包括Watson Analytics、DataWorks,以及我们的PuerData这是我们的一体机,以及我们一些方案和正在孵化的项目。这是我们年内晚些时候陆续在在产品、技术、方案上推出更多的一些举措。”

后记:

在JAVA上开源,过去的15年中,企业级的核心应用围绕Java这样一个平台运行,可以说IBM在Java的开源贡献以及IBM Websphere在支撑整个业界Java的运行上起到一个非常重要的作用,应该是业界排第一的一个平台;2001至2005Linux在中国大热的这几年,在中国大规模采用Linux技术,IBM也是Linux开源的主要推动者。今天Hadoop和Spark作为开源,我们也看到了IBM的大规模投入。

作为一家百年老店,IBM却在创新上始终不遗余力,我们也期待看到IBM与Spark的携手,开启一个崭新的开源的时代。

编辑:闫春春
关键词:     IBM  Spark 
活动 直播间  | CIO智行社

分享到微信 ×

打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。