取消
搜索历史
热搜词
原创
活动
产业创新
转型理念
ENI专访
当前位置:首页 >文章发布 > 正文
从数据中台到数据生产力,网易数帆构建新模型加速企业数字化转型 | 数据
来源:数据猿  : 佚名 2023-05-31 14:59:23
网易数帆大数据产品线总经理余利华在《人人用数据,时时用数据,释放数据生产力》的主题演讲以及随后的记者问答环节中,针对网易数帆这一最新战略从数据生产力角度划出了重点。

\

随着我国数字经济的发展,近年来,数字化转型业已成为各企业战略发展的关键词。今年1月,国务院印发《“十四五”数字经济发展规划》,明确了“十四五”时期推动数字经济健康发展的指导思想、基本原则、发展目标、重点任务和保障措施。至今,已有中钢集团、国家电网、中国航发、中国医药集团等62家头部央企提出了适合自身企业发展的数字化转型战略方案或路线图,我国的数字化转型将从“初步探索”阶段逐步进入到“应用践行”阶段。

近日在杭州举行的“网易数字+大会”上,网易副总裁、网易杭州研究院执行院长、网易数帆总经理汪源结合企业数字化转型的发展阶段提出,“早期的数字化转型大多是由点状的应用场景驱动,当转型发展到中期,企业更加关注如何长期地建立数据资产及相应的运营管理机制。”

在为十余个行业300多家行业头部客户深度服务的基础上,今年网易数帆首次提出以“数据资产”为核心的“数字化转型方法论”。该方法论分别由软件资产生产、软件资产运营、业务应用组装、业务运行支撑组成的软件生产力模型,以数据技术、数据资产、数据应用、数据运营为核心的数据生产力模型和结合AI算法技术、智慧资产、智能应用的智慧生产力模型,三模型围绕企业数字资产的沉淀与运营,打造抓手可循、落地可依的最优路径。

网易数帆大数据产品线总经理余利华在《人人用数据,时时用数据,释放数据生产力》的主题演讲以及随后的记者问答环节中,针对网易数帆这一最新战略从数据生产力角度划出了重点。

从数据中台到闭环模型,加速释放数据生产力潜能

去年数据猿曾对网易数帆余利华进行了深入的访谈,彼时正逢网易数帆发布了有数全链路数据生产力平台2.0,随即推出有数DataOps、逻辑数据湖等重点产品,余利华曾表示,“在数据生产力平台2.0阶段,我们需提高自身技术服务能力,从大数据底座、到数据中台、再到数据应用,每个链路都需要更好的打磨才能服务好客户。”不过他也提到,“我们在与客户交流后发现,企业想要构建一个物理上集中的数据中台非常困难。”

\

2021年余利华在网易数帆数字生产力平台发布会上的演讲

时隔将近一年,我们发现,网易数帆经过与客户进一步的实践探索,在今年已经把“大数据底座、数据中台、数据应用”的三层架构化为了两个相互连接的闭环。该闭环模型由三部分组成,外侧是一个大闭环,包括数据技术、数据资产、数据应用和数据运营,并对智能决策、数据中台、湖仓一体、数据标准、运营平台等数据产品与服务进行了细致的分类;内侧则是一个更具有方法论性质的数据生产力内核,包括DataOps、DataFusion和DataProduct三大方法论。

\

网易数帆数据生产力模型

与其他大厂一样,2016-2018年网易内部也在组建自己的数据中台,渐渐会发现数据中台离业务还有一定距离。而如何让数据体现价值,才是网易数帆认为最需要回答的一个问题。他们从业务中观察到一些现象,比如网易严选的补货供应链,当有补货决策时,把决策发到采购系统,自动生成了采购单,然后点一下“确定”就可以下单,大部分采购由系统直接生成订单,无需修改或定制,直接下单即可;又如网易云音乐的会员运营、爆曲洞察,还有像是多门店的零售行业客户,常常需要运营人员看到数据变化及时做出调整,那么就可以在数据中台上去搭配对应的数据产品。数据产品将直接从中台拿到高质量的数据,把决策发给业务系统,后者产生进一步的运营数据返回数据中台,然后数据中台提取数据形成再进一步的高质量数据,这样就可以推动形成高价值的数据生产力闭环。

网易数帆发现,在企业实际经营过程之中,数据生产力更接近于一种循环,借数据技术改善研发效率,提炼成为数据资产,并在此基础上生成先进的数据应用产品,自动或手动产生一些决策,通过决策影响到业务系统,进而推动高质量的数据运营,运营后又根据客户反馈继续提升数据技术,这种闭环可能要比层级结构产生更高的效率。

“数据中台本身有它的好处,相当于对原来数据仓库的升级,数据中台能为整个企业建立数据公共层指标,让数据以服务的形式提供给客户,这是好的思想,”余利华说道,“不过我们也发现,不能为了中台而中台,不去看应用,强行把数据收集起来,并未发挥价值,业务方、客户都有意见,此时的‘中台’没有成果就会失败。”

而从数据中台过渡到数据生产力的闭环模型,其重要目的就是从各环节加强对数据的使用,充分发挥数据的价值。余利华表示,“未来数据不只是给大老板用的,而是应通过打造面向场景化的数据产品,让人人都可以用起来,每个岗位、每个角色都可以在日常工作中基于数据做出决策,每次有效的决策就会改进企业的竞争力。企业竞争力往往在于此,没有一招鲜,而是在平时业务当中一次次去尝试、去改进、去迭代,我们有这样的循环,也希望用这样的方式去传递给更多企业。”

因此,今年网易数帆着力推出的数据生产力模型,其核心就是通过数据技术的创新,与客户一起建设数据资产,并且围绕数据资产打造场景化的数据产品,用人才培养,数据运营的手段,实现“人人用数据,时时用数据”,最终以提升企业数据生产力为目标。

源自中台并超越中台,数据治理将成为数据推向业务的基石

在网易数帆新的生产力模型中,我们看到,核心部分包含了三个关联耦合的方法论,DataOps、DataFusion、DataProduct,它们含义如下所示:

数据研发(DataOps):数据全生命周期研发体系

数据治理(DataFusion):数据治理2.0

数据产品(DataProduct):面向场景化的数据产品

\

其中数据治理(DataFusion)环节起到承上启下的重要作用,当数据开发加工出来,形成数字资产,数据治理则让数据资产变得高质量、安全可控且容易被消费,如此才能在下游的数据应用环节,创造数据的价值。

\

DataFusion本身含义恰是“数据融合”,它源自数据中台,又超越数据中台。其采用数据中台的方法论来构建企业指标体系,让企业形成数据公共层,去除烟囱式开发;其超越中台之处则在于通过研发一体化的治理方式,取得数据的长效治理,从而把数据资产沉淀下来,能够在未来更好地被消费。

“未来,数据中台这个概念有可能慢慢淡化一些,但在指标设计、建模等方面仍有很强的指导意义,也反映了一些数据领域的需求,能与传统数据治理结合在一起,所以我们把它吸纳到方法论中。”余利华如是说。

我们知道,传统的数据治理是旁路的系统,上不能深入到开发环节,下不能深入到数据消费环节。数据治理为什么那么难做呢?余利华总结了四大痛点,

先污染后治理,问题存在于数据开发环节,出厂质量不高,总依赖于事后治理;

运动式治理,很多时候治理效果无法衡量和持续反馈,无法形成闭环;

治理范围只能治理大数据平台内的数据,不能覆盖平台外更广泛的数据;

在数据消费环节,出现了数据资产“找不到,看不懂,信不过”的问题。

余利华认为,在闭环方法论下,才能更全面地进行数据治理,总结起来就是“开发治理一体化”,其核心是将治理融入到开发的各个环节中,在开发的过程中就完成数据的治理。

\

在网易数帆新的数据治理框架中,将开发环节分为设计、编码、测试、上线等四个阶段,每个阶段都蕴含着数据治理与数据开发,如下图所示,黄色代表治理,蓝色代表开发,连线则代表治理和开发环节的关联,连线越密集,说明开发与治理做得越好。

余利华介绍说,上述的每个阶段都有数帆大数据的产品支撑。以数据标准产品为例,数据标准定义了数据取值范围、数据安全方面的特性以及数据的类型,如果数据标准与数据质量相结合,则在早期为表、字段自动生成集合规则,从而在数据测试阶段,就能看到数据质量的报告,在持续运行的阶段,还能收到数据质量的告警;当数据标准与安全中心相结合,我们则可以得到数据的安全等级,能得到加密、脱敏的规则,而且可以影响发布审批的流程,通过产品之间紧密的联系,实现开发治理一体化。

\

开发治理一体化重在解决事前的问题,在事后已有的数据,网易数帆也考虑了相关的解决策略。“我们通过大数据健康度评估体系,从五个维度对已有数据的健康度进行打分,并给出为什么扣分的原因,帮助该数据的相关团队进行优化。我们也在运营方面形成自我改进的反馈机制,如通过数据治理大赛交流学习,优秀成果在公司层面进行推广等一些方法。” 余利华如是说道。

流式湖仓实现底层存储的统一,

为数据生产力提供坚实的底座

当用户同时具有数据仓库与数据湖时,流式湖仓服务则是另一种解决方案。为什么要强调流式湖仓?余利华表示,大多数湖仓一体不强调流批一体的概念,只是说数据仓库和数据湖可以结合在一起,提供查询的能力,但并没有流批一体的能力,这就导致了一个问题,由于底层的存储无法统一,同样一份数据,数据团队往往要向数据消费者提供两张表,一张表是T+1离线数据,另一张表是实时数据。

“网易数帆的流式湖仓希望能把底层存储统一起来,用一张表既能支持实时查询,又能支持高效查询,这样的表不仅能批量获取所有的离线内容,还能实时获得更新的数据,因此我们认为流式湖仓是更为理想的状态,我们更强调引入流批一体,最终实现存储的统一。”

我们知道,如今在湖仓一体领域,Delta Lake、Iceberg、Hudi解决方案三足鼎立,业内尚未形成统一的标准。余利华表示,“无论是Delta Lake表格式、Iceberg表格式,还是别的表格式,我们希望全部建立在一个数据中台上,用户能够根据自身需要选择不同的表格式,他们可以这张表用Delta Lake,那张表用Iceberg,做到完全的自主选择。”

\

今年8月,网易数帆与华泰证券共同发布了开源的Arctic项目,即建立在开源的表格式之上,向 Flink、Spark、Trino 等主流计算引擎提供流批统一、开箱即用的元数据服务,并融入实时的能力,流计算延迟可达毫秒级,使网易数帆大数据体系在存储层面实现完全统一,企业数据生产力的发挥将不再被孤岛所困扰。

余利华在演讲的最后表示,最近他们正撰写《从数据中台到数据生产力》一书,主要是记录下团队在大数据产品与技术成长过程中的思考,而其书名恰能反映出他们近一年来在探索实践后的独立思考总结。可以说,余利华的团队是网易近六年来打造企业数字化转型服务团队的缩影,从产品技术支持走向服务深化,旨在助力企业数据生产力的重塑。

正如汪源在今年网易“数字+大会”总结发言时强调,“我们希望通过聚合网易数帆在基础软件领域的全线能力,充分激活企业软件生产力、数据生产力与智慧生产力,沉淀出更加易管理、易使用、高价值、高质量的数字资产,与有形资产共同形成相互促进的增长闭环,为企业构筑坚实的技术护城河。”

图片来源:网易数帆

免责声明:本文系网络转载,版权归原作者所有。本文所用图片、文字如涉及作品版权问题,请联系删除!本文内容为原作者观点,并不代表本网站观点。
编辑:刘婧
关键词:   数字化转型  大数据  网易数帆 
活动 直播间  | CIO智行社

分享到微信 ×

打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。