当前,国内外数据管理领域的相关学者和组织面向不同的应用场景提出了多种数据资产的管理体系。
例如,国际数据管理协会于2009年发布了数据管理的知识体系(DMBOK1.0),将数据管理体系划分为10个领域,分别是数据治理、数据操作管理、数据体系管理、数据开发、数据安全管理、参考数据和主数据管理、数据仓库和商务智能管理、文档和内容管理、元数据管理以及数据质量管理,并以此体系为理论基础,推出数据管理专业人士认证(certified data management professional,CDMP)。
卡内基梅隆大学旗下机构于2014年以软件能力成熟度集成模型(capability maturity model integration,CMMI)为参考,发布了数据能力成熟度(data management maturity,DMM)模型,包含六大职能域:数据管理战略、数据操作、数据质量管理、数据治理、数据平台和体系、支撑流程,在中国、美国等多个国家培训了一批评估师,并在微软等公司进行了模型验证,使该模型具有较强的实践指导能力和可推广性。
全国信息安全标准化技术委员会在借鉴国外相关数据资产管理体系的基础上,于2018年提出了数据管理能力成熟度模型(data management capability maturity model,DCMM),定义了数据管理能力成熟度评价的八大能力域:数据战略、数据治理、数据体系、数据标准、数据质量、数据安全、数据应用、数据生命周期管理。
在吸纳各界公认的数据资产管理体系的基础上,以最大化数据价值为目标,重点构建了包含数据运营及关键活动的数据资产管理体系,从而全面提升数据价值。
本体系将数据资产管理的管理职能扩展至数据标准管理、主数据管理、数据共享管理、数据安全管理和数据价值管理,并细化了数据资产管理中的技术平台,力图建立一个全面的、面向价值实现的数据资产管理体系,指导企业开展数据资产管理,有效提升企业的数据资产管理能力,加速数据价值的释放。
如下图所示,本文提出的面向价值实现的数据资产管理体系包括4个部分:数据管理职能、数据运营、技术平台和保障措施。
数据资产管理体系
数据管理职能作为数据资产管理体系的主体,通过各职能的配合,有助于对数据进行标准化和规范化,提升数据质量,完善数据体系,记录追溯数据,打破数据孤岛,建立安全数据环境。
数据运营作为数据资产管理体系的核心,通过明确数据权属,评估数据价值,实现可信数据交易和多样数据服务,促进数据流通,加大数据开放的广度、深度,加快数据流转速度和数据资产化进程。
技术平台作为数据资产管理体系的技术支撑,依托覆盖数据管理职能和数据运营的全生命周期技术,实现数据高效采集,降低数据存储成本,提升数据处理效率,深入分析挖掘数据,丰富数据应用场景。
保障措施作为数据资产管理体系的制度基础,通过制定战略规划,完善组织架构,建立制度体系,设置审计机制和开展培训宣贯等环节,确保数据资产管理工作的有序开展。
数据管理职能
数据管理职能包括数据标准管理、数据质量管理、元数据管理、主数据管理、数据模型管理、数据共享管理、数据安全管理和数据价值管理8项管理职能。
数据标准管理是指数据标准的制定和实施的一系列活动。企业或相关机构在开展数据标准管理时,应首先对数据标准进行分类(如基础类数据标准和指标类数据标准),并规定各数据标准类别下的基本单元(可以称为“数据元”)及其属性。同时,应制定数据标准管理办法或相应的实施流程要求,开展评估数据标准管理效果等工作。
数据质量管理是指运用各种技术衡量、提高和确保企业数据质量的规划、实施与控制等一系列活动。企业在开展数据质量管理时,应明确数据质量评价指标,通常包括完整性、一致性、唯一性、规范性、时效性等,在不同的应用场景下,数据质量评价指标有所扩展。同时,企业应持续测量和监控数据质量,分析数据质量问题的原因,制定数据质量改善方案。
元数据管理是指通过对描述数据的数据进行管理,以实现对数据的全生命周期管理的过程。企业在开展元数据管理时,应对元数据进行分类,通常分为技术元数据、业务元数据以及管理元数据,分别对应数据涉及的技术领域、业务领域以及管理领域,确保元数据覆盖的全面性。同时,企业应开发和维护元数据标准,进而对元数据进行分析(如血缘分析、影响分析和数据地图等)。
主数据是指描述企业核心业务实体的数据,用以协调和管理与企业的核心业务实体相关的系统记录数据。企业开展主数据管理时,应筛选具备核心业务属性的数据作为主数据,明确多业务系统共用数据的唯一可靠来源,并充分复用数据标准、数据质量规则、数据模型等已有的数据资产管理成果。同时,企业应实施主数据解决方案,监控主数据变化。
数据模型是对数据特征的抽象,数据模型管理通常是指在信息系统中用数据模型表示业务规则和逻辑的过程。企业开展数据模型管理时,应明确业务体系和数据组织结构,通常业务体系由概念模型和逻辑模型表示,数据组织结构由物理模型表示。同时,企业应制定数据模型管理办法和实施流程要求,统一管控企业数据模型,确保数据模型的落地。
数据共享管理是指企业开展数据共享和交换,从而实现数据内外部价值的一系列活动。企业开展数据共享管理时,应定义数据资产内部共享管理办法和实施方案,监督数据内部共享和外部开放的合规性。
数据安全管理是指对数据进行安全分级分类等操作,确保数据全生命周期管理和数据共享使用的安全合规性。企业在开展数据安全管理时,应定义数据安全标准和策略,定义数据安全等级,部署数据安全防控系统或工具,审计数据安全。
数据价值管理是指为了提升数据价值,通过数据应用价值和数据管理成本量化和优化数据价值的过程。企业在开展数据价值管理时,应确定数据存储、计算和运维的成本预算,明确数据成本和收益的具体计量指标,制定降低数据成本和提升数据价值的策略,持续评估数据价值,并改进评估方案。
数据运营
数据运营包括数据确权、价值评估、数据服务和数据流通4个方面。
数据确权是数据资产化的前提,主要指数据的所有权和使用权。于2018年5月生效的欧盟的《通用数据保护条例》、于2020年1月生效的美国的《2018年加州消费者隐私法案》以及中国的《中华人民共和国个人信息保护法》均明确了数据所有权归属于数据主体,且数据主体拥有知情权、访问权、反对权等多项权利,并规定了数据使用者的义务,包括事先咨询义务、数据泄露报告义务、安全保障义务等。
但是,由于目前数据确权仍停留在法律法规层面,且对于加工后的数据的所有权存在争议,因此存在大量忽视数据所有权、滥用数据使用权的问题,而区块链技术利用数据溯源和记账的手段,为数据所有权和使用权的界定和监管提供了新的思路。
价值评估是指在数据质量、数据应用和数据风险等维度对数据进行估值的过程。常用的数据资产价值评估方法主要有成本法、收益法和市场法3类。其中,成本法从资产的重置角度出发,重点考虑资产价值与重新获取或建立该资产所需成本之间的相关程度;收益法基于目标资产的预期应用场景,通过未来产生的经济效益的折现反映数据资产在投入使用后的收益能力;市场法则是在相同或相似资产的市场可比案例的交易价格的基础上,对差异因素进行调整,以此反映数据资产的市场价值。
目前,由于数据交易、数据服务和数据流通尚未成熟,市场法并未得到广泛的应用,多数企业将数据存储计算作为成本计量维度,将数据使用热度作为收益计量维度,并通过建立动态的估值模型,实现主观与客观相结合的数据价值评估。
数据服务是指为满足数据使用者的需求而提供的多样化服务方式。企业在开展数据服务时,需明确数据使用者的角色和需求,以制定相应的数据服务策略。
对于数据分析人员来说,其需要的可能是数据湖中的原始数据或数据管理流程中的记录;对于业务人员来说,其需要的可能是清洗后的数据或数据统计分析结果。同时,企业也应提供多种数据服务方式,包括在线数据服务、数据服务订阅和数据API等。
数据流通是指在数据提供方和数据需求方之间按照一定流通规则进行的以数据为对象的行为。数据流通通常包含企业对内的数据共享、企业对外的数据交易。数据流通是释放数据价值的关键环节,但由于数据孤岛、数据确权和价值评估的限制以及数据交易政策和监管的缺失,数据流通的发展面临诸多困难。
技术平台
技术平台主要包括数据采集、数据存储、数据处理和数据分析。
数据采集是指从数据生产端提取数据的过程。数据采集技术根据生产端的不同而有所不同,具体包括系统日志采集、网络数据采集和数据库采集3种方式。系统日志采集常用的开源技术包括Apache Flume和Facebook Scribe。Apache Flume采用分布式架构处理流式数据,保证了日志数据采集的可靠性和实时性;Facebook Scribe的特征是分布式共享队列,提供了一定的容错性能。
网络数据采集多采用合法合规的网络爬虫或网站公共API的方式(常用的网络爬虫系统包括Apache Nutch和Scrapy等框架),快速提取非结构化和半结构化数据。数据库采集是指通过将数据库采集系统与企业业务后台服务器相连,保证企业实时产生的业务数据可以写入数据库中,如传统的关系型数据库、NoSQL数据库以及大数据采集技术。
数据存储是指选择适当的方式组织和存放数据。文件系统是最早使用的存储技术,将数据组织成相互独立的数据文件进行管理。数据库在文件系统的基础上发展而来,不再以文件为单位存储数据,而是以记录和字段为单位对数据进行管理,实现了数据整体的结构化。目前数据存储的方式和种类越来越丰富。
数据处理是指数据由存储端到数据汇聚端的清洗过程,通常是指由数据库到数据仓库的抽取(extract)、转化(transform)和加载(load)的过程(简称ETL)。
目前,已有较为成熟的工具,以任务流的方式定时批量完成ETL,部分工具以可视化任务流而非代码的方式配置任务,部分工具融合了数据准备和数据清洗的功能,如根据统计结果完成数据剖析。
数据分析是指通过相关技术实现对数据的深度分析和利用的过程。数据分析技术主要包括数据可视化、自动化数据建模和情景感知处理分析。数据可视化包括以SPSS、SAS、R为代表的基于数据分析的可视化工具,以Google Chart API、Tableau为代表的动态渲染的可视化工具和以Modest Maps为代表的地图可视化工具。
自动化数据建模包括Google公司的Cloud AutoML、微软公司的CustomVision.AI等技术平台,实现以计算机自动化的方式完成传统的人工智能(artificial intelligence, AI)模型训练过程。情景感知处理分析的核心技术包括情景信息采集技术、情景信息建模技术、情景信息处理技术。
保障措施
完善的数据资产管理体系需要一定的保障措施来确保各项管理职能落到实处。保障措施通常包括战略规划、组织架构、制度体系、审计机制和培训宣贯5个方面。
对于企业来说,建立数据资产管理的保障措施应充分考虑当前信息化建设的程度和企业数字化转型阶段,并评估数据应用前景和数据资产管理可能存在的困难,以确保保障措施的业务一致性和管理可行性。
战略规划是企业开展数据资产管理的指导蓝图,通常由企业管理层或领导层制定,包括数据资产管理的目标、指导原则、实施路线等内容。随着数据价值的显现,越来越多的企业不再将数据资产管理规划局限于某一部门(如信息管理部门),而是将其作为企业战略的重要环节,并在战略规划阶段成立专门的数据管理部门,以连通IT部门和业务部门。
组织架构是企业为开展数据资产管理而设置的部门。典型的组织架构主要由数据资产管理委员会、数据资产管理中心和各业务部门构成,其中:
数据资产管理委员会作为数据资产管理的主要决策者,负责决策指导数据资产管理工作;
数据资产管理中心作为数据资产管理的主要管理者,负责执行和监督数据资产管理工作;
各业务部门作为数据资产管理的数据提供者、数据开发者和数据消费者,在参与数据资产流通和服务工作的同时,也应反馈和维护数据资产管理工作。
制度体系是一套覆盖数据采集处理、共享流通等全过程的数据管理规范,保证数据资产管理工作有据、可行、可控。制度体系通常包括数据管理职能相关规范(如管理办法和实施细则)、数据资产管理技术规范(如数据字典规范、数据模型设计规范、数据接口规范等)。
审计机制是评估数据资产管理的规范、规划、组织机构、制度体系的执行状况的监管方法,以保障、评估数据资产的安全性、准确性、完整性、规范性、一致性、唯一性和时效性。
通常来说,审计由专业人员进行,审计对象包括数据权限使用制度及其审批流程、日志留存管理办法、数据备份恢复管理机制、监控审计体系规范等。
培训宣贯是指企业为提升员工的数据资产意识和数据资产管理专业化水平而开展的一系列培训和考核过程。在培训方面,企业可组织员工参与行业现有数据资产管理体系课程,或开展优秀部门和员工的经验案例分享;在考核方面,企业可将数据资产管理纳入现有考核体系,树立行业、员工优秀模范,深化数据资产管理理念,提升数据资产管理技术能力。