取消
搜索历史
热搜词
原创
活动
产业创新
转型理念
ENI专访
当前位置:首页 >文章发布 > 正文
晓谈企业数据管理二:识别数据问题
来源:数据驱动智能  作者: 晓晓 2024-04-01 11:12:58
组织的数据可能存在不同的问题,这些问题会影响充分利用数据促进组织发展的能力。然而,识别和分类数据问题变得困难。要踏上有效数据管理之旅,识别数据问题并对其进行分类非常重要。一般来说,数据问题可以分为四类:

在上一篇文章中我们讨论了不同类型的企业数据。这里我主要讲一下数据的识别、分类和量化问题。我们将看到数据问题的不同分类、衡量数据质量的参数和分析数据源的参数。

数据问题分类

组织的数据可能存在不同的问题,这些问题会影响充分利用数据促进组织发展的能力。然而,识别和分类数据问题变得困难。要踏上有效数据管理之旅,识别数据问题并对其进行分类非常重要。一般来说,数据问题可以分为四类:

图片

数据孤岛:当部门/职能/应用程序的数据或信息收集被隔离并且无法在整个组织中访问时,就会发生这种情况。

发生这种情况的原因有多种,例如组织结构、将每个部门视为独立的文化、缺乏通用技术等。

数据治理:简单地说,数据治理的目标是为组织中的不同人员和团队提供最少且足够的数据访问权限,以开展业务。它是为了确保整个企业内数据的有保障和安全的可用性。

由于缺乏数据领导力和对其重要性的理解,组织中可能会发生数据治理问题,例如数据无法提供给正确的人员、未经授权的访问、数据泄露等。

数据不一致:当业务流程的相同属性或实体存在不同值时,就会发生数据不一致。发生这种情况的原因可能是缺乏数据协调、数据集成或流程重叠技术实施。

低效的数据处理流程:一般来说,随着业务的增长,较大的组织会出现这种情况,流程会变得更加复杂。尽管使用了最好的技术和工具,但这仍会导致数据处理效率低下。

在大多数情况下,数据管理问题是这些数据问题的各种组合。这些数据问题并不像上面定义的那样明显。例如,由于缺乏数据治理,可能会出现数据不一致的问题;未经培训和授权更新值的人也能做到这一点。或者,由于数据处理效率低下,可能会产生数据孤岛;当作为业务扩展的一部分引入新流程并且数据集成处理不当时,就会产生数据孤岛。无数的场景可能会在数据管理中产生各种问题。通过正确的理解和分析,可以找出这些问题的根本原因。

衡量数据质量

人们总是需要衡量所拥有的数据的质量。它对于了解数据管理流程的当前状态和改进范围发挥着重要作用。

图片

数据质量可以根据以下客观标准来衡量:

1. 准确性

2. 一致性

3. 完整性

4. 一致性

5. 及时性

准确性:它是指为对象存储的数据值的正确程度。为了获得 100% 的准确性,数据值必须是正确的值且形式明确。

一致性:意味着所有系统的数据反映相同的信息,并且在整个企业内相互同步。

完整性:是指期望从数据中获得所需信息的全面程度。完整性是强制性属性的衡量标准,并且独立于可选数据。

遵从性:指数据遵守数据类型、大小和格式等标准化数据定义的程度。例如,在整个组织中,日期的格式为“mm/dd/yyyy”

及时性:指信息在预期和需要时是否可用。数据的及时性非常重要。例如,延迟获取低于阈值水平的库存信息可能会扰乱您的供应链运营。

数据质量的衡量和改进需要时间和资源。因此,分析以下三个标准的数据对于获得高投资回报率也非常重要。

1. 相关性

2. 理解性

3. 客观性

相关性:正在分析的数据应与预期的业务目的相关。它还应该与您的分析目标直接相关。

理解性:数据的格式应该能够被业务理解以供进一步利用。如果销售数据正确、完整、一致,但不能提供企业高管所需要的信息,那就没有任何用处。

客观性:与数据来源的可靠性和数据收集方法有关。它衡量通过数据收集方法获得相同结果的能力,无论确定数据的介质如何。一个现实世界的例子是一个标准化模板,用于接收客户体验评级,而不是让一个人向客户提出主观问题。

数据来源分析

一旦我们能够识别数据问题并对不同参数的数据进行分类和量化,我们就需要定义和设计一种数据管理解决方案。为此,每个数据源都会根据以下参数进行分析:

图片

数据量:指每个数据源产生的数据量。

生成率:指生成数据的速率。有些数据可能每天都会生成,而在某些情况下,数据可能会以 24x7 连续流的形式传入。

准确性:指数据的质量。它有助于估计清理数据以便能够使用数据所需的工作量。

多样性:指数据的格式。必须考虑数据的格式,是结构化、半结构化还是非结构化,因为它直接影响处理数据所需的能力。

所有这些因素都有助于正确设计数据基础设施以满足数据处理的需求。通过对数据源的上述参数的正确理解,可以获得有关数据库大小、数据湖需求、大数据基础设施、NoSQL 数据库、实时数据消耗等不同问题的答案。

通过逐步客观的方法,我们可以识别、分类和量化我们的数据问题。根据我们的分析,我们可以利用现有的技术能力来解决这些问题,为任何规模的企业构建强大、可扩展且灵活的数据管理解决方案。市场上有多种解决方案可以执行相同或相似的活动,但是,每种解决方案都有自己的优点和缺点,这些优点和缺点在实施的初始阶段可能并不明显。随着时间的推移,当数据量增加时,次优解决方案开始显示出工作量增加和效率降低的迹象。设计和定义能够解决组织和行业当前数据流程、需求、痛点和未来目标的数据策略非常重要。

免责声明:本文系网络转载,版权归原作者所有。本文所用图片、文字如涉及作品版权问题,请联系删除!本文内容为原作者观点,并不代表本网站观点。
编辑:刘婧
活动 直播间  | CIO智行社

分享到微信 ×

打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。