读数据质量管理:数据可靠性与数据质量问题解决之道19数据未来
1. 创始牢靠数据体系的未来
1.1. 数据作为一个职业很或许正在阅历一场巨大且不可逆转的剧变
1.2. 剖析型数据正变成现代企业最要害和最具竞争力的中心财物
-
1.2.1. 不再是公司是否依靠数据的问题
-
1.2.2. 是运用多少数据以及将数据用于什么场景的问题
1.3. 只是搜集更多数据仍是不行的,你有必要学会信赖它
-
1.3.1. 让数据牢靠性变得越发重要
-
1.3.2. 数据信赖关于任何成功的数据工程或剖析方案来说都至关重要,但完成起来往往充溢应战,而保护起来就更难了
1.4. dbt和Great Expectations等开源东西让从业者能够快速地对更要害的数据集进行单元测验
1.5. 数据质量终究仍是要靠杰出的文明、强健的流程和利益相关方的认同来维系
1.6. 数据质量方案一般应优先于数据目录和数据发现等项目
1.7. 除非你能够对数据质量进行评价,不然提出把资金投入到数据质量上的观点往往说起来简单而做起来难
1.8. 对数据宕机的核算取决于数据事情的数量乘以均匀检测时刻和处理它们所需的时刻
-
1.8.1. DDT=N(TTD+TTR)
-
1.8.2. DDT是数据宕机的时刻
-
1.8.3. N是事情的数量
-
1.8.4. TTD是检测所需时刻
-
1.8.5. TTR是处理所需时刻
2. 活跃主动
2.1. 只有当钱因不良数据而“溜走”时,咱们才会清楚地了解到优质数据的价值
-
2.1.1. 核算你公司每年处理数据质量问题的小时数
-
2.1.2. 许多数据问题或许需求几天乃至几周的时刻才干被检测出来
-
2.1.3. 数据团队会发动一个耗时的根因剖析进程,其间触及几个进程,包含查看沿用(如有)、代码、数据、操作环境以及与搭档沟通
-
2.1.4. 核算乃至没有考虑机会本钱(换句话说便是:你为运用不精确的数据而做出过错决议计划所支付的价值)
-
2.1.5. 跟着职业的老练,咱们估计会呈现比咱们这个方程聪明得多的算法来得出这些问题为企业所带来的本钱猜测
2.2. 证明数据质量价值的第一步是评价数据牢靠性对你公司的财政影响
3. 对数据质量和数据牢靠性未来的猜测
3.1. 在公司中树立全面的数据实践远不只是在数据宕机时才主动出击
3.2. 了解该范畴的发展方向并主动办理公司的方针和战略也十分重要
3.3. 剖析成为各个功能部门的要害部分,处理数据质量的要求和办法自然会产生变化也就显而易见了
3.4. 数据仓库和数据湖将融为一体
-
3.4.1. 越来越多的企业一起选用数据仓库和数据湖
-
3.4.1.1. 无论是作为一个全体的处理方案或是多个处理方案中的一部分
-
3.4.2. 数据质量在数据仓库中更简单保护,由于在这里更简单自然地盯梢数据的形式、容量和新鲜度
-
3.4.3. 数据湖由多个进口组成,这意味着会有更多的层来对数据进行排序和对齐以供操作运用
-
3.4.4. 一种运用更少东西来更好处理数据的办法意味着理论上数据在出产进程中被损坏的机会要更少
-
3.4.5. 湖仓一体要求数据渠道的工作办法愈加标准化,而这也因此为选用更会集的数据质量和数据可观测性办法打开了大门
-
3.4.6. 猜测这种交融将在财政和资源办理这两方面都有利于顾客,但这也有或许会给你的数据管道带来额定的复杂度
-
3.4.7. 更广泛的运用场景意味着更多的数据用户,而这一般会导致更多的数据重复、过错和下流警报
3.5. 数据团队中的新人物
-
3.5.1. 孤立的数据库办理员或剖析师的日子早已一去不复返了
-
3.5.2. 数据正在以其本身的力气经过数据科学家、剖析师和工程师等定制人物的呈现席卷整个公司
-
3.5.3. 专业化浪潮并非数据所独有
-
3.5.3.1. 专业化简直对每个职业都很遍及,它标志着商场的老练,表明晰对规划化、前进速度和前进功能的需求
-
3.5.4. 数据产品司理
-
3.5.4.1. 担任办理给定数据产品的生命周期,并一般担任办理跨功能的相关人员、产品路线图和其他战略使命
-
3.5.5. 剖析工程师
-
3.5.5.1. 一个被dbt实验室带火的术语,这个人物介于数据工程师和剖析师之间,担任对数据进行转化和建模,以便让相关人员能够信赖并运用该数据
-
3.5.5.2. 是专家和通才,一般具有数据栈中的多个东西并统筹许多技术性和非技术性使命
-
3.5.6. 数据牢靠性工程师
-
3.5.6.1. 致力于首要经过数据可观测性、测验和其他常用办法来构建更具弹性的数据栈
-
3.5.6.2. 一般具有能够直接运用于这一新人物的DevOps技术和经历
-
3.5.7. 数据设计师
-
3.5.7.1. 与剖析师密切合作,协助他们经过商业智能可视化或其他结构来叙述有关数据的故事
-
3.5.7.2. 在大型安排中更为常见,而且一般来自产品设计布景
-
3.5.7.3. 数据设计师不应与数据库设计师相混杂,后者是一个更为精专的人物,为存储和出产的数据进行建模和构建
-
3.5.8. 跟着数据团队人物的多样化和用例的添加,触及的利益相关方也会添加
-
3.5.9. 延聘数据牢靠性工程师,人们也无法“处理”数据质量的问题
3.6. 主动化的鼓起
-
3.6.1. 更多运用主动化一般都会是一件活跃的事
-
3.6.1.1. 主动化减少了手工劳动,扩展了重复进程,并使大型体系更具容错才能
-
3.6.1.2. 在前进数据质量方面,主动化有许多机会来添补测验、编目和其他更多手动流程失利的空白
-
3.6.2. 硬编码数据管道
-
3.6.2.1. 主动吸取处理方案能够轻松快速地吸取数据并将其发送到你的数据仓库或数据湖中进行存储和处理
-
3.6.3. 单元测验和编列查看
-
3.6.3.1. 单元测验是一个典型的规划问题,由于大多数公司不或许端到端地掩盖他们一切的管道,乃至无法为数据或许变坏的每种办法都预备测验
-
3.6.3.2. 选用愈加主动化的机制来测验他们的数据并在损坏的管道上编列断路器
-
3.6.4. 将数据从暂存环境转移到出产环境
-
3.6.4.1. 活跃主动的办法将防止下流架构中止并更牢靠地推进生
-
3.6.5. 根因剖析
-
3.6.5.1. 能够运用这些元数据来拼凑出事端产生时的全景,并从中处理问题
-
3.6.6. 数据记载、编目和发现
-
3.6.6.1. 无论是经过运用数据目录、数据发现仍是其他东西,都需求某种主动化流程来对数据集进行记载
3.7. 数据工程技术的创新和前进意味着更高的主动化程度,并进一步前进了咱们做好全面预备防止数据宕机方面的才能
-
3.7.1. 无论怎么进行区分,即便对最新的数据团队来说,寻求必定程度的数据牢靠性也将成为一种标配
-
3.7.2. 将数据质量作为数据老练度的一个向量进行评价
4. 更多的分布式环境与数据范畴的鼓起
4.1. 分布式数据范式,如数据网格,让整个企业的功能部门都能更简单地运用数据来处理特定用例
4.2. 面向范畴的一切权运用于数据办理的潜力十分之大(更快的数据拜访、更强的数据民主化、更知情的相关方等),但潜在的复杂度也是如此
4.3. 数据团队只需求看看微服务架构,就能够先睹为快在数据网格热潮停息下来而且团队开端仔细施行后会产生什么
4.4. 剥离技术组件会添加数据质量的问题
4.5. 假如不活跃主动认识到问题并创立有关怎么运用数据的来龙去脉,对数据网格办法进行扩展或许会十分具有应战性
-
4.5.1. 尽管数据网格宣传了跨范畴的通用联合层(换句话说,不受约束的管理),但团队有必要恪守特定合约并运用专用的API,而这或许会带来复杂性并导致紊乱
-
4.5.2. 决议是否迁移到数据网格的公司应该长时间仔细地考虑其能否推进跨安排选用并防止不完善微服务施行的圈套