读数据质量管理:数据可靠性与数据质量问题解决之道16数据认证
1. 对数据进行认证
1.1. 数据认证是指在数据财物满意关于数据质量、可观测性、权责分配、问题处理和交流等公司内一同恪守的SLA后,同意它们被用于整个安排的进程
1.2. 数据认证为人员、结构和技能构建了要害流程,使其与中心事务方针坚持共同
1.3. 数据认证的要求会因事务需求、数据工程团队的才能和数据可用性的不同而有所差异
1.4. 特性
-
1.4.1. 主动化的质量检查,包含数据的新鲜度、容量、办法和散布
-
1.4.2. 明晰界说正常运转时刻的交给SLA
-
1.4.3. 担任查询数据警报的数据全部者
-
1.4.4. 将警报传到达Slack频道中(或经过电子邮件发送)
-
1.4.5. 设置针对宕机的信息交流流程
2. 数据认证流程
2.1. 数据认证流程一般在多个范畴选用共同的办法,来进步其可扩展性
2.2. 进程
-
2.2.1. 扩展数据可观测性的才能
-
2.2.1.1. 完结数据可观测性(即安排全面了解体系内数据健康状况的才能)是数据认证流程的首要进程
-
2.2.1.2. 需求了解当时的体系性能以树立基准方针
-
2.2.1.3. 需求一个体系性的端到端方案来主动对数据事情进行发现、预警和分流
-
2.2.1.4. 由可观测性驱动的数据事情仪表板可以主动出现异常状况、办法改动、被删去的表以及违规状况
-
2.2.1.5. 假如数据管道中的任何部分出现毛病(这是早晚的事),你将是第一个知道的人
-
2.2.1.6. 了解哪些体系和数据集总是引发最糟糕或最频频的下流问题,可以协助你编写有用的数据SLA
-
2.2.2. 确认数据全部者
-
2.2.2.1. 每个被认证的数据财物都应该有一个担任人,担任从吸取层到剖析层的整个生命周期
-
2.2.3. 了解什么是“好”的数据
-
2.2.3.1. 拟定KPI
> 2.2.3.1.1. 新鲜度
> 2.2.3.1.1.1. 数据在每天早上8点改写
2.2.3.1.1.1.1. 适用于CEO或其他首要高管在早上8:30检查仪表板的状况
> 2.2.3.1.1.2. 数据永久不会超越Xh不更新
> 2.2.3.1.2. 散布
> 2.2.3.1.2.1. X列永久不会为空值
> 2.2.3.1.2.2. Y列的值永久都是仅有的
> 2.2.3.1.2.3. X字段总是大于等于Y字段
> 2.2.3.1.3. 容量
> 2.2.3.1.3.1. X表的巨细永久不会削减
> 2.2.3.1.4. 办法
> 2.2.3.1.4.1. 该表中的任何字段都不会被删去
> 2.2.3.1.5. 沿用
> 2.2.3.1.5.1. 填充X表的数据100%都将与上游来历和下流吸取相映射,并包含相关的元数据
> 2.2.3.1.6. 数据宕机时刻(或可用性)
> 2.2.3.1.6.1. 数据事情的数量乘以(检测所需时刻+处理所需时刻)
> 2.2.3.1.6.2. 衡量数据宕机时刻的各个部分的SLA可以更详细地辅导举动
> 2.2.3.1.7. 查询速度
> 2.2.3.1.8. 数据吸取
> 2.2.3.1.8.1. 每天早上5点从协作伙伴Y那里接纳数据
> 2.2.3.1.8.2. 十分适宜让外部协作伙伴终究担任
-
2.2.4. 为最重要的数据集设置明晰的SLA、SLO和SLI
-
2.2.4.1. SLA必需求详细,可以经过SLO和SLI进行评价,而且可以完结
-
2.2.4.2. SLA不只描绘了协议规则的服务规范,还规则了各方之间的联系
-
2.2.4.3. SLA概述了在正常运营以及发生问题时各方的职责
> 2.2.4.3.1. SLA中包含了团队在未能达到SLA时应该怎么呼应
-
2.2.4.4. 团队应当趁早并常常与利益相关方坚持协同,以了解什么才是“好”的数据
-
2.2.4.5. 利益相关方既包含数据团队,也包含团队外的事务部门
-
2.2.4.6. 好的SLA需求依据事务运营的实践状况和用户对数据的运用办法来拟定
-
2.2.4.7. 不要企图做到一了百了
> 2.2.4.7.1. 大多数客户都是先施行其数据认证程序以确保有所发展,然后再在第二波举动中整理旧的财物
> 2.2.4.7.2. 首要认证最要害的表和数据集,也便是那些对事务增值最多、查询活动最多、用户数量或上下流依靠联系最多的表和数据集
-
2.2.5. 拟定交流和事情办理流程
-
2.2.5.1. 考虑怎么向整个安排通报重大事故也是十分重要的
-
2.2.6. 确认数据认证机制
-
2.2.6.1. 为利益相关方进行认证并出现经过同意的数据财物了
-
2.2.6.2. 选用去中心化的认证流程
> 2.2.6.2.1. 认证流程旨在协助团队加快并扩展规划
-
2.2.6.3. 数据团队应当恰当地符号、查找并运用数据表,运用数据发现处理方案这一自主开发的东西或其他办法的数据目录
-
2.2.7. 训练数据团队和下流用户
-
2.2.7.1. 仅仅把数据表符号为“已认证”并不能确保剖析师们会严厉恪守规则
-
2.2.7.2. 数据团队需求承受训练来学习恰当的作业流程,而必要时这些流程会被强制执行
-
2.2.7.3. 对警报和告诉的等级进行微调也都十分重要
-
2.2.7.4. 偶然收到不需求对其采纳举动的警报是有利的
-
2.2.7.5. 关于某个人来说是“意料之中”的行为可能对另一个团队成员乃至另一个范畴的成员来说仍是重要的新消息
-
2.2.7.6. 警报疲惫也是实在存在的
> 2.2.7.6.1. 团队因疲惫而开端忽视警报信息,那么你可以经过调整监控体系或对通讯途径进行分流来优化警报方案,然后更好地展现最重要的信息
2.3. 数据工程师将数据表符号为认证经过,并与数据集的全部者一同将其展现在数据仓库中,然后剖析师就可以提取数据,并在他们的仪表板中进行运用
2.4. 为了更好地应对数据质量在文明层面与安排层面的妨碍,现代数据团队可以优先选用可以发挥其事务强项和需求的团队结构
3. 事例剖析
3.1. 数据领导者们的使命之一便是要扩展团队的规划,而且要快速地完结这项使命
3.2. 为数据团队确认适宜的报告结构
- 3.2.1. 跟着数据需求的添加,集中式数据团队会形成功率瓶颈,而涣散式数据团队则会导致重复作业和流程的复杂性
3.3. 以涣散式数据运营支撑超级添加
3.4. 即便具有了技能层面上精确的数据,在树立整个公司范围内的数据可观测性和对数据的信赖时,数据剖析师、技能领导者和下流利益相关者之间的杰出交流也是至关重要的
3.5. 专心于寻觅最适宜公司事务需求的方案,而事务需求很可能随时刻推移而改动
3.6. 招聘数据归纳专家而不是专门人才
-
3.6.1. 有一个破例
-
3.6.1.1. 应当聘任的专家是数据工程师
-
3.6.1.2. 数据团队常常因缺少创立并保护ETL管道所需的技能支撑而束手无策,一起也无法确保其底层的数据根底设施可以依据公司的剖析需求进行扩展
-
3.6.2. 从第一天起就优先构建多样化的数据团队
-
3.6.2.1. 团队多样化的长处是显而易见的,但当你为团队的长时间成功树立根底时,你需求尽早开端招募具有不同经历和布景的提名人
-
3.6.2.2. 与办理层和人力资源团队协作编写作业描绘,使其对不同的经历和布景都具有包容性
-
3.6.2.3. 组成多元化的招聘小组,即便小组成员并不来自数据团队也没联系
-
3.6.2.4. 广泛招募提名人,即便他们并不具有传统意义上的数据类头衔或职位
-
3.6.2.5. 施行一个彻底不考虑性别和种族要素的招聘流程,只依据提名人的资历和经历进行挑选
-
3.6.2.6. 在创业后期才开端构建多元化的团队可能会愈加困难,由于来自多元化布景的人们会更想参加布景多元化的团队
3.7. 过度交流反而是改动办理办法的要害
- 3.7.1. 招聘交流才能强的人才,悉数都会变得更简略
3.8. 不要过度垂青“单一本相来历”
-
3.8.1. “单一本相来历”或“黄金数据”是一个十分强壮的概念,而这是有道理的
-
3.8.2. 努力完结评价方针的协同和始终如一的洁净数据可以协助公司对数据发生信赖,并信任数据在指引他们朝着正确的方向行进
-
3.8.3. 二八规律才是要害
-
3.8.3.1. 数据常常是杂乱无序的,很少会白璧无瑕
-
3.8.3.2. 假如你优先考虑对数据健康状况进行端到端的调查,而非精密入微的操控,那么你的作业功率就可以大幅进步
4. 数据素质
4.1. 以一种可以为安排带来价值和影响的办法对数据进行解读、编纂和交流的才能
4.2. 好的数据素质战略会运用自助式东西并训练非技能团队成员,来添加数据的可拜访性和可操作性,并取得公司内部自顶向下的认可和自底向上的选用
4.3. 要完结“数据流利性”,数据司理们应当统筹数据素质的推行并对利益相关方就数据质量的价值进行训练,由于这两者都很重要
4.4. 在长时间可继续地施行数据质量方案并确保数据团队取得成功的进程中,最大的妨碍是缺少文档记载
- 4.4.1. 太多的团队依靠于口口相传而非落实到文字上的常识和过期的维基页面来追寻数据,这根本不能完结规划化地运作,也不是一个可继续发展的方案
4.5. 缺少关于数据和元数据的强健信息是数据团队的首要痛点之一
-
4.5.1. 数据目录
-
4.5.2. 数据库办理体系
-
4.5.3. 数据建模东西
-
4.5.4. 运营剖析仪表板
5. 数据办理和合规性
5.1. 数据办理指的是在安排表里对数据进行办理的进程,它也是许多数据领导者们的头等大事,特别是GDPR、CCPA、IPO、COVID-19或许任何其他缩略语
5.2. 数据办理是保证数据的有用性、可用性、来历和安全性的进程
5.3. 数据办理之所以身败名裂,首要是由于传统的办法无法满意根据云端的数据栈需求
5.4. 优先考虑数据目录
-
5.4.1. 数据目录一向被数据团队用于存储并编纂关于数据运用及其方位的元数据
-
5.4.2. 手艺数据目录和元数据办理渠道从前一度是数据办理的默许办法
-
5.4.3. 跟着数据体系的演化,咱们发现这些办法现已无法跟上数据添加和跨范畴数据散布的脚步
-
5.4.3.1. 内部处理方案
> 5.4.3.1.1. 内部处理方案的最大长处是,可以经过提取团队最需求的数据字段,快速创立定制化的仪表板
- 5.4.3.2. 第三方东西
> 5.4.3.2.1. 在曩昔,数据目录一向是手动、涣散地进行办理的,而这一般需求不同剖析师和数据科学团队之间的重复作业
- 5.4.3.3. 开源技能
> 5.4.3.3.1. 数据发现和元数据引擎Amundsen
> 5.4.3.3.2. Apache Atlas
> 5.4.3.3.3. Magda
> 5.4.3.3.4. CKAN
5.5. 施行数据办理
-
5.5.1. 添补办理缝隙是一项艰巨的使命,没有对公司实践拜访数据财物的悉数了解,就无法优先处理办理缝隙问题
-
5.5.2. 数据沿用和可观测性有助于添补这些缝隙
-
5.5.3. 数据的可拜访性和安全性也是数据办理的重要功用组成部分,特别是关于运用散布式剖析团队办法或灵敏的第三方信息的企业
-
5.5.4. 数据办理也是一种文明上的改变
6. 数据质量战略
6.1. 让领导层对数据质量终究担任
6.2. 设定数据质量的KPI
-
6.2.1. 防止在数据质量的评价上用力过猛
-
6.2.2. 简略的办法才是好用的
6.3. 带头施行数据办理方案
6.4. 主动化数据沿用与数据办理东西
-
6.4.1. 跟着关于数据拜访和运用的办理办法的日益严厉,以手动办法监控数据质量来进行数据办理现已不能满意需求了
-
6.4.2. 手动数据质量监控不只烦琐耗时,其技能水平也在立异程度方面落后于数据栈的其他部分
-
6.4.3. 选用可以对数据质量问题进行快速验证、监控和预警的主动化东西,来替代手动的处理方案
6.5. 创立交流方案
-
6.5.1. 拟定一个强健而全面的项目等级交流方案,来协助领导层了解项目发展,让利益相关方与方案坚持同步,并让数据监管者了解其作业使命
-
6.5.2. 好的交流方案是双向的,可以让全部相关人员都了解重要可交给方针的状况
-
6.5.3. 数据质量战略的方针是:确保全公司的全部团队都能有决心运用牢靠的数据
-
6.5.4. 关于数据方面的悉数使命,从扩展高效的数据团队到构建优异的数据渠道,一个强健而全面的数据质量战略都能起到决定性的效果
7. 关键
7.1. 将数据视为软件产品并认真对待
7.2. 组成一个能在源头上优先考虑数据质量的数据团队
7.3. 以数据素质为首要方针
7.4. 选用可以大规划施行数据办理的流程和技能
7.5. 越来越多的公司正在聘任数据牢靠性工程师、数据可观测性专家和数据素质官来带头展开这些数据质量方案,让数据工程师和剖析师们可以更轻松地在日常作业中运用数据质量的最佳实践