聊聊数据治理

最近几个月,公司人员变动挺大的。可能每年的这个时候,每家公司都差不多吧。上半年的4-5月份,下半年的8-9月份。(这里只是泛指,自己的2次跳槽都发生在这个区间)。自己所处的数据部,也逐渐有部分员工流失。人员变更,带来了组织上的微调整。就在6月初,tl也提交了辞职申请。这里不好对他人做过多的议论。不过,tl给了我不少的职场意见。

自己从事数据相关职位,算算差不多3年了吧(从2016.6-至今)。感觉到自己似乎还是个吸水量很足的海绵。从上家公司初次接触数据平台,然后部门整个团队也是在摸索中不断构建数据产品组件(调度、元数据、数据开发、数据交换、可视化报表等。要说数据报表,起初是从很早之前fine report开始接触一些报表类处理,然后致使我去做数据这块的东西)。

当时,整个团队缺少点资深的数据技术或者数据产品。所以,做出来的有时候就是拍脑袋的事,然后过了不久,就重新构建,或者推到重来。

这似乎可以看作是数据平台建设的第一个阶段:跑起来再说。第二家,也就是目前的公司。算是在第二阶段:统一化、规范化。至于第三阶段:服务化,统一的数据中台。目前还没到吧。
(以上3个阶段不是权威概念,只是我个人的理解,然后给了个词表述)

回来说说本文的主题数据治理。

前段时间,处理公司的集群优化。处于中期公司都会面临的一些问题,对于集群治理,数据质量等。不管是存储的治理,还是计算资源的治理,应该都是数据治理的范畴。

然后,不久前看了一本关于数据管理的书籍《DAMA-DMBOK》。一本定义一套数据管理原则的书籍。其中,讲述了很多概念,包括数据管理,数据治理,以及数据道德的东西。
大纲

有兴趣的同学可以看一看,比较厚的书籍。在线电子书地址:https://learning.oreilly.com/library/view/dama-dmbok-data-management/9781634622479/

注册账户,免费10天适用

本书,就是以数据治理为中心,逐步展开讲解。
治理
数据治理是在数据管理过程中,对其的监控和控制。伴随着就有数据质量来衡量和评估。这三个过程是相互依赖,相互补充的。

那么,怎么才能做好数据治理呢?

在我经历的过程中,数据治理这个说简单也简单,说复杂也复杂。简单来说,数据治理么,就是对数据整个生命周期进行管理,包括:数据的产出,数据的加工,数据应用,数据下线,数据删除等过程。

复杂的说,其中就会牵扯到很多数据,不单单指数据的生命周期过程。可能还会延伸出一些其他元数据的处理。如:表治理-涉及到存储管理;yarn任务治理-涉及到集群计算资源的治理。进而衍生出后面的存储账单、计算账单等。

说到账单,第一感受就是要收费了。收费的目的就是为了给用户一种压力,让用户知道,你在跑任务,存储数据的时候是在花钱的。给用户这种意识,就会遏制一些资源浪费的情况。比如:一些僵尸表(近N天无访问),无用表(任务业务已经下线),过期表(数据生命周期已经过期),像这些存储的数据,是可以进行回收销毁的。再比如:一些在yarn上跑的大车任务(耗时较长,占用vcore过多,可以抽象出一种计算单元的概念),还有一些输入表和输出表数据无变化或变化不大的etl过程,这些都是需要治理的任务。

前几天,和朋友聊这块的治理。真的,要想治理好。不单单在平台底层方面把数据做好(各种监控数据,监控指标)。同样,也需要数据委员会(这里泛指公司领导层)的支持,并推动各级实施。

然后,可能会引入一些类似健康分的概念。当你的数据在某种统一规则下,不满足。就会扣除相应的分数。当达到一定阀值,就会限制任务使用资源或直接遏制任务运行。这就迫使用户去提高健康分。从而向集群争取更多的资源。

当然,这种资源也是不能无休止的申请。那么,前面说的账单就起作用了。这个可以以收费的方式督促用户节约资源。

目前,公司也一直在做这块的东西。但是持续了很久,还是没能很好的落地实施。为什么?这个确实要很好地反思。

1
2
3
4
5
6
就目前观察来看,有以下几方面:
1. 底层数据的准确性有待提高。迫使,实施者存在疑虑,无法很好的推广。
2. 流程上没有打通,没有和平台进行融合。
3. 对用户透明,用户无感知这些资源的消耗带来的不足。致使资源的滥用。
4. 资源管控力度不够。
5. 缺乏有效的治理工具,比较零散,不易做成闭环。

最近,在处理公司这块。发现了上面一些问题。感受到,治理这块真的是个难啃的骨头。每天大数据群里都会有类似于“任务跑不动了”、“数据查不出来”等。

所以,第一步就是将计算、存储资源如何很好的反馈给用户。接着就是,怎么推动用户去调整,集群去优化。然后,就要有相关的反馈机制(如:优化跟踪等)。进而可以持续地优化。


大半夜写这些,也是想抒发下自己的一些感慨。同时,也是梳理一下做了什么,需要做什么,怎么去做。虽然,不够细致,但是也是自我梳理的过程。

Alan Zhang wechat
欢迎您扫一扫上面的微信公众号“补愚者说”,订阅我的博客!