前言
转眼间,七月过去一半有余。感觉时间过的好快,上周末还在和小伙伴讨论去哪玩,这又到周末了。回头看看,距离上篇文章差不多过去一个月。是时候总结下这一个月干了点啥了。
背景
自从入了数据的坑,感觉有做不完的优化。和以前做业务系统不同,之前,更多的是被源源不断的业务需求砸晕。而如今,做基础数据建设,每天都在想法设法优化数据,优化集群。怎么把数据的价值体现的更好上。
最近忙着搞数据治理。好像,这几天都在发送“账单”,催用户去处理数据。那么,有人会问:这是问什么呢?首先,数据有进无出。再大的存储系统也迟早会爆满。而且,从公司投入成本来算。没必要对一些冷数据或无用的数据投入过多的存储。
在说说,如果一味的以堆加机器的方式来弥补存储的不足。一方面,成本增加;另一方面,运维的成本也会增加。每天路过大数据运维同事旁边,拍拍肩膀:“今周打算加多少机器?”。对于运维同学来说,不也是很尴尬的一件事么?加机器,重复而无聊。虽说可以使用自动化部署,但是这种只增无减必定会带来维护成本上的“熵”增。
措施
面临这些囧状,对于数据的治理就迫在眉睫。就像人有生老病死,数据同样也有产生和消亡的过程。那么,数据就是有“生命”的实体。
如何开展数据治理呢?