集群治理之存储治理篇

发表于 2019-07-20 | 分类于大数据 | 阅读次数:

字数统计: 1.3k

前言

转眼间，七月过去一半有余。感觉时间过的好快，上周末还在和小伙伴讨论去哪玩，这又到周末了。回头看看，距离上篇文章差不多过去一个月。是时候总结下这一个月干了点啥了。

背景

自从入了数据的坑，感觉有做不完的优化。和以前做业务系统不同，之前，更多的是被源源不断的业务需求砸晕。而如今，做基础数据建设，每天都在想法设法优化数据，优化集群。怎么把数据的价值体现的更好上。

最近忙着搞数据治理。好像，这几天都在发送“账单”，催用户去处理数据。那么，有人会问：这是问什么呢？首先，数据有进无出。再大的存储系统也迟早会爆满。而且，从公司投入成本来算。没必要对一些冷数据或无用的数据投入过多的存储。

在说说，如果一味的以堆加机器的方式来弥补存储的不足。一方面，成本增加；另一方面，运维的成本也会增加。每天路过大数据运维同事旁边，拍拍肩膀：“今周打算加多少机器？”。对于运维同学来说，不也是很尴尬的一件事么？加机器，重复而无聊。虽说可以使用自动化部署，但是这种只增无减必定会带来维护成本上的“熵”增。

措施

面临这些囧状，对于数据的治理就迫在眉睫。就像人有生老病死，数据同样也有产生和消亡的过程。那么，数据就是有“生命”的实体。

如何开展数据治理呢？

阅读全文 »

聊聊数据治理

发表于 2019-06-16 | 分类于大数据 | 阅读次数:

字数统计: 1.6k

最近几个月，公司人员变动挺大的。可能每年的这个时候，每家公司都差不多吧。上半年的4-5月份，下半年的8-9月份。（这里只是泛指，自己的2次跳槽都发生在这个区间）。自己所处的数据部，也逐渐有部分员工流失。人员变更，带来了组织上的微调整。就在6月初，tl也提交了辞职申请。这里不好对他人做过多的议论。不过，tl给了我不少的职场意见。

自己从事数据相关职位，算算差不多3年了吧（从2016.6-至今）。感觉到自己似乎还是个吸水量很足的海绵。从上家公司初次接触数据平台，然后部门整个团队也是在摸索中不断构建数据产品组件（调度、元数据、数据开发、数据交换、可视化报表等。要说数据报表，起初是从很早之前fine report开始接触一些报表类处理，然后致使我去做数据这块的东西）。

当时，整个团队缺少点资深的数据技术或者数据产品。所以，做出来的有时候就是拍脑袋的事，然后过了不久，就重新构建，或者推到重来。

这似乎可以看作是数据平台建设的第一个阶段：跑起来再说。第二家，也就是目前的公司。算是在第二阶段：统一化、规范化。至于第三阶段：服务化，统一的数据中台。目前还没到吧。
（以上3个阶段不是权威概念，只是我个人的理解，然后给了个词表述）

阅读全文 »

突然想写点什么

发表于 2019-04-21 | 分类于生活感悟 | 阅读次数:

字数统计: 715

这两个周末有点昏昏沉沉，五一快到了，感觉提不起精神。约了同伴去越南5日游。这两天开始订酒店，规划路线（机票签证已出），想轻松点，不想太折腾。
暂定如下：
旅游路线

阅读全文 »

集群优化心酸历程

发表于 2019-03-15 | 分类于大数据 | 阅读次数:

字数统计: 1.7k

背景

最近在做公司集群优化工作，现状是公司的离线集群跑着一些实时任务（flink和sparkstreaming）。有时候会因为晚上离线任务起来后，集群资源不够导致实时任务延迟等。为了解决这个问题，部署了一套实时集群，专门用来跑实时任务。从而将实时任务和离线任务进行隔离。

问题

目前，有些spark streaming任务需要读写hdfs或着操作hive表。那么如果要迁移这些任务，就需要满足实时集群可以访问离线集群的存储资源。鉴于这种场景，进行了相关调研。

阅读全文 »

2018の自己

发表于 2019-01-01 | 分类于总结 | 阅读次数:

字数统计: 1k

前言

又是一年一度的总结大会，朋友圈各种flag。有诙谐幽默的，有简单扼要的，有朴实无华的，等等。截取部分拼了个flag墙
flag墙

阅读全文 »

小憩一篇

发表于 2018-12-23 | 分类于杂谈 | 阅读次数:

字数统计: 826

序

转眼，要到2019了。下午平躺在床上，总感觉少了些什么。工作中几个重要里程碑也算告一段落。这一个多月以来，略感疲惫。看书也断断续续，读书计划放缓。静下心来，是时候梳理下思路了。

阅读全文 »

十月书单总结

发表于 2018-11-04 | 分类于总结 | 阅读次数:

字数统计: 604

十一假期回来之后，就决定看书，每月给出书单。也算是自己给自己立的一个flag吧。

重新拾起了封存多年的kindle；电脑，手机也下载了kindle软件。

阅读全文 »

王德发，我的图挂了

发表于 2018-11-02 | 分类于杂谈 | 阅读次数:

字数统计: 603

一天早上，访问自己的Blog悟-心与心的交互。发现blog的配图没了，全没了。

阅读全文 »

DataX二次开发小记

发表于 2018-10-17 | 分类于大数据 | 阅读次数:

字数统计: 1.4k

本文为个人理解，如有不对之处，欢迎指正。

前言

之前，工作中使用datax作为数据交换组件。也简单的介绍了下datax和源码的基本导读。具体参见DataX初探。数据开发平台在数据交换同步上，从sqoop、kettle等工具，慢慢地向datax并拢。

挑战

datax的扩展性很好，插件式安装配置。在实际使用中，往往针对实际的场景需要定制自己的读或写插件。关于如何编写插件，datax官网上也做了阐述，这里就不在赘述。详细参见：datax插件开发。

阅读全文 »

十一哈巴雪山-丽江行

发表于 2018-10-07 | 分类于行万里路 | 阅读次数:

字数统计: 1.8k

序

“读万卷书，不如行万里路。”这句话，时常被人挂在嘴边。渐渐地便对这就话欣然接受。旅行确实是历练人地最好方式之一。

喜欢一个人背着包，远离生活、工作中地种种羁绊。时间久了，好像也就那么回事。

今年的国庆，由于前期工作调整，没有好好规划。本来年初两个选择

出国学习潜水，一直想了解深海的气世界。
去日本见基友，顺便了解下日本的ACG文化。

就在假期前一个星期，才决定，去远足。于是，在一个户外群里看到了哈巴雪山的行程。想了想，这也不错呀，雪是见过不少，雪山确实没怎么上过。于是做了决定，但是仔细看了行程单，29号飞丽江。对于没有假期的我，有些犹豫了。就在出发当天下午开例会的时候，还在想要不要去。不过现在想来还是值得的，因为这次行程感受颇深，也经历了很多。自然，人性的碰撞。

阅读全文 »