悟

心与心的交互


  • 首页

  • 关于

  • 标签

  • 分类

  • 归档

  • 公益404

集群治理之存储治理篇

发表于 2019-07-20 | 分类于 大数据 | 阅读次数:
字数统计: 1.3k

前言

转眼间,七月过去一半有余。感觉时间过的好快,上周末还在和小伙伴讨论去哪玩,这又到周末了。回头看看,距离上篇文章差不多过去一个月。是时候总结下这一个月干了点啥了。

背景

自从入了数据的坑,感觉有做不完的优化。和以前做业务系统不同,之前,更多的是被源源不断的业务需求砸晕。而如今,做基础数据建设,每天都在想法设法优化数据,优化集群。怎么把数据的价值体现的更好上。

最近忙着搞数据治理。好像,这几天都在发送“账单”,催用户去处理数据。那么,有人会问:这是问什么呢?首先,数据有进无出。再大的存储系统也迟早会爆满。而且,从公司投入成本来算。没必要对一些冷数据或无用的数据投入过多的存储。

在说说,如果一味的以堆加机器的方式来弥补存储的不足。一方面,成本增加;另一方面,运维的成本也会增加。每天路过大数据运维同事旁边,拍拍肩膀:“今周打算加多少机器?”。对于运维同学来说,不也是很尴尬的一件事么?加机器,重复而无聊。虽说可以使用自动化部署,但是这种只增无减必定会带来维护成本上的“熵”增。

措施

面临这些囧状,对于数据的治理就迫在眉睫。就像人有生老病死,数据同样也有产生和消亡的过程。那么,数据就是有“生命”的实体。


如何开展数据治理呢?


阅读全文 »

聊聊数据治理

发表于 2019-06-16 | 分类于 大数据 | 阅读次数:
字数统计: 1.6k

最近几个月,公司人员变动挺大的。可能每年的这个时候,每家公司都差不多吧。上半年的4-5月份,下半年的8-9月份。(这里只是泛指,自己的2次跳槽都发生在这个区间)。自己所处的数据部,也逐渐有部分员工流失。人员变更,带来了组织上的微调整。就在6月初,tl也提交了辞职申请。这里不好对他人做过多的议论。不过,tl给了我不少的职场意见。

自己从事数据相关职位,算算差不多3年了吧(从2016.6-至今)。感觉到自己似乎还是个吸水量很足的海绵。从上家公司初次接触数据平台,然后部门整个团队也是在摸索中不断构建数据产品组件(调度、元数据、数据开发、数据交换、可视化报表等。要说数据报表,起初是从很早之前fine report开始接触一些报表类处理,然后致使我去做数据这块的东西)。

当时,整个团队缺少点资深的数据技术或者数据产品。所以,做出来的有时候就是拍脑袋的事,然后过了不久,就重新构建,或者推到重来。

这似乎可以看作是数据平台建设的第一个阶段:跑起来再说。第二家,也就是目前的公司。算是在第二阶段:统一化、规范化。至于第三阶段:服务化,统一的数据中台。目前还没到吧。
(以上3个阶段不是权威概念,只是我个人的理解,然后给了个词表述)

阅读全文 »

突然想写点什么

发表于 2019-04-21 | 分类于 生活感悟 | 阅读次数:
字数统计: 715

这两个周末有点昏昏沉沉,五一快到了,感觉提不起精神。约了同伴去越南5日游。这两天开始订酒店,规划路线(机票签证已出),想轻松点,不想太折腾。
暂定如下:
旅游路线

阅读全文 »

集群优化心酸历程

发表于 2019-03-15 | 分类于 大数据 | 阅读次数:
字数统计: 1.7k

背景

最近在做公司集群优化工作,现状是公司的离线集群跑着一些实时任务(flink和sparkstreaming)。有时候会因为晚上离线任务起来后,集群资源不够导致实时任务延迟等。为了解决这个问题,部署了一套实时集群,专门用来跑实时任务。从而将实时任务和离线任务进行隔离。

问题

目前,有些spark streaming任务需要读写hdfs或着操作hive表。那么如果要迁移这些任务,就需要满足实时集群可以访问离线集群的存储资源。鉴于这种场景,进行了相关调研。

阅读全文 »

2018の自己

发表于 2019-01-01 | 分类于 总结 | 阅读次数:
字数统计: 1k

前言

又是一年一度的总结大会,朋友圈各种flag。有诙谐幽默的,有简单扼要的,有朴实无华的,等等。截取部分拼了个flag墙
flag墙

阅读全文 »

小憩一篇

发表于 2018-12-23 | 分类于 杂谈 | 阅读次数:
字数统计: 826

序

转眼,要到2019了。下午平躺在床上,总感觉少了些什么。工作中几个重要里程碑也算告一段落。这一个多月以来,略感疲惫。看书也断断续续,读书计划放缓。静下心来,是时候梳理下思路了。

阅读全文 »

十月书单总结

发表于 2018-11-04 | 分类于 总结 | 阅读次数:
字数统计: 604

十一假期回来之后,就决定看书,每月给出书单。也算是自己给自己立的一个flag吧。

重新拾起了封存多年的kindle;电脑,手机也下载了kindle软件。

阅读全文 »

王德发,我的图挂了

发表于 2018-11-02 | 分类于 杂谈 | 阅读次数:
字数统计: 603

一天早上,访问自己的Blog悟-心与心的交互。发现blog的配图没了,全没了。

阅读全文 »

DataX二次开发小记

发表于 2018-10-17 | 分类于 大数据 | 阅读次数:
字数统计: 1.4k

本文为个人理解,如有不对之处,欢迎指正。

前言

之前,工作中使用datax作为数据交换组件。也简单的介绍了下datax和源码的基本导读。具体参见DataX初探。数据开发平台在数据交换同步上,从sqoop、kettle等工具,慢慢地向datax并拢。

挑战

datax的扩展性很好,插件式安装配置。在实际使用中,往往针对实际的场景需要定制自己的读或写插件。关于如何编写插件,datax官网上也做了阐述,这里就不在赘述。详细参见:datax插件开发。

阅读全文 »

十一哈巴雪山-丽江行

发表于 2018-10-07 | 分类于 行万里路 | 阅读次数:
字数统计: 1.8k

序

“读万卷书,不如行万里路。”这句话,时常被人挂在嘴边。渐渐地便对这就话欣然接受。旅行确实是历练人地最好方式之一。

喜欢一个人背着包,远离生活、工作中地种种羁绊。时间久了,好像也就那么回事。

今年的国庆,由于前期工作调整,没有好好规划。本来年初两个选择

  1. 出国学习潜水,一直想了解深海的气世界。
  2. 去日本见基友,顺便了解下日本的ACG文化。

就在假期前一个星期,才决定,去远足。于是,在一个户外群里看到了哈巴雪山的行程。想了想,这也不错呀,雪是见过不少,雪山确实没怎么上过。于是做了决定,但是仔细看了行程单,29号飞丽江。对于没有假期的我,有些犹豫了。就在出发当天下午开例会的时候,还在想要不要去。不过现在想来还是值得的,因为这次行程感受颇深,也经历了很多。自然,人性的碰撞。

阅读全文 »
123…15
Alan Zhang

Alan Zhang

聆听内心的每一次呼吸

150 日志
24 分类
215 标签
RSS
GitHub E-Mail FB Page Instagram
© 2016 — 2024 Alan Zhang
由 Hexo 强力驱动
|
主题 — NexT.Muse v5.1.4