文本描述
加微信:642945106 发送“赠送”领取赠送精品课程 发数字“2”获取众筹列表 下载APP 08 | 交付速度和质量问题解决了,老板说还得“省” 2020-04-20 郭忆 数据中台实战课 进入课程 讲述:郭忆 时长 25:48大小 23.63M 你好,我是郭忆。 在上一节课中,我们讨论了如何保障数据中台的数据质量,让数据做到“准”。我认为,除 了“快”和“准”,数据中台还离不开一个“省”字。尤其是随着数据规模越来越大,成本 越来越高,如果不能合理控制成本,还没等你挖掘出数据的应用价值,企业利润就已经被消 耗完了。 所以,能否做到精细化的成本管理,关乎数据中台项目的成败。还是分享一个我见过的事 儿。 某电商业务数据建设资源增长趋势(CU= 1vcpu + 4G memory) 这张图展示了某电商平台的大数据资源消耗增长趋势,尤其值得你关注的是,到了 2019 年,全年的资源规模已经达到了 25000CU,全年机器预算达到了 3500W。对一个在创业 的企业来说,这显然是一笔不小的开支。 终于有一天,数据团队的负责人李好看(化名)就被 CEO 叫到了办公室,CEO 问了几个问 题: 这 3500W 花在什么业务上? 你们做了哪些成本优化的举措,效果如何? 一系列的灵魂拷问,直接把李好看问懵了,他心想:团队的成本是按机器又不是数据应用核 算的。在数据中台中,数据应用之间的底层数据是复用的,那具体每个数据产品或者报表花 了多少钱,自己没有这样的数据啊,怎么可能知道。 可对 CEO 来说,这些问题很重要,因为资源总是有限的,他必须确保资源都用在战略目标 的关键节点上。比如,对于电商团队,今年的核心 KPI 是提升单个注册会员在平台的消费 额,那从老板角度来讲,他必须确保资源都投入与 KPI 相关业务中,例如基于数据对注册 会员进行精准化营销,来提升会员在平台的消费额。 讲到这儿,你可以想一想,自己所在的团队是否发生过类似的事情? 我相信,数据部门是 企业的成本中心,如果要展现自己的价值,一方面是支撑好业务,获得业务的认可;另外一 方面就是精简成本,为公司省钱。 所以,今天我们就把重点放在省钱上,聊一聊数据中台的精细化成本管理。 有哪些成本的陷阱? 在一开始建设数据中台时,你往往会关注新业务的接入,数据的整合,数据价值的挖掘上, 忽略成本管控的问题,从而落入陷阱中,造成成本爆炸式的增长。所以,你有必要深入了解 一下有哪些陷阱,从而尽量在日常开发中避免。 在这里,我总结了 8 种陷阱,其中: 1~3 是广泛存在,但是容易被忽略的,需要你格外注意; 4~8 涉及数据开发中一些技能,你在开发过程中注意一下就可以了。 除此之外,在学习这部分知识的过程中,我建议你“知其然,更要知其所以然”,这样才能 发现问题的本质,从而深入掌握解决问题的方法。 第一,数据上线容易下线难。 先来看一组统计数据,这是某数据中台项目,表相关的使用统计。从中你可以发现,有一半 的表在 30 天内都没有访问,而这些表占用了 26% 的存储空间。如果我们把这些表的产出 任务单独拎出来,在高峰期需要消耗 5000Core CPU 的计算资源,换算成服务器需要 125 台(按照一台服务器可分配 CPU 40Core 计算),折合成本一年接近 500W。 是不是觉得自己竟然有这么多没用的数据?我经常把数据比作手机中的图片,我们总是不断 地拍照,生成图片,却懒得清理,最终手机里面的存储经常不够用。 对于无法及时清理数据,数据开发其实也有苦衷。他们并不知道一个表还有哪些任务在引 用,还有哪些人在查询,自然不敢停止这个表的数据加工,那造成的后果就是数据上线容 易,下线难。 第二,低价值的数据应用消耗了大量的资源。 我们的数据看上去每天都在被访问,但究竟产出了多少价值,投入和产出是否匹配呢?作为 一个数据部门,我们要问一问自己。 我们曾经有一个宽表(拥有很多列的表,经常出现在数据中台下游的汇总层数据中),算上 上游加工链路的任务,每天加工这张宽表要消耗 6000 块钱,一年要 200W,可追查后我 们发现,这张宽表实际每天只有一个人在使用,还是一个运营的实习生。显然,投入和产出 极不匹配。 这其实间接说明,数据部门比较关注新的数据产品带给业务的价值,却忽略了已经存在的产 品或者报表是否还存在价值,最终导致低价值的应用仍然在大量消耗资源。 第三,烟囱式的开发模式。 烟囱式的开发不仅会带来研发效率低的问题,同时因为数据重复加工,还会存在资源浪费的 问题。我们来算一笔账,一张 500T 的表,加工这张表,计算任务需要高峰期消耗 300Core,折合 7 台服务器(按照一台服务器可分配 CPU 40Core 计算),