首页 > 资料专栏 > IT > IT技术 > 信息技术 > 丨怎么_劳永逸地解决数据安全问题PDF

丨怎么_劳永逸地解决数据安全问题PDF

kuihua1***
V 实名认证
内容提供者
热门搜索
安全 数据安全
资料大小:2702KB(压缩后)
文档格式:PDF(19页)
资料语言:中文版/英文版/日文版
解压密码:m448
更新时间:2024/5/22(发布于上海)

类型:积分资料
积分:10分 (VIP无积分限制)
推荐:升级会员

   点此下载 ==>> 点击下载文档


“丨怎么_劳永逸地解决数据安全问题PDF”第1页图片 图片预览结束,如需查阅完整内容,请下载文档!
文本描述
 下载APP  10 | 怎么一劳永逸地解决数据安全问题? 2020-04-27 郭忆 数据中台实战课 进入课程  讲述:郭忆  时长 27:05大小 24.82M 你好,我是郭忆。 在前面的课程中,我们了解了数据中台在数据建设效率、质量和成本方面的内容。而除了 快、准和省以外,数据中台还必须是安全的。因为如果不安全,你很可能出现和“微盟删库 跑路”同样的事情。所以,为了让你能重视数据中台的数据安全,我简单说一下这件事儿的 情况。 2020 年 2 月 23 日 19 点,国内最大的精准营销服务商微盟出现了大面积的系统故障,旗 下 300 万商户的线上业务全部停止,商铺后台的所有数据被清零。始作俑者是一位运维人 员,他在生产环境数据库进行了删库操作,而刚刚上市不久的微盟就因此遭受了巨大的损 失,从 2 月 23 日宕机以来,市值已经蒸发了 30 亿港元。这件事儿堪称史上最贵的安全事 件。 那么从微盟的教训中,我们能得到什么警醒呢?在数据中台中怎么防止出现类似的事件呢? 我想这或许是你需要认真思考的内容。安全问题可大可小,不出事情,你可能根本不会重 视,但是一旦出现事故,就是灾难性的。在网易,我们对数据中台的安全管理是非常严格 的。 在刚开始构建网易数据中台的时候,我们就重点考虑了数据中台的安全保障,我把它归结为 五大法宝。 接下来,我就带你深入分析一下,希望学完这部分内容之后,你可以回答这样三个问题: 如何解决数据误删除问题; 如何解决敏感数据泄露问题; 如何解决开发和生产物理隔离问题。 它们是你在数据中台建设中一定会面临的,学完之后,你一定可以找到解决这些问题的方 法。 机制一:数据备份与恢复 对于绝大多数的企业,数据中台的数据都存储在 HDFS 中,即使是实时的数据(存储于 Kafka),也会归档一份到 HDFS,因为要保存历史数据进行回算或者补数据。所以我们要 解决的核心问题是 HDFS 的数据备份。 网易 HDFS 数据的备份,是基于 HDFS 快照 + DistCp + EC 实现的。 网易数据备份的架构图 我们分为线上集群和冷备集群两个集群,数据加工任务访问的是线上集群,存储采用的是 HDFS 默认的 3 副本。而冷备集群,主要考虑到存储成本的因素,采用的是 EC 存储。 EC 存储原理示意图 为了让你了解 EC 存储的基本原理,我多说几句。其实,Hadoop 在 3.x 就正式引入了 EC 存储,它是一种基于纠删码实现的数据容错机制,通过将数据进行分块,然后基于一定的算 法计算一些冗余的校验块,当其中一部分数据块丢失的时候,可以通过这些冗余的校验块和 剩余的数据块,恢复出丢失的数据块。 这么说可能不太形象,我做个比喻。比如有三个数据块,分别存储的是 1、2 和 3。我们非 常担心其中一个数据块坏了,丢失内容。所以增加了一个块,这个块存储的内容是前面三个 数据块之和。那么如果其中任意一个数据块坏了,我们可以根据现有的数据块计算出丢失的 数据块内容。 比如 1 丢失了,我们可以根据 6-3-2 计算出 1,当然这个只是最简单的 EC 算法,只能容忍一个数据块丢失,实际的 EC 算法要再复杂一些 。 关于 EC 具体的算法细节,不是本节课的重点,不过我在文末提供了一个链接,你可以课下 研究一下。在这里我只想告诉你的是,EC 存储,在不降低可靠性的前提下(与 HDFS 3 副 本可靠性相同),通过牺牲了一定的计算性能(因为计算校验块需要消耗额外的计算资 源),将数据存储成本降低了一半,非常适合低频访问的冷数据的存储,而备份数据就是这 种类型的数据。 那线上集群的数据又是如何同步到冷备集群的呢? 在回答这个问题前,你有必要先了解一下快照的基本原理,因为这样你才能理解后续的数据 同步流程。 Hadoop 在 2.x 版本就已经支持了对某个文件或者目录创建快照,你可以在几秒内完成一 个快照操作。在做快照前,你首先要对某个目录或者文件启用快照,此时对应目录下面会生 成一个.snapshot 的文件夹。 在上图中, 我们对 /helloword 目录启用快照,然后创建一个 s1 的备份。此时, 在.snapshot 下存在 s1 文件。然后我们删除 /helloword/animal/lion 文件时,HDFS 会 在 animal 目录创建 differ 文件,并把 diifer 文件关联到 s1 备份,最后把 lion 文件移动到 differ 目录下。 通过这个案例,我们不难发现,HDFS 快照实际只记录了产生快照时刻之后的,所有的文件 和目录的变化,非常适合每天只有少数文件被更新的数据中台,代价和成本也很低。 有了快照之后,我们就需要把快照拷贝到冷