文本描述
TIFDS 数据中心服务器 智能故障诊断系统 白皮书 腾讯:曾令新,牛犇,林哲伟,严勇 浪潮:李道童,陈衍东,张春宏,韩红瑞,骆健,孙志杰,徐明,倪旭华 数据中心服务器智能故障诊断系统白皮书 目录 01背景 02云和数据中心的发展趋势 云计算的发展趋势 产业互联网时代的智能化运营需求 03TIFDS故障诊断系统介绍 TIFDS故障诊断系统定义 TIFDS方案架构介绍 宕机类故障诊断 非宕机类故障诊断 故障预警与隔离 腾讯云服务器故障诊断体系介绍 04TIFDS故障诊断创新实践助力腾讯云服务器智能化运营 专家规则分析,找到第一个故障触发源 结合历史数据进行时间序列分析,实现智能回溯 案例库建立,测试标准建立以及自动化测试方法三大利器,减少人为判断,提高测试效率, 保证固件发布质量 全面定义日志格式,完美适配腾讯云运维监控系统 带外一键日志采集功能和工具,配合腾讯云运维系统实现故障日志的自动采集和保存 疑难问题自动识别上报监控系统,配合腾讯云运维系统实现自动化线上诊断分析 带外日志输出明文化,运维人员可自行查看 05未来展望 目录 / 2 数据中心服务器智能故障诊断系统白皮书 01 背景 随着云技术的普及,尤其是“新基建”,“数字化转型”等需求驱动着数字经济的高速发 展,服务器在CDC数据中心的部署规模也呈指数级增长。随之而来的运维管理复杂度和难度 也越来越大,而传统的海量服务器数据中心的故障运营也面临着更大的挑战和更高昂的成本, 从最初的脚本运维、工具运维到平台运维演进至今,人力已接近极限,越来越无法满足快速修 复故障和恢复业务运行的要求。 大规模数据中心运维存在如下的痛点问题: 1. 机器故障后,重要的日志信息不全,无法自动准确进行故障部件定位; 2. 故障诊断效能较低,服务器出现问题后主要基于人工分析和经验判断结果,自动化与智能 化程度不高。 3. 成本高时效性差,人工经验分析依赖大量运维人力投入并导致较长的运维时间(MTTR),影 响业务的快速恢复。 4. 由于诊断结果的明确化率低,引起二次故障维修比例较高,导致额外数据迁移成本和业务 影响。 针对目前服务器运维的痛点问题,如何快速提升数据中心服务器的自动化明确故障诊断准 确率,也成为一个复杂的系统级工程,如何能够构建一套贴合业务场景的服务器智能化故障诊 断系统,不断降低运维成本,持续提升运维效能,成为业界一个亟待解决的新课题。 腾讯云作为国内首家突破百万台量级规模的云厂商,长期致力于引领中国数字经济的发 展,构建更具创新力的基础设施运营。浪潮作为全球前三,国内第一的服务器龙头企业,秉承 创新的理念,以为客户创造价值和为企业增加效益为使命,通过强大的研发能力和创新能力, 为客户提供领先技术。双方基于多年来海量服务器的运营经验积累与创新实践,共同探索服务 器运营发展趋势,制定了数据中心服务器智能化故障诊断方案框架,并希望通过《数据中心服 务器智能故障诊断系统白皮书》为行业带来一些革新的思路和视角。 01 背景 / 3 数据中心服务器智能故障诊断系统白皮书 02 云和数据中心的发展趋势 云计算的发展趋势 中国云计算市场规模突破千亿,并持续两位数增长。纵观整个云计算发展的发展史,主要有 4 个阶段 : 虚拟化阶段 服务器化阶段 产业化阶段 标准化阶段 建立标准化流程, 使公有云,私有云, 多云互通无缝迁 移 ; 提高云服务便 捷性,就像使用水 和电方式一样使用 云服务 实现软硬件解耦和 资源池化,从而达 到局部效率和可靠 性提升的目的 将独立的技术能力 包装为整合的服务 输出,包含云计算 的三个分层IaaS、 PaaS、SaaS等 产业互联网阶段,通 过云计算技术助力产 业进行变革,打造行 业生态 与解决方