智能故障诊断,开启数据中心运维“下半场”

从云计算第一次被提出至今已经过去了15年 , 随着云计算市场的不断扩张 , 数据中心服务器的规模也随之快速增长 。成长的烦恼之于大规模数据中心是运维 。一边是海量设备、高度复杂运维环境的现实 , 另一边是提供高质量的IT服务 , 提升效率并降低成本的诉求 , 运维团队面临巨大挑战 。而对于数据中心面临的挑战 , 势必要在事前就制定各类风险的应对策略 。
01
数据中心成长的烦恼:
规模与运维难度齐增
全面数字化催生了更多的数据处理需求 , 大数据中心作为承载海量数据(603138,股吧)存储和处理能力的运算中心 , 其建设规模和质量将直接决定数据服务能力 , 可以说 , 大型数据中心的能力决定了数字经济发展的速度与高度 。
这也就不难理解 , 为什么在全球范围内出现数字基础设施兴建热潮 。据Gartner数据统计 , 2020年全球云计算市场快速增长 , 增速超过40% , 中国云计算市场也持续两位数增长 , 市场增长动能逐渐从泛互联网向产业化快速渗透 , 增长持续加速 。
随着数据中心服务器规模的快速增长 , 大规模数据中心运维超过数十万台服务器成为常态 。只要数据中心在运营 , 就无法避免出现故障 。而依靠传统运维已无法满足海量设备的监控及运维管理需求 。
智能故障诊断,开启数据中心运维“下半场”
文章图片

文章图片
腾讯云星星海实验室研发副总监刘超
“以往服务器出了故障 , 需要L1、L2、L3维护的过程 , 耗时非常长 。” 腾讯云星星海实验室研发副总监刘超说 。目前 , 腾讯云线网运行超百万以上的服务器 , 腾讯云在全球27个地理区域内运营着67个可用区 , 部署在全球各地的服务器数量超过100万台 , 超过1300个加速节点 , 带宽储备达100T , “作为云服务商 , 我们希望故障可以智能预警和诊断 , 而不是再去靠人工去收集分析海量数据 , 更好保障业务的连续稳定 。”刘超补充道 。
腾讯云与浪潮联合发布数据中心服务器智能故障诊断技术白皮书——《数据中心服务器智能故障诊断TIFDS(Tencent & Inspur Fault Diagnosis System)系统技术白皮书》显示 , 大规模数据中心服务器运维存在四大痛点:
机器故障后 , 重要的日志信息不全 , 无法自动准确进行故障部件定位;
服务器出现问题后主要基于人工分析和经验判断结果 , 自动化与智能化程度不高 , 故障诊断效能较低;
?人工经验分析依赖大量运维人力投入并导致较长的运维时间(MTTR) ,影响业务快速恢复 , 成本高时效性差;
?由于诊断结果的明确化率低 , 以及人工判断的介入 , 引起二次故障维修比例较高 , 从而导致额外数据迁移成本和业务影响 。
腾讯云服务器保有量高速增长 , “肩扛手挑”的运维方式无法满足需求 , 刘超表示 , “这远远不是效率高与低的问题 , 而是能与不能的问题 , 整个数据中心的运维必须要走向智能化 。“
02
“七分运维” , 有AI的“下半场”
“三分建设、七分运维” , 业界在大规模数据中心运维方面的探索正在进入“下半场” 。7月27日 , 在由OCP社区主办、浪潮承办的第三届OCP China Day期间 , 腾讯云与浪潮联合研发的TIFDS数据中心服务器故障智能诊断系统架构首次亮相 。
TIFDS故障诊断系统是服务器健康监管技术及故障预警诊断技术的总称 , 旨在实现运维工作任务由人工离线分析向自动智能在线识别的方向发展 , 建立一套以带外BMC为中心的自动化故障诊断系统 。
该系统依托腾讯超过100万台服务器的维护数据 , 深度定制了服务器事件日志 , 通过AI技术对服务器运营数据进行实时的分析 , 从而实现了对CPU , 内存、硬盘 , PCIe等部件的故障监控 , 失效预测 , 自动化预警 , 将服务器故障诊断自动明确化率提升至95%以上 。