智能故障诊断,开启数据中心运维“下半场”( 二 )
TIFDS方案架构
文章图片
文章图片
01
宕机类故障诊断
TIFDS可以覆盖由于IERR(Internal Error)和非IERR造成的系统宕机故障 , 并精准地定位出故障部件 , 如CPU , 内存 , 主板 , PCIe外插卡 , 存储等设备 。服务器运行过程中一旦发生异常 , TIFDS系统会 立刻响应并准确诊断出故障的部件 , 将故障问题原因、 故障部件具体位置、部件型号信息、维修建议等信息及时上报至运维管理系统 。运维管理系统可自动生成维修工单 , 运维人员根据维修建议 , 需要更换部件信息 , 快捷更换故障部件或者依据TIFDS指导排除故障 , 迅速使机器恢复健康状态 。传统的以小时计算维修时间级别压缩至分钟级别 。极大提升运维效率 , 实现云业务快速恢复 。
文章图片
文章图片
02
非宕机类故障诊断
TIFDS系统通过BMC实时监控服务器系统上遍布各处的电压、电流、温度传感器信息 ,实时监控电源、风扇、以及各部件的工作状态和工作负荷情况;根据可在线更新的告警阈值、 预警阈值和故障判定规则 , 可实现对服务器中存在风险的位置进行故障预警、故障告警或故障判定 , 并时刻上报智能运维系统 。
文章图片
文章图片
03
故障预警与隔离
TIFDS可以对服务器内所有部件进行全生命周期的寿命和运行状态进行跟踪 , 通过机器学习的算法对高风险的部件提前进行预警 , 降低服务器在高负荷运行状态下的突然失效 。另外对已发生故障的部件 , TIFDS可以按部件类别做出相应的隔离措施处理 , 避免单一非必要部件故障影响整机系统的运行 。
“TIFDS架构是腾讯云和浪潮深度合作的结果 。”刘超说 , “底层代码主要由浪潮去开发;模型校验的过程、数据的输入 , 以及后面整个优化的过程又是双方共同开发 。”
文章图片
文章图片
浪潮信息腾讯大客户部副主任倪旭华
正如浪潮信息(000977,股吧)腾讯大客户部副主任倪旭华所说:“这是一次突破了传统甲乙方关系的、战略合作伙伴间的合作 。”
03
从封闭到开放 ,
智能故障诊断的诗和远方
奇点大学创始人彼得·戴曼迪斯在他的那本《未来呼啸而来》里归纳了的九大指数型技术 , “人工智能”位列其中 , 并且指出 , “当某些独立加速发展的技术与其他独立加速发展的技术融合时” , 将带来巨大的变革力量 , 由此重塑行业 。
比如 , 药物开发的速度之所以正在不断加快 , 不仅是因为生物技术正在以指数级的速度发展 , 还因为人工智能、量子计算和其他几个指数级加速发展的技术也在向这个领域靠拢 , 以及跨领域间的通力协作 。
文章图片
文章图片
数据中心领域 , 也是如此 。开放计算正成为当前乃至未来数据中心的创新主力 , 通过全球化协作的创新模式 , 能耗、高速网络通信、智能运维及循环利用 , 无论老问题 , 还是新需求 , 这些影响数据中心基础设施可持续发展的重大问题正在被解决 。
- 智能升温装置巧解油嘴冻堵难题
- 智能科技傍身,讯飞智能录音笔SR101助力学习生活
- 小米智能设备再次荣获国际安全认证 理论与实践并行物联网安全迈向新征程
- 年会礼品怎么选?不妨看看讯飞智能录音笔SR702、人体工学椅
- 百度地图升级智能手表导航 可查看公交地铁到站提醒
- 复旦研发智能冰上运动训练分析系统,助中国选手化身“冰雪精灵”
- 打疫苗不靠人?不用针?智能无针机器人有望“代劳”
- 中国百年矿业学府与智能工业新势力的完美结合
- 摩根全屋智能家居提升生活的格调和品质
- Garmin epix 高端商务智能腕表、fēnix 7太阳能系列户外手表上市
