服务等级协议 SLA Agreement
算力底座的稳定性决定了 AI 研发的连续性。深超智算通过严苛的 SLA 协议,确保您的核心业务在任何情况下都能获得最高等级的支撑与保障。
故障响应与恢复承诺矩阵
P1: 关键故障
P2: 严重影响
P3: 一般问题
| 故障等级 (Severity) | 定义与影响 | 响应时间 (Response) | 修复时间 (Resolution) |
|---|---|---|---|
|
P1 - Critical
|
集群核心节点宕机、网络主链路中断、导致整体计算任务全面停滞。 | 15 分钟内 | 4 小时内 (临时恢复) |
|
P2 - High
|
部分计算节点失效、性能出现显著波动、影响特定优先级任务运行。 | 1 小时内 | 12 小时内 |
|
P3 - Medium
|
辅助功能失效、非核心镜像更新失败、常规性能咨询。 | 4 小时内 | 3 个工作日内 |
硬件原厂级备件保障
我们与全球顶级芯片供应商建立了战略储备库。针对关键节点,提供 24小时到场 的备件更换承诺,彻底杜绝因单一硬件损坏导致的研发停摆。
全栈软件环境巡检
除硬件保障外,我们提供周级的 软件栈健康检查。包括驱动版本兼容性扫描、内存碎片化分析及 NCCL 通信链路压测,确保算力始终处于巅峰状态。
需要定制化更高等级的专属 SLA 保障方案?
联系大客户服务经理