Skip to content

故障响应与 SLA

SLA 定义

SLA(Service Level Agreement,服务级别协议)是网易智企与客户之间关于服务质量的书面承诺。

标准 SLA 指标

可用性 SLA

产品可用性承诺对应最大停机时间/月
云信 IM99.95%21.6 分钟
云信 RTC99.9%43.2 分钟
易盾内容安全99.9%43.2 分钟
易盾验证码99.95%21.6 分钟
七鱼99.9%43.2 分钟
数帆99.5%3.6 小时

性能 SLA

产品指标承诺值
易盾图片检测P99 响应时间< 500ms
易盾文本检测P99 响应时间< 200ms
云信消息延迟P99 端到端延迟< 200ms
七鱼 APIP99 响应时间< 1s

技术支持 SLA

问题级别响应时间解决时间
P0(系统不可用)15 分钟4 小时
P1(核心功能异常)1 小时8 小时
P2(非核心功能)4 小时24 小时
P3(一般咨询)1 个工作日5 个工作日

故障处理流程

故障分级

故障分级标准
├── P0(灾难级)
│   ├── 服务完全不可用
│   ├── 影响所有客户
│   └── 数据丢失风险
├── P1(严重)
│   ├── 核心功能不可用
│   ├── 影响大量用户
│   └── 无可用 Workaround
├── P2(一般)
│   ├── 非核心功能异常
│   ├── 影响部分用户
│   └── 有 Workaround
└── P3(轻微)
    ├── 功能缺陷但不影响使用
    └── 性能轻微下降

P0 故障处理 SOP

P0 故障处理流程(目标:4 小时内恢复)

├── 0-15 分钟:发现与响应
│   ├── 监控告警触发
│   ├── 值班工程师确认故障
│   └── 拉起应急群(研发 + 运维 + CSM + 管理层)

├── 15-60 分钟:定位与止血
│   ├── 快速定位故障范围
│   ├── 执行止血措施(切流量、回滚)
│   └── 每 15 分钟向客户同步进展

├── 1-4 小时:修复与恢复
│   ├── 根因定位
│   ├── 修复上线
│   └── 验证恢复

└── 恢复后:复盘
    ├── 故障时间线梳理
    ├── 根因分析(5 Why)
    ├── 改进措施(防止再次发生)
    └── 发送故障报告给客户

故障报告模板

故障报告
├── 故障摘要
│   ├── 故障时间:2024-01-15 14:30 - 16:45
│   ├── 影响范围:图片检测 API 不可用
│   └── 影响客户:XX 客户
├── 故障时间线
│   ├── 14:30 监控告警触发
│   ├── 14:45 工程师介入排查
│   ├── 15:30 定位根因(数据库连接池耗尽)
│   └── 16:45 修复完成,服务恢复
├── 根因分析
│   └── 数据库连接池配置不足,大流量下连接耗尽
├── 修复措施
│   ├── 临时:扩大连接池配置
│   └── 长期:优化连接池管理,增加监控告警
└── 赔偿说明(如适用)
    └── 根据 SLA 协议,本次故障时长 X 分钟,超出 SLA 承诺 Y 分钟,将按协议赔偿

SLA 赔偿机制

当服务可用性低于承诺时,按以下标准赔偿:

可用性赔偿比例
99.0% - 99.9%月费用的 10%
95.0% - 99.0%月费用的 25%
< 95.0%月费用的 50%

注意:赔偿通常以服务抵扣券形式发放,不退现金。合同中需明确赔偿方式。

维保服务

标准维保内容

年度维保服务包含
├── 软件版本升级(大版本 1 次/年,小版本不限)
├── Bug 修复(按 SLA 响应)
├── 技术支持(工单 + 电话)
├── 季度健康检查(CSM 主动跟进)
└── 年度培训(1 次,新功能培训)

增值服务

可选增值服务
├── 7×24 小时专属技术支持(额外收费)
├── 驻场服务(工程师驻场,额外收费)
├── 定制开发(按工作量报价)
└── 专项优化(性能调优、安全加固)

网易智企产品解决方案知识库