故障响应与 SLA
SLA 定义
SLA(Service Level Agreement,服务级别协议)是网易智企与客户之间关于服务质量的书面承诺。
标准 SLA 指标
可用性 SLA
| 产品 | 可用性承诺 | 对应最大停机时间/月 |
|---|---|---|
| 云信 IM | 99.95% | 21.6 分钟 |
| 云信 RTC | 99.9% | 43.2 分钟 |
| 易盾内容安全 | 99.9% | 43.2 分钟 |
| 易盾验证码 | 99.95% | 21.6 分钟 |
| 七鱼 | 99.9% | 43.2 分钟 |
| 数帆 | 99.5% | 3.6 小时 |
性能 SLA
| 产品 | 指标 | 承诺值 |
|---|---|---|
| 易盾图片检测 | P99 响应时间 | < 500ms |
| 易盾文本检测 | P99 响应时间 | < 200ms |
| 云信消息延迟 | P99 端到端延迟 | < 200ms |
| 七鱼 API | P99 响应时间 | < 1s |
技术支持 SLA
| 问题级别 | 响应时间 | 解决时间 |
|---|---|---|
| P0(系统不可用) | 15 分钟 | 4 小时 |
| P1(核心功能异常) | 1 小时 | 8 小时 |
| P2(非核心功能) | 4 小时 | 24 小时 |
| P3(一般咨询) | 1 个工作日 | 5 个工作日 |
故障处理流程
故障分级
故障分级标准
├── P0(灾难级)
│ ├── 服务完全不可用
│ ├── 影响所有客户
│ └── 数据丢失风险
├── P1(严重)
│ ├── 核心功能不可用
│ ├── 影响大量用户
│ └── 无可用 Workaround
├── P2(一般)
│ ├── 非核心功能异常
│ ├── 影响部分用户
│ └── 有 Workaround
└── P3(轻微)
├── 功能缺陷但不影响使用
└── 性能轻微下降P0 故障处理 SOP
P0 故障处理流程(目标:4 小时内恢复)
│
├── 0-15 分钟:发现与响应
│ ├── 监控告警触发
│ ├── 值班工程师确认故障
│ └── 拉起应急群(研发 + 运维 + CSM + 管理层)
│
├── 15-60 分钟:定位与止血
│ ├── 快速定位故障范围
│ ├── 执行止血措施(切流量、回滚)
│ └── 每 15 分钟向客户同步进展
│
├── 1-4 小时:修复与恢复
│ ├── 根因定位
│ ├── 修复上线
│ └── 验证恢复
│
└── 恢复后:复盘
├── 故障时间线梳理
├── 根因分析(5 Why)
├── 改进措施(防止再次发生)
└── 发送故障报告给客户故障报告模板
故障报告
├── 故障摘要
│ ├── 故障时间:2024-01-15 14:30 - 16:45
│ ├── 影响范围:图片检测 API 不可用
│ └── 影响客户:XX 客户
├── 故障时间线
│ ├── 14:30 监控告警触发
│ ├── 14:45 工程师介入排查
│ ├── 15:30 定位根因(数据库连接池耗尽)
│ └── 16:45 修复完成,服务恢复
├── 根因分析
│ └── 数据库连接池配置不足,大流量下连接耗尽
├── 修复措施
│ ├── 临时:扩大连接池配置
│ └── 长期:优化连接池管理,增加监控告警
└── 赔偿说明(如适用)
└── 根据 SLA 协议,本次故障时长 X 分钟,超出 SLA 承诺 Y 分钟,将按协议赔偿SLA 赔偿机制
当服务可用性低于承诺时,按以下标准赔偿:
| 可用性 | 赔偿比例 |
|---|---|
| 99.0% - 99.9% | 月费用的 10% |
| 95.0% - 99.0% | 月费用的 25% |
| < 95.0% | 月费用的 50% |
注意:赔偿通常以服务抵扣券形式发放,不退现金。合同中需明确赔偿方式。
维保服务
标准维保内容
年度维保服务包含
├── 软件版本升级(大版本 1 次/年,小版本不限)
├── Bug 修复(按 SLA 响应)
├── 技术支持(工单 + 电话)
├── 季度健康检查(CSM 主动跟进)
└── 年度培训(1 次,新功能培训)增值服务
可选增值服务
├── 7×24 小时专属技术支持(额外收费)
├── 驻场服务(工程师驻场,额外收费)
├── 定制开发(按工作量报价)
└── 专项优化(性能调优、安全加固)