返回列表

SPT-001_基础服务等级协议

发布时间:2026-02-06 02:11

文档概述

本文档详细阐述光环云公司在AWS解决方案提供商计划(VAP)框架下实施的基础服务等级协议(SLA)。作为AWS合作伙伴,我们深知服务质量对于客户业务成功的重要性,因此建立了一套完整、可靠且高度标准化的服务承诺体系。该体系不仅覆盖所有技术支持服务的质量要求,还包含详细的响应时间承诺、解决时间目标以及完善的通知机制。


我们的SLA策略基于AWS最佳实践,结合多年的云服务支持经验,为不同优先级和复杂程度的问题提供明确的服务承诺。


1. 服务等级策略

1.1 优先级分类体系

光环云针对VAP范围内的不同业务场景和客户需求,制定了五级优先级分类体系。我们的优先级体系涵盖从紧急业务中断到一般咨询的全方位支持,确保从多个维度对客户问题进行准确分类和及时响应。每个优先级都有其特定的业务影响定义和响应要求,通过精心设计的SLA承诺和通知机制,帮助客户在问题发生时获得最适当的支持服务。


1.1.1 P0级别 - 紧急

在P0级别问题的处理上,我们采用最高优先级的响应机制来应对业务关键系统的完全中断。

  • 业务影响:业务完全中断,影响所有用户,系统完全不可用,可能导致重大经济损失或声誉影响。这类问题需要立即响应,动用所有可用资源进行处理。
  • 响应机制:15分钟内响应,2小时内提供解决方案或临时缓解措施。
  • 通知方式:短信、电话、邮件多渠道同时通知,确保相关人员第一时间获知。


1.1.2 P1级别 - 高

P1级别问题虽然不会导致系统完全停止,但会严重影响核心业务功能的正常运行。

  • 业务影响:核心功能严重受损,影响大部分用户,关键业务流程无法正常执行。虽然系统仍可访问,但主要功能受到严重限制。
  • 响应机制:30分钟内响应,4小时内提供解决方案。
  • 处理优先级:仅次于P0级别,分配高级工程师进行处理。


1.2 响应时间承诺

为了确保服务质量的一致性和可预测性,我们对各优先级问题制定了明确的响应时间和解决时间目标。这些时间承诺基于AWS Enterprise Support的标准,结合我们的实际服务能力和多年运营经验制定。同时,我们还建立了完善的监控和报告机制,确保SLA承诺的有效执行和持续改进。


优先级

问题定义

响应时间

解决时间目标

P0 - 紧急
业务完全中断,影响所有用户,系统不可用
15分钟
 2小时
P1 - 高
核心功能严重受损,影响大部分用户
30分钟
4小时
P2 - 中
部分功能异常,影响部分用户或性能下降
2小时
8小时
P3 - 低
非关键功能问题,影响少数用户
4小时
24小时
P4 - 一般
一般咨询、功能建议、非紧急请求
8小时
48小时

1.2.1 响应时间定义

• 响应时间:从客户提交工单到我们技术人员首次回复的时间间隔

• 解决时间:从问题确认到提供最终解决方案或临时缓解措施的时间

• 工作时间:周一至周五 09:00-18:00(北京时间),节假日除外

• 非工作时间:通过轮班和On-Call机制保持相同的SLA标准


2. 运营体系

有效的运营承诺体系是服务质量保障的基础。我们建立了多层次、全方位的运营保障机制,通过系统可用性监控、性能指标管理和主动服务优化,确保客户能够获得稳定、可靠的技术支持服务。这套体系不仅关注问题的快速响应和解决,更注重预防性措施和持续改进。


2.1 系统可用保障

我们承诺为客户提供高可用性的服务支持,通过多层次的保障机制确保服务的连续性和稳定性。


2.1.1 可用性指标

  • 目标可用性:99.9% - 我们承诺支持服务的年度可用性达到99.9%,相当于每年停机时间不超过8.76小时。
  • 计划维护窗口:每月第二个周日 02:00-06:00 - 所有计划性维护活动将在此时间窗口内进行,以最小化对客户业务的影响。
  • 紧急维护通知:提前2小时通知 - 如遇紧急维护需求,我们将至少提前2小时通过多种渠道通知客户。


2.1.2 冗余和备份机制

  • 多区域部署:支持服务部署在多个AWS区域,确保单区域故障不影响整体服务
  • 数据备份:每日自动备份所有客户数据和工单记录,保留30天
  • 故障转移:自动故障转移机制,RTO < 15分钟,RPO < 1小时


2.2 性能指标承诺

为确保客户获得优质的服务体验,我们制定了严格的性能指标要求,并通过持续监控和优化来保证这些指标的达成。


性能指标

承诺值

监控方式

系统响应时间
< 10秒
CloudWatch实时监控
数据备份成功率
> 99.9%
自动化脚本检查
灾难恢复时间
< 4小时
定期演练验证


3. 客户通知机制

我们建立了完善的客户通知机制,确保客户能够及时了解服务状态变化和重要事件。通知策略根据事件的紧急程度和影响范围制定不同的时间要求,通过多渠道、多层次的通知架构,保证重要信息能够准确、及时地传达给相关人员。


3.1 通知阈设置

基于多年的服务管理经验,我们设置了科学合理的通知阈值体系。这些阈值不仅考虑了及时通知的需要,还兼顾了避免信息过载的平衡,确保客户能够获得最有价值的服务状态信息。


3.1.1 服务中断通知阈值

  • 计划维护通知:提前72小时 - 所有计划性维护活动将提前72小时通过邮件和工单系统通知客户
  • 紧急维护通知:提前2小时 - 紧急维护将尽可能提前2小时通知,特殊情况下可能缩短通知时间
  • 服务中断通知:实时通知 - 一旦发现服务中断,将立即通过多种渠道向受影响客户发送通知
  • 恢复完成通知:服务恢复后30分钟内 - 确认服务完全恢复后及时通知客户


3.1.2 SLA预警通知机制

我们建立了SLA预警机制,当工单处理时间接近SLA承诺时限时,系统会自动发送预警通知,确保问题能够在承诺时间内得到解决。

  • 80%阈值:预警级别,内部团队收到提醒
  • 90%阈值:警告级别,升级至高级工程师处理
  • 95%阈值:紧急级别,通知技术经理介入
  • 100%阈值:SLA违约,启动应急响应流程


3.2 通知渠道配置

我们采用多渠道通知机制,根据通知的紧急程度和重要性选择合适的通知方式:

  • 工单系统消息通知:所有服务状态变化将在工单系统中发布公告
  • 电子邮件通知:重要通知将发送到客户注册的邮箱地址
  • 系统状态页面更新:维护专门的状态页面,实时更新服务状态信息

顶部