Apache Pulsar 在科大讯飞的 SRE 实践


[03:15](https://www.bilibili.com/video/BV15W4y1t7Ma#t=195.945649)
站在 SRE 角度,服务保障的一些难点,以及高效 SRE 的迫切性。
高效 SRE 的迫切性需求:
- 业务线太多(50+),需要 梯级保障
- 端对端的消息写入及数据同步的延迟
- 业务接入 MQ 的流程及规范化
[05:38](https://www.bilibili.com/video/BV15W4y1t7Ma#t=338.217629)
pulsar 在 科大讯飞的演进
为什么选择 pulsar?
- 业务收敛,将多个小集群的流量汇聚到 pulsar
- 较少运维工作量
- 存算分离
- 多租户
- geo-replication
- 多语言sdk
1. 调研综述
2. -> 压测 (实际流量规划)-> 性能调优(硬件,架构,配置)
3. -> 上线
[08:19](https://www.bilibili.com/video/BV15W4y1t7Ma#t=499.481062)
服务保障体系
服务分级保障
级别 可用性 全年时间
level-1:99.99% 0.876h
level-2:99.95% 4.38h
level-3: 99.9% 8.76h
level-4: 99.5% 43.8h
测算周期:季度
测算方法:
可用性 = (服务总时长-累计影响时长)/ 服务总时长
数据来源:
paas 监控系统
SRE 保障体系
