马士老师Linux云计算SRE工程师
什么是 SRE(站点可靠性工程)?
SRE 执行的任务以前通常由运维团队手动执行,或者交给使用软件和自动化来解决问题和管理生产系统的工程师或运维团队执行。
在创建可扩展和高度可靠的软件系统时,SRE 是宝贵的实践。它可帮助您通过代码管理大型系统,对于管理成千上万台机器的系统管理员(sysadmin)来说,代码更具可扩展性和可持续性。
站点可靠性工程的概念由 Google 工程团队的 Ben Treynor Sloss 第一个提出。
SRE 可以帮助团队在发布新功能和确保用户可靠性之间找到平衡。
在这种背景下,标准化和自动化是 SRE 模型的两大重要部分。在这里,站点可靠性工程师寻求增强和自动化运维任务。
通过这些方式,SRE 有助于提高当今的系统可靠性,并且随着时间的推移不断提高。
SRE 支持团队从传统 IT 运维方案迁移至云原生方案。
站点可靠性工程师的工作是什么?
站点可靠性工程师是一个独特的岗位,要么必须具有系统管理员背景、或有运维经验的软件开发人员;要么必须是有软件开发技能的 IT 运维人员。
SRE 团队负责部署、配置和监控代码,以及生产服务的可用性、延迟、变更管理、应急响应和容量管理。
SRE 团队根据服务水平协议(SLA)确定新功能的推出,并利用服务水平指标(SLI)和服务水平目标(SLO)定义系统所需的可靠性。
SLI 测量所提供服务水平的特定方面。关键 SLI 包括请求延迟性、可用性、错误率和系统吞吐量。SLO 基于根据 SLI 而指定的服务水平的目标值或范围。