推荐两本书:SRE Google运维解密和Google SRE工作手册。
只能说这是一个比较比较长时间的一个过程,需要团队脑暴,针对黄金指标,站在用户的角度,体感的角度,把最顶层的环境指标找到,再往下走。Google SRE的那本书里提到把整个Google的线上生产服务,统一抽了几个0和1的可用性,无论什么服务、大数据平台或者微服务的应用,都能从固化的几个维度去定义它,这是一些常见的方法论。
只能说这是一个比较比较长时间的一个过程,需要团队脑暴,针对黄金指标,站在用户的角度,体感的角度,把最顶层的环境指标找到,再往下走。Google SRE的那本书里提到把整个Google的线上生产服务,统一抽了几个0和1的可用性,无论什么服务、大数据平台或者微服务的应用,都能从固化的几个维度去定义它,这是一些常见的方法论。