Google监控的4个黄⾦指标
监控的意义
al qaeda监控将系统和应⽤程序⽣成的指标转换为对应的业务价值;不构建指标或监控将存在严重的业务和运营风险,这将导致:
·⽆法识别或诊断故障;
中译英在线
·⽆法衡量应⽤程序的运⾏性能;
·⽆法衡量应⽤程序或组件的业务指标以及成功与否,例如跟踪销售数据或交易价值
监控系统两个“客户”:
– 技术
allergic– 业务
监控的机制
nono监控数据类型芝加哥的大学
Google监控的4个黄⾦指标
改变自己英文Four Golden Signals是Google针对⼤量分布式监控的经验总结,4个黄⾦指标可以在服务级别帮助衡量终端⽤户体验、服务中断、业务影响等层⾯的问题。主要关注与以下四种类型的指标:延迟,通讯量,错误以及饱和度:
延迟:服务请求所需时间。
记录⽤户所有请求所需的时间,重点是要区分成功请求的延迟时间和失败请求的延迟时间。 例如在数据库或者其他关键祸端服务异常触发HTTP 500的情况下,⽤户也可能会很快得到请求失败的响应内容,如果不加区分计算这些请求的延迟,可能导致计算结果与实际结果产⽣巨⼤的差异。除此以外,在微服务中通常提倡“快速失败”,开发⼈员需要特别注意这些延迟较⼤的错误,因为这些缓慢的错误会明显影响系统的性能,因此追踪这些错误的延迟也是⾮常重要的。计算机语言翻译
通讯量:监控当前系统的流量,⽤于衡量服务的容量需求。
流量对于不同类型的系统⽽⾔可能代表不同的含义。例如,在HTTP REST API中, 流量通常是每秒HTTP请求数;
错误:监控当前系统所有发⽣的错误请求,衡量当前系统错误发⽣的速率。
对于失败⽽⾔有些是显式的(⽐如, HTTP 500错误),⽽有些是隐式(⽐如,HTTP响应200,单实际业务流程依然是失败的)。
英语论文答辩技巧对于⼀些显式的错误如HTTP 500可以通过在负载均衡器(如Nginx)上进⾏捕获,⽽对于⼀些系统内部的异常,则可能需要直接从服务中添加钩⼦统计并进⾏获取。
饱和度:衡量当前服务的饱和度。
buenos aires
主要强调最能影响服务状态的受限制的资源。 例如,如果系统主要受内存影响,那就主要关注系统的内存状态,如果系统主要受限与磁盘I/O,那就主要观测磁盘I/O的状态。因为通常情况下,当这些资源达到饱和后,服务的性能会明显下降。同时还可以利⽤饱和度对系统做出预测,⽐如,“磁盘是否可能在4个⼩时候就满了”。
pins