分布式开源报警系统frostmourne
不要把告警当做发现系统所有问题的手段,要通过日常巡检来解决,如果告警大多不需要立即处理,久而久之就不会再有人关注告警;环比相关的告警,是为了发现异常流量,对于流量陡起陡落的业务容易产生误报,根据自身实际情况来选择配置。注意:由于告警平台不支持普通用户跨部门操作告警规则,以下操作使用各部门admin权限账号操作。3、复制的告警规则只是基础的模版,部分规则的阈值设置要根据服务实际情况修改规则。对生产环
告警平台
1、登陆后,第一时间填充手机号、邮箱
2、所有服务都要接上告警平台
3、复制的告警规则只是基础的模版,部分规则的阈值设置要根据服务实际情况修改规则
1、创建部门成员账号、添加钉钉群及机器人
账号密码已私发各leader,leader有告警平台admin权限(如有遗漏及时联系反馈),
给团队成员创建账号注意创建成普通用户,防止误操作影响到别的团队
1.1、创建部门成员
1.2、创建钉钉群(如已存在则跳过)
直接拉对应成员即可,不再提供对应的具体步骤
1.3、钉钉群添加机器人
2、复制基础告警规则并修改对应配置
注意:由于告警平台不支持普通用户跨部门操作告警规则,以下操作使用各部门admin权限账号操作
建议:leader账号给部门成员分配两个admin权限,操作完成后设置成员账号权限为普通用户
对生产环境要有敬畏,谨慎操作,严禁直接操作到其他团队的告警规则
2.1、找到对应的告警规则
2.2、复制规则
2.3、修改复制出的规则所属团队和告警内容
页面自动跳转后可能看不到,刷新页面
一定要注意修改钉钉地址,如不更改会给对方团队造成困扰
2.4、开启告警
2.5、部分告警结果截图
3、告警项列表
4、规则验证
grafana里的语句能通过,就表示规则语句没问题
5、注意事项
5.1、指标标签名配置
教育平台的服务,指标标签名:tc_bj_ewp_prod 例:
启牛的服务,指标标签名:app
5.2 根据自身来调整阈值和频率
G3005、G3006、G3009、G3010告警项,一定要对每个服务做好评估来设置阈值;
环比相关的告警,是为了发现异常流量,对于流量陡起陡落的业务容易产生误报,根据自身实际情况来选择配置
单一条件通常不能反应是一个问题,此时可以加上多个条件来保证告警有效;比如,响应时间的告警通常需要结合当前的qps才能明确
不要把告警当做发现系统所有问题的手段,要通过日常巡检来解决,如果告警大多不需要立即处理,久而久之就不会再有人关注告警;把告警侧重点放在需要立即处理的问题,以提升人对告警的关注度;
5.3 匹配语法
单个服务语法:xxxx{tc_bj_ewp_prod="ewp-gateway"}
单个服务语法:xxxx{tc_bj_ewp_prod=~"ewp-gateway|ewp-biz-user"}
6、相关学习资料
6.1、prometheus(PromQL)语法学习
你真的会 Prometheus 查询吗?--PromQL 合集_Prometheus_耳东@Erdong_InfoQ写作社区
更多推荐
所有评论(0)