告警平台

1、登陆后,第一时间填充手机号、邮箱

2、所有服务都要接上告警平台

3、复制的告警规则只是基础的模版,部分规则的阈值设置要根据服务实际情况修改规则

1、创建部门成员账号、添加钉钉群及机器人

账号密码已私发各leader,leader有告警平台admin权限(如有遗漏及时联系反馈)

给团队成员创建账号注意创建成普通用户,防止误操作影响到别的团队

1.1、创建部门成员

1.2、创建钉钉群(如已存在则跳过)

直接拉对应成员即可,不再提供对应的具体步骤

1.3、钉钉群添加机器人

2、复制基础告警规则并修改对应配置

注意:由于告警平台不支持普通用户跨部门操作告警规则,以下操作使用各部门admin权限账号操作

建议:leader账号给部门成员分配两个admin权限,操作完成后设置成员账号权限为普通用户

对生产环境要有敬畏,谨慎操作,严禁直接操作到其他团队的告警规则

2.1、找到对应的告警规则

2.2、复制规则

2.3、修改复制出的规则所属团队和告警内容

页面自动跳转后可能看不到,刷新页面

一定要注意修改钉钉地址,如不更改会给对方团队造成困扰

2.4、开启告警

2.5、部分告警结果截图

3、告警项列表

Docs

4、规则验证

grafana里的语句能通过,就表示规则语句没问题

5、注意事项

5.1、指标标签名配置

教育平台的服务,指标标签名:tc_bj_ewp_prod   例:

启牛的服务,指标标签名:app

5.2 根据自身来调整阈值和频率

G3005、G3006、G3009、G3010告警项,一定要对每个服务做好评估来设置阈值;

环比相关的告警,是为了发现异常流量,对于流量陡起陡落的业务容易产生误报,根据自身实际情况来选择配置

单一条件通常不能反应是一个问题,此时可以加上多个条件来保证告警有效;比如,响应时间的告警通常需要结合当前的qps才能明确

不要把告警当做发现系统所有问题的手段,要通过日常巡检来解决,如果告警大多不需要立即处理,久而久之就不会再有人关注告警;把告警侧重点放在需要立即处理的问题,以提升人对告警的关注度;

5.3 匹配语法

单个服务语法:xxxx{tc_bj_ewp_prod="ewp-gateway"}
单个服务语法:xxxx{tc_bj_ewp_prod=~"ewp-gateway|ewp-biz-user"}

6、相关学习资料

6.1、prometheus(PromQL)语法学习

你真的会 Prometheus 查询吗?--PromQL 合集_Prometheus_耳东@Erdong_InfoQ写作社区

Logo

瓜分20万奖金 获得内推名额 丰厚实物奖励 易参与易上手

更多推荐