zabbix监控
第1章 监控知识基本概述
1.1 为什么要使用监控
- 对系统不间断实时监控
- 实时反馈系统当前状态
- 保证服务可靠性安全性
- 保证业务持续稳定运行
1.2 如何进行监控,比如我们需要监控磁盘的使用率
如何查看磁盘使用率 df -h
监控磁盘的那些指标 block、 inode
如何获取具体的信息 df -h
获取的数值到达多少报警 80%
1.3 流行的监控工具
Zabbix
Lepus(天兔)数据库监控系统
Open-Falcon 小米
Prometheus(普罗米修斯, Docker、 K8s)
1.4 如果去到一家新公司,如何入手监控
硬件监控 路由器、交换机、防火墙
系统监控 CPU、内存、磁盘、网络、进程、 TCP
服务监控 nginx、 php、 tomcat、 redis、 memcache、 mysql
Web 监控 请求时间、响应时间、加载时间、
日志监控 ELk(收集、存储、分析、展示) 日志易
安全监控 Firewalld、 WAF(Nginx+lua)、安全宝、牛盾云、安全狗
网络监控 smokeping 多机房
业务监控 活动引入多少流量、产生多少注册量、带来多大价值
第2章 单机时代如何监控
CPU
监控命令: w、 top、 htop、 glances
%Cpu(s): 0.3 us, 0.3 sy, 0.0 ni, 99.3 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st us 用户态: 跟用户的操作有关 35% sy 系统态: 跟内核的处理有关 60% id CPU 空闲:
内存监控命令: free
1 | [root@ssh-61 ~]*# free -h* total used free shared buff/cache available Mem: 976M 396M 125M 7.4M 454M 392M Swap: 0B 0B 0B |
磁盘监控命令: df
、iotop
1 | Device: tps kB_read/s kB_wrtn/s kB_read kB_wrtn |
网络监控命令: ifconfig
、 route
、 glances
、 iftop
、 nethogs
、 netstat
1 | 单位换算 |
2.随着时间的推移,用户不断的增多,服务随时可能扛不住会被 oom(out of memory),当系统内存不足的时候,会 触发 oom
当系统内存不足的时候就会大量使用 swap
当系统大量使用 swap 的时候,系统会特别卡
注意: 有时可能内存还有剩余 300Mb-500Mb,但会发现 swap 依然被使用
1 | [root@ZabbixServer ~]# dd if=/dev/zero of=/dev/null bs=800M |
3.那单机时代,如何使用 shell 脚本来实现服务器的监控
需求: 每隔 1 分钟监控一次内存,当你的可用内存低于 100m,发邮件报警,要求显示剩余内存
怎么获取内存可用的值 free -m|awk ‘/^Mem/{print $NF}’
获取到内存可用的值如何和设定的阈值进行比较
比较如果大于 100m 则不处理,如果小于 100 则报警
如何每隔 1 分钟执行一次
1 | [root@ZabbixServer ~]# cat free.sh |
第3章 zabbix 监控快速安装
1.配置zabbix仓库
官方RHEL 7:
1 | rpm -ivh https://repo.zabbix.com/zabbix/4.0/rhel/7/x86_64/zabbix-release-4.0-1.el7.noarch.rpm |
阿里源:
1 | https://mirrors.aliyun.com/zabbix/zabbix/4.0/rhel/7/x86_64/zabbix-release-4.0-1.el7.noarch.rpm |
2.安装 Zabbix
程序包,以及MySQL
、 Zabbix-agent
1 | [root@m01 ~]# yum install -y zabbix-server-mysql zabbix-web-mysql zabbix-agent mariadb-server |
3.创建 Zabbix 数据库以及用户
1 | [root@m01 ~]# mysqladmin password 123456 |
4.导入 Zabbix 数据至数据库中
1 | [root@m01 ~]# cat /usr/share/doc/zabbix-server-mysql-4.0.11/create.sql.gz | mysql -uzabbix -pzabbix zabbix |
5 编辑/etc/zabbix/zabbix_server.conf 文件,修改数据库配置
1 | [root@m01-61 ~]# grep "^DB" /etc/zabbix/zabbix_server.conf |
6.启动 Zabbix 服务进程,并加入开机自启
1 | systemctl start zabbix-server.service |
7.配置 Apache 的配置文件/etc/httpd/conf.d/zabbix.conf,修改时区
1 | [root@m01-61 ~]# grep "Shanghai" /etc/httpd/conf.d/zabbix.conf |
8.重启 Apache Web 服务器
1 | systemctl start httpd |
第4章 WEB界面安装步骤
1.浏览器打开地址:http://10.0.1.61/zabbix/setup.php
2.检查依赖项是否存在异常
3.配置zabbix连接数据库
4.配置 ZabbixServer 服务器的信息
5.最终确认检查
6.安装成功
7.登陆zabbix
默认登陆 ZabbixWeb 的用户名 Admin,密码 zabbix
8.调整字符集为中文
9.修复中文乱码
打开图形之后会发现语言为乱码,原因是缺少字体
解决方法:安装字体并替换现有字体
1 | yum install wqy-microhei-fonts -y |
再次刷新发现已经变成中文了
第5章 Zabbix 监控基础架构
zabbix-agent(数据采集)—>zabbix-server(数据分析|报警)—> 数据库(数据存储)<—zabbix web(数据展示)
第6章 zabbix 快速监控主机
6.1 安装zabbix-agent
1 | rpm -ivh https://mirror.tuna.tsinghua.edu.cn/zabbix/zabbix/4.0/rhel/7/x86_64/zabbix-agent-4.0.11-1.el7.x86_64.rpm |
6.2 配置zabbix-agent
1 | [root@web01 ~]# cat /etc/zabbix/zabbix_agentd.conf |
6.3 启动zabbix-agent并检查
1 | [root@web01 ~]# systemctl start zabbix-agent.service |
6.4 zabbix-web界面,添加主机
第7章 自定义监控主机小试身手
1.监控需求
监控TCP11种状态集
2.命令行实现
1 | [root@web01-7 ~]# netstat -ant|grep -c TIME_WAIT |
3.编写zabbix监控文件(传参形式)
1 | [root@web01-7 ~]# cd /etc/zabbix/zabbix_agentd.d/ |
4.server端进行测试
1 | [root@m01-61 ~]# rpm -ivh https://mirrors.aliyun.com/zabbix/zabbix/4.0/rhel/7/x86_64/zabbix-get-4.0.1-1.el7.x86_64.rpm |
5.web端添加
6.克隆监控项
7.创建图形
8.查看图形
9.设置触发器
第8章 邮件报警
1.定义发件人
2.定义收件人
3.自定义报警内容过
定制报警内容:
https://www.zabbix.com/documentation/4.0/zh/manual/appendix/macros/supported_by_location
参考博客:https://www.cnblogs.com/bixiaoyu/p/7302541.html
发送警告
:
1 | 报警邮件标题可以使用默认信息,亦可使用如下中文报警内容 |
恢复警告
:
1 | 恢复标题:恢复{TRIGGER.STATUS}, 服务器:{HOSTNAME1}: {TRIGGER.NAME}已恢复! |
第9章 微信报警
1.查看配置文件里的脚本目录路径
1 | [root@m01-61 ~]# grep "^AlertScriptsPath" /etc/zabbix/zabbix_server.conf |
2.将weixin.py放在zabbix特定目录
1 | [root@m01-61 /usr/lib/zabbix/alertscripts]# ll |
3.配置发信人
4.配置收信人
5.登陆企业微信公众号添加账户
https://work.weixin.qq.com/wework_admin/loginpage_wx
1.登陆后在企业号上新建应用
2.上传logo,填写应用名称 ,应用介绍等
3.查看启动应用
同时会生成应用的AgentId以及Secret,这个在后面步骤会有用
4.接口调用测试
http://work.weixin.qq.com/api/devtools/devtool.php
这里的corpid为公司ID
Corpsecret就是刚才创建应用生成的Secrt,确认没问题填写进去然后下一步
如果没问题会显示200状态码
6.添加成员
7.关注公众号
8.查看自己的账号
9.修改脚本里的信息
1 | [root@m01 /usr/lib/zabbix/alertscripts]# cat weixin.py |
10.发信测试
1 | [root@m01 /usr/lib/zabbix/alertscripts]# python weixin.py 你的账号 '发信测试' ‘微信测试消息’ |
11.微信号上查看
第10章 自定义模版
1.监控TCP11种状态
编写zabbix配置文件
1 | [root@web01 /etc/zabbix/zabbix_agentd.d]# cat tcp_status.conf |
或者另一种写法
1 | [root@web01-7 /etc/zabbix/zabbix_agentd.d]# cat tcp_status.conf |
2.重启zabbix-agent
1 | systemctl restart zabbix-agent.service |
3.测试监控项
1 | [root@m01-61 ~]# zabbix_get -s 10.0.1.7 -k tcp_status[TIME_WAIT] |
4.导入模版文件
5.主机关联模版文件
6.查看最新数据
7.查看图形
第11章 自定义模版监控nginx状态
1.开启监控页面并访问测试
1 | [root@web01-7 /etc/nginx/conf.d]# cat status.conf |
2.准备nginx监控状态脚本
1 | [root@web01-7 /etc/zabbix/zabbix_agentd.d]# cat nginx_monitor.sh |
3.编写zabbix监控配置文件
1 | [root@web01-7 /etc/zabbix/zabbix_agentd.d]# cat nginx_status.conf |
4.使用zabbix_get取值
1 | [root@m01 ~]# zabbix_get -s 10.0.1.7 -k nginx_status[accepts] |
5.导入模版
6.链接模版
7.查看数据
第12章 自定义模版监控php状态
1.开启监控页面
1 | [root@web01 ~]# tail -1 /etc/php-fpm.d/www.conf |
2.访问测试
1 | [root@web01 ~]# curl 127.0.0.1/php_status |
3.准备访问脚本
1 | [root@web01-7 /etc/zabbix/zabbix_agentd.d]# cat fpm.sh |
4.准备zabbix配置文件
1 | [root@web01-7 /etc/zabbix/zabbix_agentd.d]# cat fpm.conf |
5.使用zabbix_get取值
1 | [root@m01 ~]# zabbix_get -s 10.0.1.7 -k php-fpm["total processes",http://127.0.0.1/php_status] |
6.导入模版
导入之后需要修改一下模版里的宏配置
第13章 WEB监控
需求,监控页面状态码
第14章 故障记录
故障1
故障现象:
提示zabbix-server is not running
报错日志:
1 | 34983:20190807:202215.171 database is down: reconnecting in 10 seconds |
故障原因:
zabbix-server的配置文件里配有配置数据库密码
故障解决:
添加正确的数据库账号密码信息
1 | [root@m01 ~]# grep "^DB" /etc/zabbix/zabbix_server.conf |
故障2
故障现象:微信报警失败
报错日志:
1 | [root@m01 ~]# tail -f /var/log/zabbix/zabbix_server.log |
问题原因:
缺少模块 requests
问题解决:
安装缺失的依赖包
1 | yum install python-pip |
故障3
故障现象:
在server端使用zabbix_get命令测试键值命令时提示警告
1 | [root@m01 ~]# zabbix_get -s 10.0.1.7 -k ESTABLISHED |
问题原因:
zabbix_agent是以普通用户zabbix
运行的,而普通用户执行netstat -antp
时会有警告,网上查找发现只要不是用p参数就可以以普通用户运行
解决方案:
监控脚本里的命令修改为netstat -ant