|
|

楼主 |
发表于 2009-9-11 09:00:04
|
显示全部楼层

运用 Nagios 实现对网络上服务器的监控
3.1实现原理
处于网络中的各种服务器需要管理和维护,管理员不可能及时对每一台的状态都进行监控,这时候当然需要借助软件的功能来实现了。Nagios的功能是监控服务和主机,但是他自身并不包括这部分功能,所有的监控、检测功能都是通过各种插件来完成的。启动 Nagios后,它会周期性的自动调用插件去检测服务器状态,同时 Nagios 会维持一个队列,所有插件返回来的状态信息都进入队列,Nagios每次都从队首开始读取信息,并进行处理后,把状态结果通过 web 显示出来。Nagios 提供了许多插件,利用这些插件可以方便的监控很多服务状态。安装完成后,在nagios 主目录下的/libexec 里放有 nagios 自带的可以使用的所有插件,如,check_disk 是检查磁盘空间的插件,check_load是检查CPU负载的,等等。每一个插件可以通过运行./check_xxx –h 来查看其使用方法和功能。Nagios 可以识别 4 种状态返回信息,即 0(OK)表示状态正常、1(WARNING)表示出现一定的异常、2(CRITICAL)表示出现非常眼中的错误、3(UNKNOWN)表示被监控的对象已经停止了。Nagios 根据插件返回来的值,来判断监控对象的状态,并通过 web 显示出来,以供管理员及时发现故障。
3.2利用 Nagios 的 NRPE 插件实现网络上服务器的监控
知道 Nagios 是如何通过插件来管理服务器对象后,现在开始研究它是如何管理远端服务器对象的。Nagios 系统提供了一个插件 NRPE。Nagios 通过周期性的运行它来获得远端服务器的各种状态信息。它们之间的关系如下图 3 所示:
图 3? Nagios 通过 NRPE 来远端管理服务
1.Nagios 执行安装在它里面的 check_nrpe 插件,并告诉 check_nrpe 去检测哪些服务。
2.通过 SSL,check_nrpe 连接远端机子上的 NRPE daemon
3.NRPE 运行本地的各种插件去检测本地的服务和状态(check_disk,..etc)
4.最后,NRPE 把检测的结果传给主机端的 check_nrpe,check_nrpe 再把结果送到 Nagios状态队列中。
5.Nagios 依次读取队列中的信息,再把结果显示出来。
下面通过一个监控远端服务器 CPU 负载情况的实例,研究如何实现通过 NRPE 来管理远端服务器。假设有一台远端服务器的 IP 是 10.20.0.110,Nagios 服务主机 IP 是:10.20.10.1。它们都已经安装上了 nagios 系统,主机通过 NRPE 检查运行中的服务器 CPU 的负载量,当负载量超过80%是发出警告(WARNING)报告,超过95%时发出紧急(CRITICAL)报告。在Nagios 的插件中存在 check_load -w $ARG1$ -c $ARG2$插件,通过查看其帮助,当 Nagios 调用它时,就会去检查对象主机的CPU负载,达到$ARG1$指定的数值时就会发出警告(WARNING),达到$ARG2$时发出紧急报告(CRITICAL)。
这个操作用来预先检查 nagios 配置的是否正确。如果没有错误,开始运行 Nagios。
service nagios start (后面也可跟这些:restart, stop, reload.),也可以这样启动: /usr/local/nagios/bin/nagios -d /usr/local/nagios/etc/nagios.cfg
Nagios 启动正常后,登录到 nagios CGIs
打开浏览器,输入 http://主机 IP/nagios/如果配置正确将会进入到nagios的监视界面,然后可以查看没人情况下主机被监视的细节数据。如果出现提示“Internal Server Error”,这可能是本机上安装并正在运行Redhat Linux. 首先查看 Linux 是否处于 Enforcing 模式getenforce然后把 Linux 置为 permissive 模式setenforce 0重新打开浏览器就可以看到被 Nagios 监控的服务了。
现在访问nagios的服务器web界面,界面如下图2。 |
|