本日早朝にSlackに投稿させてるZabbixのアラートが38件近くに達しました。 何事かと思って確認したところ、CPU温度が60度前後を往復し、WarningとRecoverを繰り返し送信しており、 さらにはbusy process, busy poller process数が300で多すぎるとか言われて、 CPUのio waitも55%となっていました。

対応

まだログを詳しく確認したわけではないが、まず間違いなくclamAVのcron実行によるものだと思われます。 単にdocker Imageなど複数作ったりで使用ストレージ量増えたためか、 それともdocker, nvidia-docker動作中にうまく実行ができなかったためか不明だが確認したいところです。

まずはZabbixの温度グラフなども1日単位で確認できるので、詳しく確認してみます。

Zabbixのグラフ確認

幸いZabbixの導入によりリソース監視を行っていたため、発生前後の状況を確認できます。 問題の発生した12/25の2時ごろのCPUとGPUの負荷を確認してみます。

CPU

まずはCPUの負荷状況です。上から順にCPUの温度、負荷、使用率となっています。

明らかに2時ころから一気に温度・負荷・使用率のすべてが跳ね上がっていることが分かります。 特にCPU使用率がほぼ100%近くに達しているのはあまりよろしくなさそうです。

GPU

GPUの温度と使用率が次のグラフになります。

こちらは問題発生の2時前後でも一定となっており、問題の原因となって位はいないように見えます。

まとめ

Zabbixのリソース監視の結果からCPU温度・負荷・使用率のすべてが上昇したことが分かりました。 次の記事でこの問題に対処していきたいと思います。