Debian Stretch 9.3で温度監視の設定を行っていきます。

前回でディープラーニング・マイニング用のNvidia-Dockerの導入を行いました。両者とも長時間でGPUをフルに使う運用となるため、温度問題などへの対処も必要と考えられます。

そこで、本記事からはマシンの温度や負荷の監視を行えるように設定を整えていくことにします。まず本記事では温度管理に必要なパッケージの導入と確認素行います。

温度確認に必要なパッケージ

温度確認を行えるパッケージはいくつかありますが、MB、CPUの温度はlm-sensorsで、HDDの温度はhddtemp、GPUはNvidiaならnbidia-smiで確認ができます。なお、SSDについてはhddtempで確認できるようですが、追加の設定が必要となるようです。

各パッケージについて順に導入と設定の確認を行っていきます。

lm-sensorsの設定

使用するdebian 9.3.0ではすでに導入済みでした。

sensors-detectコマンドでハードウェアのセンサーをスキャン出来ます。

$ sudo sensors-detect

スキャン後、現在のセンサーの状況をsensorコマンドで確認します、

$ sensors
acpitz-virtual-0
Adapter: Virtual device
temp1:        +27.8°C  (crit = +119.0°C)
temp2:        +29.8°C  (crit = +119.0°C)

coretemp-isa-0000
Adapter: ISA adapter
Physical id 0:  +21.0°C  (high = +80.0°C, crit = +100.0°C)
Core 0:         +21.0°C  (high = +80.0°C, crit = +100.0°C)
Core 1:         +21.0°C  (high = +80.0°C, crit = +100.0°C)

使用CPUであるi3の2コアそれぞれの温度や、マザーボードの温度などが確認できました。

hddtemp

HDDの温度確認を行います。

$ sudo hddtemp /dev/sda
/dev/sda: WDC WD20EFRX-68EUZN0: 27°C

使用HDDの型番と温度が無事に表示されました。

また、$ sudo systemctl status hddtempを見てみるとactiveになっており、hddtempはサービスとして正常に起動しているようです。

nvidia-smi

nvidia-drivers, nvidia-smiは以前の記事で導入済みなので、その動作を確認します。

$ nvidia-smi
Sat Dec 16 xx:xx:xx 2017
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 375.82                 Driver Version: 375.82                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GeForce GTX 1070    Off  | 0000:01:00.0      On |                  N/A |
|  0%   29C    P8    11W / 185W |     97MiB /  8113MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID  Type  Process name                               Usage      |
|=============================================================================|
|    0       548    G   /usr/lib/xorg/Xorg                              95MiB |
+-----------------------------------------------------------------------------+

GPUのGeforce1070が正しく認識されており、温度も表示されています。

参考

以下の記事を参考としました。

今後

次回からは、上記のコマンドを使って、定期的にリソース監視を行うZabbixの導入を行っていきたいと思います。