うちのサーバシステムは、CPUに DELL T110II を2台、ストレージに、QNAP TS-412 を使っております。
仮想化は、無償版 VMware ESXi 5.5 Update2、ストレージとの接続はNFS。QNAPを使うことを選んだのも、NFSをサポートしてるからなんですね。まぁ、買ったあとに、iSCSI もサポートしてて、これでも ESX とつながることは後でわかったんですが、結局 NFS でつないでおります。
で、本題
突然、仮想マシンのレスポンスが以上に遅くなるという現象がでました。あれこれ調べてみたところ、こんな異常が見つかるではありませんか
- vShpere Client でホストのデータストアパフォーマンスを見ると、読み取り待ち時間、書き込み待ち時間が最大で 1500msec くらい記録されてる
- TS-412 のリソースモニターで、CPU使用率が70%異常、100%もたまにでてる
- 同リソースモニターで、メモリ使用率が50% を超えたあたりをふらふらしてる
- TS-412にSSHでログインして、top コマンドをたたくと、Load 値が10付近になってる
どーやら、TS-412が過負荷状態に陥っているために、ストレージの応答が遅れて、仮想マシンの動きが遅くなったらしい。
ただし、ここであげたうち 4. はさほど問題ではなかったっぽい。あとで分かったことだけど。
TS-412 の uptime を確認したところ、570日くらい動き続けてるようで、なんかいろいろ溜まったんだろうなぁ・・・と、再起動を決意いたしました。まぁ、これが大変!全仮想マシン止めないといけないので、半日仕事です。
で、TS-412と、ESXを再起動してみたんですが、直りませんでした!そもそもシステムにかけてる負荷が高すぎたようです。
というわけで、対策
- 稼動する仮想マシンを 41台から37台に削減
- ESXホストの「仮想マシン スワップファイルの場所」をTS-412ではないところに変更
これでとりあえず落ち着きました。
落ち着いたあとのリソースモニターの結果はこんな感じ
vShpere Client のディスク待ち時間本当は、100msecでも十分に遅いんですが、まぁ妥協しましょう。
これもまぁ、低いとはいえませんが、上に張り付いてる状態よりははるかにマシってことですね。
というわけで、結論
- TS-412の性能では、仮想マシンは40台くらいが限度
- TS-412の性能限界は、CPUが律速になる
- 仮想マシンの性能はストレージ性能が律速
あと、たぶん、がんばった全システム再起動は無意味だった模様。TS-412、ESXともに600日くらいなら問題なく動きそう
コメントする