サーバーがフリーズしました – サーバーは負債


サーバーがフリーズしました。地獄です。
サーバー管理などやるものではない。つくづく思います。
「宗教上の理由でサーバー管理はしない」と公言しているのですが、なんやかんやでサーバー絡みのトラブルに巻き込まれます。
ホントキツイ。

今回の現象と原因

忙しい人の為、今回の現象と解決策だけ先に述べておきます。

〇環境
【OS】Windows Server
【環境】仮想環境 ハイパーバイザー型 VMware ESXi

〇現象
金曜の朝出社すると、現場からアプリケーションが起動しないとの連絡。
直接データベースサーバーへ接続しようとするとサーバーが見つからないと言われる。
OSにリモートデスクトップでつなごうとしても見つからず。
仮想環境VM Ware Sphereのコンソールを立ち上げるとOSのログイン画面で完全にフリーズ。
マウス入力も何も受け付けない状態。
伝家の宝刀、再起動コマンド。
パフォーマンスモニタでログを取り状況を確認すると
木曜の深夜~金曜の早朝にかけてちょこちょこ息を吹き返すのですがCPUが100%に張り付き不定期にフリーズ。
何故?

かれこれ一ヵ月悩みました。
特に僕を悩ませたのは金曜日だけに発生するということ。

で、辿り着いた原因が以下。

〇原因
直接の原因はVMWareの機能でとれるスナップショットの消し忘れ。
スナップショットはOSの状態をスナップショットを取った時点に簡単に戻せる機能です。
木曜の深夜~金曜の早朝に発生するのは、OS側がそのタイミングでデフラグを走らせるからみたい。
そんなん、知らんわ。そもそもデフラグなんて言葉、久しぶりに聞いた。
Windows98以来?

スナップショットを用いることは、ストレージI/Oの複雑性をもたらします。スナップショットの特性上、すべての read 処理は、返却すべき正しいディスクブロックを検証するため、すべてのスナップショットディスクとベースディスクを走査する必要があります。これらの拡張された read 処理が必須であるため、スナップショットは、仮想ディスクのディスクフォーマットとして、最もパフォーマンスが集中するディスクとなります。( シン・プロビジョニング、シック・プロビジョニングもしくは、eager zeroedシック・プロビジョニングに対して)
仮想マシンのスナップショット活動中、高い値の co-stop (%CSTP) が表示 (2033239)

原因の説明として関係者には、この記事を添付しメールしました。

もちろんこんな記事、全く理解していません。
「シン・プロ?ん?ん?何それ。こわーい。」
くらいの理解です。
マジ10文字程度で説明して欲しい。

意欲的な若手から記事について質問されたのですが「ちゃんと読め」とだけ答えておきました。
他は何も聞いてきません。よっしゃ。

何はともあれ、スナップショットを削除してフリーズは解消したというわけですわ。

素人がサーバーを抱えるリスク

僕はあくまでプログラマーです。
インフラ周りには、さほど詳しくありません。

ソケット通信を自作することはできても、
ネットワークの基本OSI参照モデルも空で言えません。

「あ?サブネットマスク?デフォルトゲートウェイ?俺に聞くな!ググれ。」
「クラスC?セグメント?知らん、死ねカス。」
てなもんよ。

そんな僕でもある程度の心得はありますから多少勘は働きます。
しかし、製造業畑の人達がサーバーを抱えるのはどうなのでしょう。
サーバーというのは開発者には有難い存在ですが、
利用者には維持費と時間と知識が必要な負債でしかありません。

サーバーは負債

お。どっかで聞いた名言が生まれました。
流行らせていいですよ。

僕のぼやき

多くのシステムではサーバーを要求してきます。
データを溜めたり共有するのでしょうか。
Webサービスやアプリケーションサーバーでしょうか。

よく新しいシステムを導入する人に聞かれることがあります。
「このシステム入れようと思うんだけど、サーバー何台必要かなぁ。」

僕は「やりたい事次第です」と答えます。
しかし本音は「そのレベルでは、サーバーなんて抱えない方が良いですよ」です。

悪い事は言いません。
クラウドに頼るなり、別の手段を探してください。
後、僕を頼らないで。

ま、そんなこんなで久しぶりに明るい休日を迎えられたというわけです。
ちゃんちゃん。

おわり


コメントを残す

メールアドレスが公開されることはありません。