« チラシの裏 | メイン | 京都、謎の都 »

2005年12月17日

Kernel Panic ~魔のメッセージ~ [ 日記の類 ]

 針生です。
 久々にこの文字を読んで、泣きそうになった針生です。

 いや、ね。

 バイト先に、Redhat君な社内サーバあるんです。いや、あったんです。
 殆ど実験機だったんですが、ただ一つ、彼には仕事があって、毎朝、7時7分に、針生が組んだスクリプトで、ウェブ上に公開されているサーバのDBのミラーリングをし、その集計をして、ブラウザから見れるようにしてくれてたんです。

 が。

 先日、サイボウズで謎のメッセージが。
最近集計が取れません

 はて。
 しかも、「最近」て。

 取れなくなった日に言って欲しかったなぁ、と思いつつまぁ、出勤してなかったら仕方ないかと針生もブラウザから集計を見ます。

 ……

 PHPがどうやら、ポスグレに繋げていません

 何も弄ってないのに何故? とか思いながら、とりあえずこう言うときは入って見るべし、とか思った針生、SSHでログインしようとします
 が。

 通らない。っていうか、タイムアウトする

 これまた何故?

 悩む針生。トコトン悩む
 悩んだ末、やっと、「社内サーバなんだから行ってコンソール叩こうぜ針生とか言い聞かせてやっと立ち上がります。

 で、目にした物は……;
 もの凄い勢いで流れる

 EXT3-FS error だとか
 end_request: I/O error だとか

 ヤバい、これは非常にヤバい。
 物理的な問題だ。

 然し何故こんな状態でApacheとPHPは動いてるんだ?
 悩む針生。しかし、サーバはとにかくエラーを吐く

 仕方ない

 表示するのに必死らしくキー入力すら受け付けないのでしゃーなしでリセットボタンを押す針生。
 電子音の後に立ち上がるRedhat君。

 hogehoge... [OK]
 Postgres... (dma hda(略

 コレダーーーー!

 どうやら、ポスグレが使っている領域あたりが半死半生らしく、I/Oタイムアウトを繰り返してます。
 そして、最終的に彼が下した判断は


 Kernel Panic


 まずい、非常にまずい

 針生、サーバ上で動かしてたスクリプトを持ってません
 っていうか、サーバ上でemacsで書いた覚えすらあります

 アレがないと、復旧どころか移転すらできないではないか

 って事で、冷たく諦めた視線を投げる彼の電源を落とし、針生、マイ作業マシン前まで帰ってきます。
 上司にCD-Rを一枚貰って、急遽Knoppixを焼き、またサーバへ。

 いつの間にやら素敵に格好良く成ってるKnoppixを見て少々驚きつつも使う物はコンソールだけなんで取りあえず黒背景で作業です。

 e2fsck -c -f -p /dev/hda3

 鯖管なら出来れば打ちたくないコマンド予後不良なのも分かっているコマンドを叩きます。
 カリカリ頑張って不良セクタを探し始めるRedhat君

 針生、その日は彼に任せ放置して本作業をして、帰りました。

 で、次の日。

 モニターをつけた針生は「エラーは直したよ」的に頼りがいのある言葉を読んで、この隙に、と思いつつ再起動


 Postgresのところで止まらずにちゃんと起動します


 よし! と言わんばかりにFTPで全部ファイルを吸い上げます。
 そんな間にも、何故かまたサーバのスクリーンには

 EXT3-FS error だとか、
 end_request: I/O error だとか。

 どんどん壊れます。やはり壊れかけHDDは砂の城です。
 間に合ってくれ! 頼む! と念じると何故か止まるスクリーン

 何か治ったっぽい、とうきうきで作業をする針生だったのですが。

やっぱり見れません

 ぇぇぇぇぇ……?(やっぱりぃ?)

 サーバにSSHでログイン……出来た

 ls

 ちゃんとファイル一覧が出た

 

 ls -la
 バスエラー

 何それ!?

 未だかつて見たことの無いエラーが出ます。
 何かあからさまに分りやすい5文字のエラー

 大丈夫、データはある。復旧は可能だ

 そう自分に言い聞かせながら、とりあえずApacheが立ってなかったようなので立てる

 

 バスエラー

 ファイルを触ろうとするとバスエラー
 しまいには、suした直後の、.bashrc読み込みに対してすらバスエラーとかのたまい出す

 砂の城は砂の城だった
 結局捨てて別のサーバに入れ直したよ。


 っていうか、これ社内サーバで良かったよね
 もしこれ、自社サーバでもデータセンターに置いてあるサーバだったら針生泣きながらバイク飛ばしてデータセンターまで行って指紋認証してたよ。

 結論
・ほう・れん・そう、大事
バックアップは取ろう。
・物理的に壊れることは確実にある
ピンチに触れれて経験にはなったのかもしれない
でももう嫌。かといってテストサーバ如きにRaid何か組んでられない現実。

投稿者 hiroto : 2005年12月17日 00:45

トラックバック

このエントリーのトラックバックURL:
http://www.divby0.com/mt/mt-tb.cgi/179

コメント

乙でした(;´Д`)

んま、バックアップも取らずに鯖飛んで初めて慌てふためくとこですから、あそこはw
んで、鯖飛んで初めて認知される鯖管という立場。もっと早く関心持ってもっと早く金出せy(ry

投稿者 hirossy : 2005年12月17日 15:47

いやはやそして鯖管がテストサーバだと安心して思いっきりバックアップ忘れてた報いかもですよ(笑)
しかし…バックアップ体制はないですね…某アプリサイトもこの間一瞬止まったし…
危うい…

投稿者 はりう : 2005年12月26日 23:28

コメントしてください




保存しますか?


スパム防止にご協力下さい