さくらインターネットで借りていたVPS。
3月半ば、ハードウェアの不具合が認められたとかで、ハード交換のメンテナンスがなされたのだが、その作業完了後にデータの不整合で起動しない問題が起きた。(データが吹っ飛んだ)
エイプリルフールじゃないよ!
プランはSSDタイプで、同様の問題が起きていたことは、このVPSを契約する前からTwitter等で知っていたので、怖いなーとは思っていたのだが…。(そして、一年後の今)
今回の事件発生から復旧まで
1日目
[1] 早朝〜朝ぐらいにCPU使用率やトラフィック量等が通常とは異なる動きになる(目視で確認)
[2] 昼すぎに、ハードウェア障害とのことで緊急メンテナンスが入る(この時点で、障害一覧ページに載る)
[3] 19時頃、サポートから緊急メンテナンスを実施したことを通知するメールが届く(ここでようやくダイレクトな通知がきた)
メールでは、契約中のVPSがデータ不整合にて起動しないことが説明されていた。
そして対処法だが、
・お客様自身でOS再インストール(任意)
・お客様自身のバックアップから復旧(任意)
・さくらインターネットが保持している、2日前のバックアップから復旧
…この中から選んで下さいとのことだった。
自身でバックアップは取ってあるのだが、環境再構築が面倒だったのと最新のデータが必要なわけではなかったので、さくらが保持しているバックアップから復旧を頼むことにした。(2日前のだし)
[4] 夜20時頃、さくらのバックアップから復旧を依頼するメールをサポートに送信
〜この後、翌朝まで連絡なし〜(18時を過ぎたので、対応時間外と思われる)
2日目
[5] 翌朝10時すぎ(営業開始頃)念のためサポートに電話。メールで復旧依頼を送ったことを伝える。
(朝いちばんでしたが、応対は親切な方でした)
[6] 11時頃、復旧が完了したとのメールが届く。
作業完了のメールが届いたあと、問題なく起動していることが確認できた。
【下記画像】復旧して、しばらくは高いSteal値(グラフ記録開始時点が復旧完了時)
なお、復旧が終わってから数時間は、同じサーバに収容されている他のVPSの復旧が重なっているとのことで、MuninのCPU使用率を見るとSteal値が極めて高くなっていた。(Load Averageも目一杯まで上昇)
障害が発生してからメンテに入るまで6時間くらい、復旧が完了するまでは1日くらい掛かった。
データの不整合が発生したタイミングは?
データの不整合が、
- ハードウェアを交換した後に発生したのか
- 不整合が認められたからハードウェアを交換したのか
…はハッキリしなかった。
今回の障害告知ページを見ると、「VPSに接続できなくなる障害が発生しました」と明記されていて「そのためハードウェアの交換を行った」と読める。
過去の事例を見ると、「ハードウェアの交換作業を実施したから(実施後に)、データの不整合が発生した」ように見えなくもない。
復旧したからいいものの、細かい話しではあるが。
バックアップはお忘れなく
今回は、さくらが2日前のデータを保持してくれていたが、バックアップはサービスに含まれていないし、何時のデータが残っているのかも約束されていない。
過去の事例と、どれくらい前のバックアップが残っているのかを見ると、
【2014年9月に発生】
続・さくらVPSのSSDプランでディスク障害をくらった。- satoweb_log
http://satoweb.net/archive/4455
→バックアップは1ヶ月前
【2015年3月に発生】
VPSでハードウェア障害に遭い、復旧せず。(教訓)- ブログ名の設定は、まだ。
http://dame3212.net/2015/12356.html
→バックアップは2週間前
…と、だんだん間隔は縮まってきているのかもしれないが、今回は運が良かっただけかもしれない。
当然だがバックアップの大切さを改めて経験することになった。
1日サーバが落ちたままとか正直笑えませんでした。(個人的に深夜仕事は反対なのだが、こういう緊急時にはもうちょっと早く対応してほしい。ま、専用サーバとの違いはコレなんだろうけど)
…スナップショットくらいは欲しいよね…ホントに。
復旧対応していただいた、さくらインターネットの技術担当・サポートの方、どうも有難うございました。
0 件のコメント :
コメントを投稿