さくらVPSがデータ不整合の障害で起動しなくなった件

さくらインターネットで借りていたVPS。
3月半ば、ハードウェアの不具合が認められたとかで、ハード交換のメンテナンスがなされたのだが、その作業完了後にデータの不整合で起動しない問題が起きた。(データが吹っ飛んだ)

エイプリルフールじゃないよ!

プランはSSDタイプで、同様の問題が起きていたことは、このVPSを契約する前からTwitter等で知っていたので、怖いなーとは思っていたのだが…。(そして、一年後の今)

今回の事件発生から復旧まで

1日目

[1] 早朝〜朝ぐらいにCPU使用率やトラフィック量等が通常とは異なる動きになる(目視で確認)
[2] 昼すぎに、ハードウェア障害とのことで緊急メンテナンスが入る(この時点で、障害一覧ページに載る)
[3] 19時頃、サポートから緊急メンテナンスを実施したことを通知するメールが届く(ここでようやくダイレクトな通知がきた)

メールでは、契約中のVPSがデータ不整合にて起動しないことが説明されていた。

そして対処法だが、
・お客様自身でOS再インストール(任意)
・お客様自身のバックアップから復旧(任意)
・さくらインターネットが保持している、2日前のバックアップから復旧
…この中から選んで下さいとのことだった。

自身でバックアップは取ってあるのだが、環境再構築が面倒だったのと最新のデータが必要なわけではなかったので、さくらが保持しているバックアップから復旧を頼むことにした。(2日前のだし)

[4] 夜20時頃、さくらのバックアップから復旧を依頼するメールをサポートに送信

〜この後、翌朝まで連絡なし〜(18時を過ぎたので、対応時間外と思われる)

2日目

[5] 翌朝10時すぎ(営業開始頃)念のためサポートに電話。メールで復旧依頼を送ったことを伝える。
(朝いちばんでしたが、応対は親切な方でした)
[6] 11時頃、復旧が完了したとのメールが届く。

作業完了のメールが届いたあと、問題なく起動していることが確認できた。

【下記画像】復旧して、しばらくは高いSteal値(グラフ記録開始時点が復旧完了時)

なお、復旧が終わってから数時間は、同じサーバに収容されている他のVPSの復旧が重なっているとのことで、MuninのCPU使用率を見るとSteal値が極めて高くなっていた。(Load Averageも目一杯まで上昇)

障害が発生してからメンテに入るまで6時間くらい、復旧が完了するまでは1日くらい掛かった。

データの不整合が発生したタイミングは?

データの不整合が、

  • ハードウェアを交換した後に発生したのか
  • 不整合が認められたからハードウェアを交換したのか

…はハッキリしなかった。

今回の障害告知ページを見ると、「VPSに接続できなくなる障害が発生しました」と明記されていて「そのためハードウェアの交換を行った」と読める。

過去の事例を見ると、「ハードウェアの交換作業を実施したから(実施後に)、データの不整合が発生した」ように見えなくもない。

復旧したからいいものの、細かい話しではあるが。

バックアップはお忘れなく

今回は、さくらが2日前のデータを保持してくれていたが、バックアップはサービスに含まれていないし、何時のデータが残っているのかも約束されていない。

過去の事例と、どれくらい前のバックアップが残っているのかを見ると、

【2014年9月に発生】
続・さくらVPSのSSDプランでディスク障害をくらった。- satoweb_log
http://satoweb.net/archive/4455
→バックアップは1ヶ月前


【2015年3月に発生】
VPSでハードウェア障害に遭い、復旧せず。(教訓)- ブログ名の設定は、まだ。
http://dame3212.net/2015/12356.html
→バックアップは2週間前

…と、だんだん間隔は縮まってきているのかもしれないが、今回は運が良かっただけかもしれない。

当然だがバックアップの大切さを改めて経験することになった。

1日サーバが落ちたままとか正直笑えませんでした。(個人的に深夜仕事は反対なのだが、こういう緊急時にはもうちょっと早く対応してほしい。ま、専用サーバとの違いはコレなんだろうけど)

…スナップショットくらいは欲しいよね…ホントに。

復旧対応していただいた、さくらインターネットの技術担当・サポートの方、どうも有難うございました。

0 件のコメント :

PAGE TOP