さくらのクラウドでトラブル発生、一部ユーザーのデータ消失も発生 41
ストーリー by hylom
うーん 部門より
うーん 部門より
あるAnonymous Coward 曰く、
昨年11月にサービスを開始したクラウドサービス「さくらのクラウド」において、12月から複数のトラブルが発生しているようだ。 まず1つめは、ストレージネットワーク障害。12月9日よりホストサーバーとストレージシステム間で通信障害が発生するパターンがあり、それによりサーバーにアクセスできなくなったり、ディスクへのI/Oに失敗するという問題が発生していたとのこと。これは12月25日に対策を完了しているという。
そしてもう1つは、ディスク障害によるデータ削除。これは上記のストレージネットワーク障害とは異なるもので、「ストレージの負荷が高まる問題を改善する過程で不要データを削除するプログラムに問題があり、誤ってデータを削除してしまった」ということらしい。このトラブルに巻き込まれたのは53アカウントとのことで、こちらについては実際にデータが削除されてしまったユーザーがまとめている。また、Twitterでも同様のトラブルに巻き込まれたユーザーらによる報告Tweetが投稿されている。
オープンソースまわりでは (スコア:1)
Ubuntuの日本語チーム [ubuntulinux.jp]とかが影響を受けているようですね。
Re:オープンソースまわりでは (スコア:1)
1. 当該ホストが止まっているのは海外のとあるVPSがsuspend措置をかけてきたためです。
2. 引っ越し先がさくらなのは真実ですが、今回のデータ損失問題とはまったく関係ありません。
Re: (スコア:0)
とんでもなくオフトピだけど
HTTPなのに「WindowsXPでは正常にアクセスできないかも」って
どうやったらそんな状態になるんだろ?
UAを見て、XPだけに特殊なリソースを返すとか?
Re:オープンソースまわりでは (スコア:1)
Windows XPのIEはServer Name Indicationをサポートしていないからでしょう。Windows XP上ではIEのバージョンにかかわらず未対応です。FirefoxやChromeはSSL通信でOSのライブラリを使用しないので、Windows XP上でも問題ありません。
Ubuntu Forumはバーチャルホスト上でSSLを使っているので、Server Name Indicationに対応していないブラウザだと正常にアクセスできません。対策としてはSSLのホスト毎にIPアドレスを振るのが一般的でしたが、IPv4アドレスが枯渇して久しいので今後はどんどん難しくなってくると思います。
Re:オープンソースまわりでは (スコア:2)
FirefoxとOperaはXPでもSNIがいけますが、Chromeの通信部はOSの物に乗ってるだけなのでXP上ではSNI非対応 [srad.jp]だったはずです。
#ちょっと手元に確認できる環境はないのですが、もしかして最新版では改善されてるんでしょうか?
#少なくとも最新のChromeでもプロキシ設定でIEのインターネットオプションダイアログが出てくるのは相変わらずっぽいですが…
Re:オープンソースまわりでは (スコア:1)
> FirefoxとOperaはXPでもSNIがいけますが、Chromeの通信部はOSの物に乗ってるだけなのでXP上ではSNI非対応だったはずです。
Chromeはその後、SSL通信に関してNSSを使うように修正されています。
> #少なくとも最新のChromeでもプロキシ設定でIEのインターネットオプションダイアログが出てくるのは相変わらずっぽいですが…
プロキシ設定だけをWinInetから取得しており、実際の通信はOSに依存しないように修正されたということです。
# Webブラウザに関する情報は油断してるとあっという間に古くて役立たずになりますね。
補足 (スコア:1)
実際にWindows XP上で、FirefoxとChromeではCN=forum.ubuntulinux.jpの証明書を取得して正常にアクセスでき、IE8では証明書の検証でエラーになる(SNIに対応していないとデフォルトのバーチャルホストであるCN=www.ubuntulinux.jpの証明書を取得してしまうため)ことを確認しました。
「続行」を押せばいちおうアクセスできますが、「証明書のエラーは無視してください」ではなく「正常にアクセスできないことがあります」とちゃんと言っているのは素晴らしいですね。
Re: (スコア:0)
XPだと新しいブラウザがつかえないってことではない?
Re: (スコア:0)
IP v6関係じゃねぇの?
Re:オープンソースまわりでは (スコア:1)
現状じゃIPv6対応はしてませんね。せいぜいさくら研の6RDを使って自分で対応させなければ駄目。ってレベル。
Re: (スコア:0)
名前ベースのバーチャルホストとかなんじゃない?
この誤消去話のよろしくないところは (スコア:1)
前者のバグでスループットが出てなかった云々はちゃんとさくらが公式に情報公開してるところ、後者の間違って消しましたてへぺろ☆話は公式に一切出てきてないんですよね。
まあこの消えた云々が事実ならという前提ですが、こういう体質の会社なんだなーと思うことにしましょう。
#クラウドウォッチとかでも話が出て来るかなーと思ってたけど一切なし。むー
#公式アナウンスが出てからタレこもうと思ってたんですが
バグならやむをえない (スコア:0)
報告より
不要データの増加はストレージのパフォーマンスに影響を与えるため、
ただちに対処必要と判断し、削除ルーチンを変更し対処を行いました。
この対処過程でご利用中のお客様ディスクデータを誤って選択し削除してしまうバグが生じました。
パフォーマンスの重要度と、顧客データの喪失リスクがある削除ルーチンの重要度を比較して、
パフォーマンス対策が「ただちに対処必要」っていう判断。
この「ただちに」というのは、十分なテストを行わなかったいいわけなんだよね。
なぜなら、対策部分で下記のように書いています。
現在、削除処理を行うプログラムについて、誤ってデータを削除することがないよう、バグを完全に修正する作業を実施しました。
これが可能だと、報告書に書いているわけで、可能な措置をしなかったと・・・・。
それだけパフォーマンスが悪化していてビジネス上問題があるレベルだったんだろうけど、それをデータ損失のいいわけにしていいの?
「お客様ディスクデータを誤って選択し削除してしまうバグ」
これ、バグといえばやむを得ないものというニュアンスで書いたんだろうけど、オペミスの可能性もあるよね。
10年以上やってきて上場もしてるインフラ屋がディスクを削除してしまうようなプログラムをテストなしでぶっこむわけないんで。
それなりに技術のある相手に出す報告です。もっと正直に書けばいいのにと思うわ。
Re: (スコア:0)
>10年以上やってきて上場もしてるインフラ屋がディスクを削除してしまうようなプログラムをテストなしでぶっこむわけないんで
これを本気で信じているとしたら貴方は幸せな人生を歩んできたんだね。
きっとその偏りが私の所にきたのだろう。私の周囲では、10年以上やってて上場もしている会社が
テストもせずにプログラムをぶっこみ洒落にならない障害を起こすなんて日常茶飯事だったよ。
その私からすると、「あー年末年始泊まりこみの疲労がピークに来てたので脳内テストもまともにできない状態でぶっこんだんだろうなあ」
というのが文面から受信されました。
Re:バグならやむをえない (スコア:1)
私のエスパーによるとw
サービスインした翌日の12月にディスク障害を起こしてパフォーマンス低下してたから、
現場作業員を動員して手動で目視確認でゴミ掃除をさせてたんじゃないかな。
その作業員が、ちょっとスクリプト書いて手抜きしようとか思って実行したら、ギュンギュンデータが消えてったとかそういう情景が目に浮かぶわ。
どこぞの原発でのバケツ臨界と同じ構図
Re: (スコア:0)
あれは核燃料を濃縮する施設で原発ではないような…
エスパーから見ればみんな同じなのかもしれないけど
Re: (スコア:0)
あ、ホントだ。指摘 thanks
--
エスパー
Re: (スコア:0)
現地技術者っているんですかね?
地元雇用も取らないで東京と石狩を頻繁に行き来している姿がさくら関連ツイッターで読み取れますけど。
※そういうことをツイッターに書くのもどうかと思う・・・。
Re:バグならやむをえない (スコア:1, オフトピック)
前の発表会で聞いた話によると、石狩には10数名のスタッフがいるそうで。北海道での雇用もしているそうです。
Re: (スコア:0)
> 地元雇用も取らないで東京と石狩を頻繁に行き来している姿がさくら関連ツイッターで読み取れますけど。
「東京と石狩を頻繁に行き来している人がいる」からどうやったら「地元雇用も取らない」が導けるんだろう。
Re: (スコア:0)
10年以上やってきて上場もしてるインフラ屋がディスクを削除してしまうようなプログラムをテストなしでぶっこむわけないんで
日常茶飯事ではありませんが、そういうケースはありますよ。
単純に大型案件では、それなりに試験もしているのですが、中小案件で短納期や低コスト案件だったりすると、発生してたりします。表に出ないのが幸いですけどね。
特に最近若い世代に体制が移行してきているので、ポカミスが多くなってる気がします。
オープン化しても、レガシー時代のノウハウは必要だと思うんだよね。
Re: (スコア:0)
私の所では10年以上やってきてるすっごい大きな会社が
10年前の手法でまだがんばってます
# ついこないだバージョン管理ソフトにCVSを使うことが決まったぜ!
Re: (スコア:0)
# 10進数の10年前ったらCVSは糞、さっさとsubversionに移行しろ、開発拠点分散してんだけどどーすんの?ってやってたころだろ
Re: (スコア:0)
そんな昔からそうなんですね
この業界入って4年なので、昔のものだとしか知りませんでした
でも今のプロジェクトでは期待一杯で導入が決まったバージョン管理ソフトらしいです><
Re: (スコア:0)
53アカウントだけってのも引っかかるよね。
バグならもっと壮大に消えてもおかしくなさそう。
規約には何かあっても知りませんって書いてたとしても、オペミスで消したと言ったら訴えられそうだもんな。
予想より期待されてたサービスでテンパったのか。
にしても専用のデータセンターまで建てて、この有様は・・・。
ディスク障害? (スコア:0)
そんな話どこにも書いてないよね。
Re: (スコア:0)
結局オペミスだったって書いてるのになんでディスク障害っていったんだろう。
Re:ディスク障害? (スコア:2)
オペレータはハードウェアの付属品だからね(ぉ
Re: (スコア:0)
公式のリリースがでる前に、データが消えてしまった顧客に対してして営業担当者が第一報として口頭説明したのは
「ディスク障害」という内容だったようですよ。
twitter 検索で #sacloud で 2012/1/5,6 あたりの発言を追いかけるとそんな感じです。
#togetterにまとめがないか探してみたがみあたらんかった。
ちょっと前のORACLE Magazineで (スコア:0)
このサービスの宣伝されてました。
なんでもZFS+InfiniBandの高スループットが採用の決め手だったとか...
しっかりテストしてありますと書いてあったんだけれど...
原因は違うんだけど (スコア:0)
WebARENAのCLOUD9も障害発生しましたよね。今も新規停止してるし。
国内の低価格帯VPS・専用サーバではでもそれなりの品質で個人的には高評価だったところなので、気になるところです。
専用サーバからクラウドへの移行も計画していたのですが、しばらくは様子見ですかねぇ。
VPSは移行するメリットそんなにないし。
βテストでやれ! (スコア:0)
クラウドなんちゃらに限らず新しいサービスは
・最低1年ぐらい様子見
・実績のある会社が始めてでっかいトラブル一回やって、その後きちんとしたレポートが出ている事を確認
の2つが出てないと怖くて使えないと言うアレゲにあるまじきヘタレとしてはあんまりきちんとしたレポートが出てないのでまだ怖いです。
ヘタレとしてはまだ使いにくいので、是非さくらたんにはきちんとしたレポートなり原因なりを公開して欲しいです。
それを除けば、正直よくある障害だしさくらたんの技術力ならきちんと対策できるレベルだと思うんで(たぶん年末年始だって事も重なって人間系のフェールセーフが上手く働かなかった事もあるだろうななどと勝手に想像して、虎馬が頭の中を駆け巡り胃が痛くなったりしているが)被害にあった方々にはお気の毒というか「βでやれ!」とお怒りの声を上げるのはごもっともだと思うけど、きちんとした原因分析が公開されればそれはそれで株を上げることができると思うんでがんばって欲しいです。
Re: (スコア:0)
誰かが人柱になれと申すか...
Re: (スコア:0)
いやいやとんでも無い。
ここはかわいく最初のペンギンって事でどうでしょうか。
真面目な話、この考え方だと先行者利益は絶対とれないんでヘタレですよ所詮は。
Re: (スコア:0)
クラウドに関しては、
>・最低1年ぐらい様子見
Amazon(AWS)のクラウドが出てから1年以上経過している。
>・実績のある会社が始めてでっかいトラブル一回やって、その後きちんとしたレポートが出ている事を確認
そのAWSが2011年4月にEC2とRDSででっかいトラブルをやって、そのトラブルについてPDF12ページに及ぶ日本語レポートを出しています。
http://aw [typepad.com]
Re: (スコア:0)
あなたは「●●会社が10年やってるサービスをうちは昨日から始めました!だから10年の実績があります」とか言う馬鹿な営業トークを信じちゃう人ですか。
幸せな人ですね。
がんがん無駄な人柱になってください。応援してます。
まあ、バックアップは取りましょうってことで。 (スコア:0)
可能な限りバックアップは取りましょうってことで、初心者向けパソコン記事の内容のまんまになりましたと。
#もちろんユーザ側の話。
Re: (スコア:0)
まあバックアップも消されたんだけどね
Re: (スコア:0)
スナップショットはバックアップではないと思うんだ
正確を期すならば「オフサイトバックアップが重要」か
Re: (スコア:0)
さくらの説明では、スナップショットのことをバックアップと説明しているから
このケースの場合はバックアップも消されたと言っても間違いではない。
つまるところ、さくらの技術的表明としてはスナップショットをバックアップとして使って問題なく、
安価なバックアップサービスという意味も含んでいたが、今回の障害ではバックアップごと消したという事実が問題なんでしょう。
無論、オフサイトにバックアップするメリットは否定しない。
桜散る・・・ (スコア:0)
ITサービスとして実績のある会社ですが、クラウドサービスの
名称としてちょっとアレですよね。
#受験生はこんなとこ見ててはいけませんよ