Netflixでクリスマスイブに発生した障害の詳細なレポート
2012年12月24日、Amazon Web Serviceのロードバランサーサービス、Elastic Load Balancer (ELB) で発生した障害はアメリカの多くのネットサービスに影響しました。その中でも特に大きな影響を受けたのがAmazon Web Serviceの大型ユーザである動画配信サイト、Netflixです。Netflixで発生した障害についてはメディアの記事にもなっていますが、Netflixの技術ブログに詳細なレポートが投稿され話題になっていました。
太平洋時間午後12時30分から発生した障害はテレビに接続するデバイスへの再生の北米、ラテンアメリカ向けのサービスに影響を及ぼしました。それ以外の地域、イギリスや北欧諸国では影響は無かったとの事です。このような形で影響範囲が分かれた背景にあるアーキテクチャを記事では解説しています。
Netflixは何百ものELBを使っています。それぞれのELBが別個のサービスや異なるバージョンのサービスをサポートしブラウザやデバイスからの呼び出しに応じてネットワークアドレスを提供します。Netflixのストリーミングはここ数年で千以上の異なる種類のデバイスに実装され、似通ったデバイスはしばしば同一のELBに依存します。デバイスはELBを通じてNetflixの大部分のアプリケーションを実行しているサーバーにリクエストを行います。Netflixが使っている何百ものELBの障害はバックエンドのサーバーへリクエストを通過させる事ができなくなる厄介な問題です。その他のNetflixのアプリケーションには問題はありませんでした。我々のアプリケーションは何らかの形でリクエストが通った場合は通常どおり応答していました。
この解説から見えてくるのは大量のデバイスごとのゲートウェイと実際の配信部分やWebサイトの機能などを分離して実装しているという構造です。幸いクリスマスイブは家族とストリーミングを見る以外の方法で過ごす人が多いのでトラフィックは必ずしも多い日ではなかったようです。またゲーム機などのコンソールは影響を受けましたが、PC向けなど影響が無かったサービスがあったという現象は上記の構造からと推測できます。
エントリは今後も障害の影響を受けない構造を目指して改善を続けていく事と求人の案内をした上で締めくくられていました。
via:http://techblog.netflix.com/2012/12/a-closer-look-at-christmas-eve-outage.html
コメントを残す