2020.08.28   インフラ

Googleサービス障害の原因確認(2020年8月20日発生障害)

日本時間、2020年8月20日(木)14時頃に発生した Googleサービス障害 。当日はTwitterでもGmailの送信ができないなどの書き込みが多く見られました。
この障害についてGoogleより原因と対策が公開されています。筆者の個人的な感想も含め、その内容を確認してみました。

Google公開文書(PDF)

https://static.googleusercontent.com/media/www.google.com/ja//appsstatus/ir/bd9m3vkqwpvkk4j.pdf

障害概要

Googleにて障害があったと報告されているサービスは、Gmail、Googleドライブ、Googleドキュメント、Googleスプレットシート、Googleスライド、Googleサイト、Googleグループ、など多岐にわたり、Googleが一般ユーザー向けサービス、G Suite を使用している組織向けのサービスとして公開している全25サービスの内、11のサービスで障害が発生していた。

Googleサービス障害 一覧
(G Suite ステータス ダッシュボード引用(橙色部が障害箇所) https://www.google.com/appsstatus#hl=ja&v=status&ts=1598021999000

サービス障害情報が更新されている時間を見ると始めGmail、Googleドライブで更新されており、その後、Googleドキュメント、Meet、Google Voiceと広がっていることが分かる。

参考:Google公開の「Google Cloud Issue Summary」一部和訳

2020年8月19日20:55(日本時間2020年8月20日13:55)から03:30(日本時間同日20:30)まで、複数のG SuiteおよびGoogle Cloud Platform製品は提供開始エラー、利用不可、および配信の遅延が発生いたしました。これらのほとんどは、作成、アップロードに関係していました。コンテンツのコピーまたは配信は可能でした。
トータルの障害時間は6時間35分で、製品によって影響時間は異なりますが、ほとんどのユーザーやサービスの影響は早くに緩和されました。

原因と対応

多くのGoogleサービスはでBLOB(Binary Large OBject)と呼ばれる非構造化データを利用する為、共通の内部分散システムを使用しているとしています。
原因はこの内部分散システムへの過負荷と、それに伴うリソースの枯渇によるものとしています。

原因詳細

BLOBストレージシステムには、Google内部のクライアントサービスと接続するフロントエンド、メタデータ操作を行う中間層、BLOB自体のバックエンドストレージが含まれており、 クライアントがフロントエンドにリクエストを出すと、メタデータ操作はメタデータサービスに転送され、ストレージサービスと通信します。

Googleサービスからのトラフィックの増加により、メタデータサービスに過負荷がかかり始め、タスクが正常な動作が出来なくなり、リクエストの遅延が増加しました。
この遅延により、操作のリトライも過剰になりリソースの枯渇につながりました。

システムは自動的にメタデータタスクを起動しようとしましたが、受信したトラフィック量に圧倒され起動したタスクに十分なリソースの割り当てはされませんでした。
この問題は、失敗したリクエストをキャンセルしたり、再試行したりするシステム構造によって悪化し、トラフィックに乗算的な影響を与えていました。

対応

根本的な完全修復がされるまでに、BLOBメタデータサービスへの計算リソース割り当ての増加や、システム構造の見直しと機能追加等を上げています。(詳細は Google公開文書(PDF) をご参照ください。)

Googleサービス障害 を見て

システム的な原因について概要は理解できましたが、そもそもシステムが過負荷となった理由が気になってしまいます。

2019年末にはアクティブユーザー数が20億人を突破したというGoogleのオフィス生産性スイート「G Suite」。この途方もないユーザーが利用するシステムで通常、今回のような事象は起きていなかったと思います。
それは、これまでの増加数など検証し、余剰をもってシステム拡張されてきているからだと個人的には考えています。

しかし、今回、Googleサービスからのトラフィック増加により過負荷ということで、その原因が気になってしまいます。

昨今の新型コロナウィルス感染症の影響でリモートワークが増え、利用者数も増えているのだとは思いますが、システムに影響を与えるほど一瞬にして利用者数が増えたとも思えないと筆者は考えています。

当然、Googleでも調査はされているのだとは思いますが、 トラフィック量が増加した理由を追求することは困難なことではあると思います。
何らかのサイバー攻撃であるということも疑われるのではないかと勝手に考えています。

別の観点で見れば、障害を認識してから「G Suite ステータス ダッシュボード」による利用者への公開、復旧といったことの対応は流石としか言いようがないのではないでしょうか。
利用者は各自それぞれ影響はあったと思いますが、その範囲も現状で収まっているところは、システムの監視体制や、障害対応体制などがしっかりとされていたからではないのかと思います。
システム監視などのその重要性を今一度感じています。

[blogcard url=”https://cyberfortress.jp/mailmag-reg/”]

[blogcard url=”https://cyberfortress.jp/contact/”]

Written by CYBERFORTRESS, INC.

サイバーフォートレス CYBERTHREATS TODAY 編集チーム

サイバーフォートレスは、サイバーセキュリティ対策を提供するセキュリティ専門企業です。

セキュリティ対策や、最新のセキュリティ脅威、サイバー攻撃のトレンドなど、当社が研究開発や情報収集した内容をもとに、最新のセキュリティ脅威・セキュリティ対策についてお伝えします。

関連記事

よく読まれている記事