世界的な通信インフラ企業で、大規模な障害が起きた日のことだそうです。
十一月十八日の昼前、世界各地で同じ時刻に、ウェブサイトもアプリも一斉につながりにくくなり、「インターネットが壊れた」という言葉が、冗談半分で拡散していたといいます。
ある都市の一角に、その企業の障害対応を専任で行う監視センターがありました。
巨大なモニターには世界地図と、無数の通信拠点が円で示されていて、普段は淡い緑色の光が、ゆっくりと瞬いているだけだったそうです。
その日は、UTCで十一時二十分を回ったころ、地図の上にあった緑色が、ほとんど同時に赤へ変わりました。
アプリのログインも、決済システムも、メッセージ配信も、そこを経由するものがまとめて遅延し、監視センターの室内には、警告音だけが重なるように鳴り続けていたといいます。
しかし、ひとつだけ、他と違う表示がありました。
地図の中央より少し外れたところに、小さな灰色の点がひとつ増え、「不明なエンドポイント」と表示されたそうです。
そこだけは、赤にも緑にも変わらず、じっと灰色のまま、点滅の間隔だけがわずかに早まっていたといいます……。
監視センターでは、原因が外部のインフラ側にあると分かった段階で、社内向けの障害情報ポータルに速報を流し、ユーザーからの問い合わせを一時的に絞り込む措置を取りました。
社外のウェブフォームは利用できず、電話と、内部専用のチケットシステムだけが、障害中も辛うじて生きていたといいます。
障害から数時間後、主要なトラフィックは徐々に戻り、夕方には全体として「復旧」と判断されました。
監視センターで夜勤帯に引き継ぐ前、担当者が念のため、問い合わせチケットの一覧を確認したところ、おかしな行単位が並んでいたそうです。
「送信元:INTERNET/件名:問い合わせ」
そう表示されたチケットが、ひとつではなく、数百件単位で並んでいました。
通常、送信元には企業名や組織名が入り、「INTERNET」という表記は内部のテスト以外では使っていなかったといいます。
担当者はテストデータが誤って公開キューへ混入したと考え、ひとまず一件だけ開いてみました。
チケット本文には、共通して一行だけ、こう書かれていたそうです。
「壊れているのは、そちらですか、こちらですか」
時刻は、最初の警告が鳴り始めた十一時二十何分から、復旧完了が宣言された十七時〇六分まで、数分おきに刻まれていました。
ただし、すべての問い合わせ時刻が「受信」と「送信」の両方で同じで、遅延や誤差が一切記録されていなかったといいます。
担当者は、内部の自動監視プログラムが誤作動し、同じ文面を大量送信したのだろうと結論づけようとしました。
しかし、このチケット群には、どの自動プログラムからも紐づけられていない、不完全なIDしか付いていなかったそうです。
ログを遡ると、これらのチケットは、障害が始まった直後には存在しておらず、復旧宣言のわずか数秒後に、まとめて生成された形跡が残っていました。
送信元IPアドレスの欄には「0.0.0.0」とだけ表示され、通常は記録されるはずの経路情報も、真っ白のままだったといいます……。
翌日、監視センターのメンバーは、原因究明のために詳しい調査を始めました。
障害発生時のパケットキャプチャを解析すると、「INTERNET」名義の問い合わせに対応する通信が、ひとつだけ見つかったそうです。
それは、監視センター内にある、ある端末からのものでした。
外部とは物理的に分離され、障害が起きたときにも、あくまで内部ネットワークの状況だけを表示するはずの、ローカル専用の端末だったといいます。
記録上、その端末は障害の最中、一度だけ外へ発信するような経路を取ろうとしていました。
だが、ネットワーク図の上では、その通信は宛先へ届かず、途中で折り返して、再び監視センター内に戻ってきているように見えたそうです。
「送信元:INTERNET」
「宛先:INTERNET」
発信元と宛先が同一とされているにもかかわらず、ネットワーク機器は、それを別々の経路から来たものとして、二重に記録していたといいます。
まるで、閉じた円の内側から手を伸ばしたとき、円の外から同じ手がこちらを掴んでくるような、説明のつかない痕跡だったそうです……。
さらに不可解だったのは、そのログのタイムスタンプでした。
今回の障害が起きる数年前、同じインフラ企業で別の大規模障害が話題になった日と、ほぼ同じ時刻の記録が、破片のように紛れ込んでいたといいます。
社内の記録では、そのころ監視センターはまだ存在しておらず、問題の端末も設置されていませんでした。
それにもかかわらず、古い障害の時間帯に、同じ文面の問い合わせが、当時には存在しないはずのチケットシステムに対して送られた形跡が、重ね書きのように浮かび上がっていたそうです。
調査チームは、影響範囲の説明に苦慮し、公式の報告書では、「ログ解析の過程で、誤って過去のタイムスタンプが適用された可能性がある」とだけ記しました。
ただ、内部向けに共有された非公開資料には、その行を削除するたび、「壊れているのは、そちらですか、こちらですか」という一文が、別のページの脚注として現れるスクリーンショットが、いくつも添付されていたといいます。
障害からしばらく経ったあとも、監視センターでは小さな異変が続きました。
社内のプリンターが一時的にオフラインになったときや、会議室のWi-Fiが数秒だけ途切れたときでさえ、「送信元:INTERNET」のチケットが、一件だけ増えていることがあったそうです。
その文面は、必ず同じでした。
ただし、タイムスタンプだけは、時に数分先、時に数時間先の未来の時刻として記録されていたといいます。
担当者がそれを削除すると、灰色の点だった「不明なエンドポイント」のマーカーが、一瞬だけ緑になってから消えることがありました。
モニターの世界地図の上では、どの地域とも紐づかない、ごく小さな光点が、ふと浮かんでは消えるだけだったそうです……。
後日、障害対応の経緯を振り返る社内セミナーで、この出来事に触れた資料が一部配布されたとされています。
しかし、その資料からは、例のチケットのスクリーンショットも、「不明なエンドポイント」の説明も、すべて抜け落ちていたといいます。
その代わりに、最後のページの下端、余白のぎりぎりの位置にだけ、小さな文字が印刷されていたそうです。
「壊れているのは、そちらですか、こちらですか」
誰が入力したのかは分からず、再印刷しても、位置を変えても、その行だけは必ず最終ページの一番下に現れ続けたといいます。
その監視センターでは今も、大規模障害が起きるたび、「インターネットが壊れた」という言葉が、どこからともなく口にされるそうです。
ただ、そのたびに「どちら側が先に壊れているのか」を確かめようとした人は、まだひとりもいないのだと噂されています……そんな話を聞きました。
この怪談は、以下のニュース記事をきっかけに生成されたフィクションです。
「インターネットが壊れた」とみんなが言った──Cloudflareの障害はなぜ大ニュースになったのか
「インターネットが壊れた」とみんなが言った──Cloudflareの障害はなぜ大ニュースになったのかCloudflareの障害が多くのユーザーに影響を与え、そしてニュースとして報じられるのは、多数のインターネットサービスが同社の基盤に依存しているためだ。


