今朝、インターネットが壊れました

2009/2/17-2

今朝01時23時JST頃から1時間弱、インターネットが世界的に壊れていたようです。 ほどなくして収束していったようですが、ISP同士のBGP接続が切れて通信が出来ないという状況が局所的に発生していたようです。

世界中で影響があったようですが、国内では上流網の一部でBGPのpeerが切れて国際的な通信が不通になっていた瞬間があったようです。 ただし、繋がったり切れたりという箇所もあったようです。

「壊れた」原因

NANOGでの情報によると、以下のようなログがルータに残されていたようです。 255以上という異常に長いAS pathが原因のようです。



Feb 16 16:44:36.065 GMT: BGP: x.x.x.x Bad attributes
Feb 16 16:45:43.389 GMT: %BGP-6-ASPATH: Long AS path 6461 1299 29113 47868
47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868
47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868
47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868
47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868
47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868
47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868 47868
47868 47868 47868 47868 received from x.x.x.x: Has more than 255 AS
Feb 16 16:45:43.389 GMT: %BGP-5-ADJCHANGE: neighbor x.x.x.x Down BGP Notification sent
Feb 16 16:45:43.389 GMT: %BGP-3-NOTIFICATION: sent to neighbor x.x.x.x 3/11
(invalid or corrupt AS path) 516 bytes 50020200 02FF193D 051371B9 BAFCBAFCBA
Feb 16 16:45:43.389 GMT: BGP: x.x.x.x Bad attributes


NANOGで「29113のオペレータに直してもらった」と書いてあるのですが、問題を発生させたのが47868なのか29113なのかは、まだわかりません。 両方ともチェコのISPだと思われます。 しかし、どうもこのうちのどちらかから「異常に長い」AS pathが流れていたようです。 (ただし、メッセージとしては間違いではないようです)

AS番号29113
名前SLOANE-AS
ハンドルJF596-RIPE
場所160 00, Czech Republic
組織Sloane Park Property Trust, a.s. Autonomous System - Luzna 2/716 - Praha 6 - Vokovice - 160 00 - Czech Repulic

AS番号47868
名前SUPRO-AS
ハンドルPS8170-RIPE
場所Premysla Otakara II 2476, 688 01 Uhersky Brod
組織AS SUPRO-NET - SUPRO, spol. s r.o.

恐らく関連

さくらインターネットの障害発生報告も恐らくこの関連だと思われます。

さくらインターネット : [2009年02月17日]ネットワーク障害


  発生日時   : 2009年02月17日 01時25分 - 02時25分
  影響範囲   : 弊社インターネット網をご利用のお客様
  障害内容   : 上記時間帯に弊社一部のネットワークにおいて
                断続的に接続できない状態が発生しておりました。

 3:30 追記 : 当社と上流ネットワークの接続において
       不具合が発生し、弊社のネットワーク全てに対して
       断続的な通信断が発生しておりました。
       現在、本障害は収束しております。

考察

今回の問題は、「BGP上で変な物が来たらpeerを切ってしまう」というルータ実装/設定が存在していたために発生しています。

BGPに関連する事件としては、2008年前半に発生したYouTube到達不能事件が有名です。 パキスタンから「YouTubeはこっちだよ!」という嘘の経路が流れてYouTubeへの接続性が世界的に失われました。(CNET : YouTubeがダウン--原因はパキスタンでのアクセス遮断か

BGPでイレギュラーな情報が流れる事に対して、今のインターネットは大きな脆弱性を抱えていると言われています。 インターネットへの参加組織が増えれば増えるほど、オペレーションミスを含む「間違い」が発生する可能性も増加します。 今後、このように「インターネットが壊れる」という状況を防ぐための技術や運用方法が研究されていくものと思います。

追記

今回、問題の設定が世界中に伝播したのは「長過ぎるAS path」を通すBGPルータと、来たらpeerを切ってしまうBGPルータが両方存在したためです。 例えば、全てのルータが何も問題なく通すルータであれば接続性が失われる事はありませんし、全てがpeerを切ってしまうルータであれば間違った設定を流してしまったISPだけが影響を受けます。 ルータ仕様(と設定)の多様性によって障害が拡大したと思われます。

追記2

yebo blog : インターネットでルーティング障害発生

以下、via yebo blogです。

追記3

BGPを解説してみた」「2009年2月17日 世界的インターネット経路障害解説」を新たに書きました。

インターネットのカタチ もろさが織り成す粘り強い世界 過去に実際に起きた「インターネットが壊れて復旧した」事件を端緒に、「粘り強いが壊れやすく、壊れやすいが粘り強い」という視点でインターネットの形を探るという本を書きました。 インターネットを構成する基礎技術TCP/IPを解説した書籍は非常に多くありましたが、そのTCP/IPを使ってインターネットがどのように運用構築されているのかに関しては、あまり知られていません。本書は「TCP/IPを知っていてもインターネットはわからない、一方でインターネットを知るにはTCP/IPの細かい話を全て知る必要もない」という思想で、教科書的にならずに、あくまで「読み物」として楽しんで頂けることを目標に書いています。

最近のエントリ

過去記事

過去記事一覧

IPv6基礎検定

YouTubeチャンネルやってます!