RoCEとUltra Ethernetの検証:ShowNet 2025

2025/6/17-1

今年のShowNetでは、RoCEの検証とUltra Ethernetの検証が行われていました。 検証は、トポロジ図の「.dc」と書いてある箇所で行われています。

トポロジ図の該当部分を拡大するとこんな感じです。

この箇所は、Leaf spineの構成でファブリックを作っています。 スイッチ間は、400Gと800Gです。

多少分かりにくいかもしれませんが、Leafのスイッチから全て400G FR4で、dc808に繋がっています。 そして、dc808の先が色々なテスターに繋がっています。 このような形で、今回の構成では、テスターで400Gや800GのトラフィックをDCのネットワークスイッチに負荷をかけて試験ができる環境が構築されていました。

そこで、どういう試験をしていたか?ですが、AI向けのネットワークでの用途で注目されているRoCE(RDMA(Remote Direct Memory Access) over Converged Ethernet) v2のDCQCN(Data Center Quantized Congestion Notification)とDLB(Dynamic Load Balancing)がうまく動くかを調べていたとのことでした。

DCQCNは、ECN(Explict Congestion Notification)やPFC(Priority Flow Control)を利用する輻輳制御アルゴリズムです。 AI向けの通信では、輻輳が発生すると、correctiveな通信を行うための再送が発生してしまい、計算した内容を同期する通信がやり直しになることでパフォーマンスが大きく落ちてしまうという課題があります。 そのため、できるだけ再送が発生しないように、ロスレスな通信が求められます。 PFCによるフロー制御技術と、ECNによって輻輳が起きたことを通知する技術は、そういった目的で利用されます。

DLBは、その名の通り、ロードバランシングを行う技術です。 今回の構成では、LeafからSpineに400Gの足が2本出ていますが、DLBによって、その2本に対してフローを分散させています。 CiscoとJuniperの機器が混ざった形でフロー制御を行いましたが、今回の検証によって、問題なく運用できることが確認できたとのことでした。

輻輳制御やフロー制御の動作確認をするためには、それなりの負荷をかける必要があります。 スイッチ間が400Gや800Gで接続されているネットワークで輻輳制御が発生するようなトラフィックを発生させるには、それなりのトラフィックを発生させる必要がありますが、今回の検証では、テスターによってDCQCNとDLBが活かされるような規模でのトラフィックを発生させていました。 そのうえで、それらが正しく動いていることが確認できたのが検証の成果だったとのことでした。

今年の .dc ではUltra Ethernet Transportの相互接続検証も行いました。 Ultra Ethernetは、AIやHPCで求められる膨大なデータを高速かつ効率的にやり取りするために設計された新しいネットワーク技術であり、今回のShowNetでは、UltraEthernet Transportの転送試験や機能試験、RoCEv2 との共存試験などを行い問題なく通信可能であることを確認することができました。

余談

Interop Tokyo 2025とは直接関係ないのですが、Interop Tokyo 2025会期中にUltra EthernetコンソーシアムによってUltra Ethernet仕様1.0が発表されていました。 このことからも、Ultra Ethernetに関連するShowNet 2025での実験は非常にタイムリーなものであると言えそうです。

最近のエントリ

過去記事

過去記事一覧

IPv6基礎検定

YouTubeチャンネルやってます!