ダイナミック ロード バランシング
ダイナミック ロード バランシング(DLB)は、高度でインテリジェントなハッシュメカニズムであり、
-
従来の ECMP 転送を強化、
-
リンクの負荷を考慮してトラフィック分散を最適化、そして、
-
十分に活用されていないリンクを介してトラフィックをダイナミックに誘導します。
これは IP レイヤ(OSI モデルのレイヤ 3)で実行されるもので、最新のネットワーキング ハードウェアの多くに実装されています。これには、Nexus 9000 シリーズ スイッチなども含まれます。
ECMP は、ネットワーク内の任意の 2 ポイント間を流れるトラフィックに、並列の複数のパスを許可することで、アプリケーションで使用可能な帯域幅を増やすために使用されます。複数の等コスト パスを持つ接続先にパケットを転送する必要がある場合、ルータはハッシュアルゴリズムを使用して、そのパケットに使用する経路を決定します。このアルゴリズムでは、通常、送信元と宛先の IP アドレス、送信元と宛先のポート番号、場合によってはプロトコルタイプなどのパラメータが考慮されます。
従来のロードバランシングでは、ネットワークトポロジが変更されたり、ネットワーク管理者が手動で再構成したりしない限り、特定の IP フローに対して選択されたパスが時間の経過とともに変化することはありません。対照的に、レイヤ 3 ECMP のダイナミックロードバランシングでは、ネットワークの現在の状態に応じてパスの選択を変更できるようになっています。ルータまたはスイッチは、各パスのトラフィック負荷をモニターし、リンク使用率が最も低いパスを選択して、使用可能なすべてのパスにトラフィックをより適切に分散できます。したがって、 サポートされている Nexus 9000 スイッチのレイヤ 3 ECMP DLB 機能を使用すると、ネットワーク内の複数の等コストパスにトラフィックを効率的に分配することができます。
レイヤ 3 ECMP DLB は、人工知能と機械学習(AI/ML)トレーニングネットワークのバックエンドで使用される、リーフ/スパイン型アーキテクチャを備えたイーサネット上の RDMA(RoCE)とともにサポートされます。DLB を備えたファブリックは、PFC とともに ECN と組み合わせると、使用率の向上、低遅延、および損失のないファブリックとして最適なネットワーク動作を実現します。
機能
ダイナミック ロード バランシングのいくつかの重要な機能は次のとおりです。
-
静的 ECMP ロード バランシングに関する従来のハッシュエントロピーの問題を回避し、
-
利用可能なネットワーク パスを最大限に使用し、
-
すべてのパスにトラフィックを均等に展開させることで、輻輳を最小限に抑え、
-
インフラストラクチャの追加や特殊なインフラストラクチャを必要とせずに、ネットワーク全体のパフォーマンスを向上させ、そして
-
リンクまたはノード障害が発生した場合に高速コンバージェンスと冗長性を提供します
AI/ML ネットワークでの DLB トポロジの仕組み
ダイナミック ロード バランシング(DLB)トポロジは、AI/ML トレーニング ネットワークで役立ちます。これらのネットワークは、図に示すスパインリーフ アーキテクチャを使用しています。
このトポロジでは、AI および ML ホスト(サーバ)は、リーフスイッチのインターフェイス 1(Intf-1)とインターフェイス 2(Intf-2)に接続されています。リーフ スイッチの Intf-3 と Intf-4 は、2 つのスパイン(スパイン 1 とスパイン 2)に接続されています。AI/ML ホスト間でデータ(トレーニングデータなど)を同期している間、トレーニングデータは、スパインリーフファブリックを介してすべてのホスト間で転送されます。
Workflow
Result
リーフスイッチは複数のリンクでスパインに接続されているため、 ECMP は複数のリンク間でトラフィックを負荷分散するために使用されます。AI/ML トレーニングネットワークは、従来のネットワークと比較して、一意の 5 タプル IP フィールドを持つトラフィック フローが少ない。このようなフローの数が限られているため、従来の ECMP では偏りの問題が発生します。これは、冗長パスの使用が最適化されないという意味です。その結果、一部のリンクまたはインターフェイスでオーバーサブスクリプションが発生する可能性があります。これにより、ファブリック全体のスループットが低下する可能性があります。
ECMP DLB 機能では、すべてのリンクの適切な使用を保証することにより、使用率がない、または不足しているなどのリンク使用率の問題を解決します。ECMP グループの一部であるすべてのポートで DLB を有効にする場合、新しいフローごとに、使用可能なリンクの中から Tx リンク使用率が最低のリンクが選択されます。画像では、Intf-3 と Intf-4 で DLB が有効になっています。intf-3 が完全に使用されて、新しいフローが到着した場合、intf-4 が選択されます。従来の ECMP では、オーバーサブスクリプションが生じていても、Intf-3 が選択される可能性があります。
ECMP DLB は静的ピン接続もサポートします。これにより、ユーザーは特定の送信元ポートからのトラフィックを常に特定の DLB 対応出力ポートに送信できます。この画像では、Intf-3 と Intf-4 がメンバーである DLB ECMP グループを取得するトラフィックの場合、ユーザーは常に Intf-1 からトラフィックをピン接続して常に Intf-3 を取得し、Intf-2 を使用して常に Intf-4 を取得できます。
NX-OS リリースのダイナミック ロード バランシング機能
Cisco NX-OSリリース 10.5(1)F から、レイヤ 3 ECMP ダイナミックロードバランシング(DLB)機能は、発信リンクの現在の使用状況に応じて、トラフィックを効率的にロード バランシングするためのサポートを提供します。この機能のサポートは、表に示すように、さまざまな NX-OS リリースを介してさまざまな Nexus スイッチで提供されます。
|
スイッチ |
リリース |
|---|---|
|
9300-FX3、-GX、-GX2、-H1、-H2R TOR などの Nexus CloudScale スイッチ |
Cisco NX-OS リリース 10.5(1)F |
|
Silicon One スイッチ:N93C64E-SG2-Q および N9364E-SG2-O スイッチのみ |
Cisco NX-OS リリース 10.5(3)F |

フィードバック