Cisco Nexus 5000 シリーズ

Cisco Nexus 5000 シリーズ アーキテクチャ:ユニファイド ファブリックのビルディング ブロック

データ シート


Cisco Nexus 5000 シリーズ アーキテクチャ: ユニファイド ファブリックのビルディング ブロック



概要


マルチコア コンピューティングと仮想化によってデータセンターの世界は急速に変化しており、高帯域幅・低遅延のスイッチングが求められるようになりました。これらのテクノロジーは、サーバ利用率を高めることで効率を向上させるものですが、同時に、そのために求められる帯域幅の大きさはこれまで以上に増えつつあります。帯域幅の問題に悩むデータセンターの多くは、IP ネットワークのボトルネックを軽減するために 10 ギガビット イーサネットへの移行を進めています。さらに、ほとんどのデータセンターでは、各サーバからストレージ ネットワークにアクセスするファイバ チャネル リンクを二重化しています。また、ハイパフォーマンス コンピューティング(HPC)環境をサポートしているデータセンターの中には、サーバあたりのプロセス間通信(IPC)ネットワークを複数用意しているところもあります。

これらの課題に対するより優れた解決策としてシスコが提供するのが、Cisco® Nexus 5000 シリーズ スイッチです。ラック内配置用のアクセスレイヤ スイッチとして設計された Cisco Nexus 5000 シリーズは、データセンター インフラストラクチャをシンプルにし、総所有コスト(TCO)の削減を支援します。I/O 統合がラック レベルでサポートされるため、各サーバがサポートすべきアダプタ、ケーブル、スイッチ、およびトランシーバの数が削減されますが、既存のストレージ資産への投資も保護されます

データセンターにおけるこれらの利点は、Cisco Nexus 5000 シリーズの持つ次の製品機能によって実現します。

  • 高パフォーマンス 10 ギガビット イーサネット:Cisco Nexus 5000 シリーズは、アクセスレイヤ アプリケーション用に設計された、ラインレート、低遅延、コスト効果に優れた 10 ギガビット スイッチ ファミリです。
  • Fibre Channel over Ethernet(FCoE):Cisco Nexus 5000 シリーズは、FCoE を通してラック レベルでの I/O 統合をサポートする、初のオープン標準ベース アクセスレイヤ スイッチです。
  • IEEE Data Center Bridging(DCB):フロー制御やネットワーク輻輳管理をはじめとする、データセンターのために設計された一連のイーサネット拡張機能が組み込まれています。
  • VM に最適化されたサービス:エンドポート仮想化と仮想マシン(VM)最適化のサービスをサポートしており、仮想レイヤ 2 ネットワークのスケーラビリティ向上とアプリケーションのパフォーマンスおよびセキュリティの強化に役立ちます。

このドキュメントでは、ラック配置型の高帯域幅・低遅延アクセスレイヤ スイッチとして、そしてデータセンター インフラストラクチャをシンプルにし、導入コストと運用コストの削減を支援するユニファイド ネットワーク ファブリックの基盤として、Cisco Nexus 5000 シリーズ スイッチがどのように設計されているかを詳しく説明します。初めに、このスイッチの機能と利点の概要を簡単に説明し、次に 10 ギガビット イーサネット、I/O 統合、および仮想化の各機能について詳しく説明します。内部的には、このスイッチの基礎となっているのは 2 つのカスタム ASIC(特定用途向け集積回路)だけです。1 つは入力側と出力側でのすべてのパケット処理操作を行うユニファイド ポート コントローラ(UPC)、もう 1 つはパケットのスケジューリングとスイッチングを行うユニファイド クロスバー ファブリック(UCF)です。この 2 つのデバイスは、I/O 統合と仮想化の機能をサポートすることを目的として設計されています。また、トランジスタ ロジックの使用効率を最大限に高めているため、消費電力の削減とパフォーマンスの最大化に役立ちます。

Cisco Nexus 5000 シリーズの紹介


Cisco Nexus 5000 シリーズは、サーバ ラックに配置するように設計されており、サポート対象のサーバの設計に非常によく似ています。すべてのポートおよび電源供給コネクタがスイッチの背面にあるので、ケーブル配線がシンプルになり、短いケーブルでの配線が可能になります(図 1)。冷却の方向は前面から背面となっており、ホットアイル/コールドアイル構成がサポートされるため、冷却効率が高まります。前面パネルには、ステータス インジケータ、ホットスワップ可能 N+1 冗長電源および冷却モジュールがあります。すべての保守可能コンポーネントは前面パネルからアクセスでき、スイッチは動作中でも保守作業が可能で、ネットワーク ケーブル配線を妨げることがありません。ポート密度が非常に高いため、スイッチ モデルとサーバ ラック構成に応じて、トップオブラック、隣接ラック、およびエンドオブローの各構成をサポートできます。

Cisco Nexus 5020 56 ポート スイッチ

Cisco® Nexus 5020 は、2 ラックユニット(2RU)の 10 ギガビット イーサネット/FCoE アクセスレイヤ スイッチです。遅延を非常に低く抑えながらもスループット 1.04 Tbps を実現します。40 個の 10 ギガビット イーサネット/FCoE 固定ポートには、SFP+(Small Form Factor Pluggable Plus)フォーム ファクタ対応のモジュールやケーブルを接続できます。拡張モジュール スロットが 2 個あり、最大 12 個の 10 ギガビット イーサネット/FCoE ポートまたは最大 16 個のファイバ チャネル ポート、またはこの両方の組み合わせをサポートできます。また、シリアル コンソール ポート 1 個とアウトオブバンド 10/100/1000 Mbps イーサネット管理ポート 1 個があります。2 個の N+1 冗長ホットプラグ可能電源と 5 個の N+1 冗長ホットプラグ可能ファン モジュールによって、前面から背面への冷却が確実に行われます。

図 1 Cisco Nexus 5020 の背面ポート構成

図 1 Cisco Nexus 5020 の背面ポート構成
※画像をクリックすると、大きな画面で表示されますpopup_icon


Cisco Nexus 5010 28 ポート スイッチ


Cisco Nexus 5010 スイッチは、1 RU の 10 ギガビット イーサネット/FCoE アクセスレイヤ スイッチです。遅延を非常に低く抑えながらも 500 ギガビット/秒(Gbps)を超えるスループットを実現します(図 2)。20 個の 10 ギガビット イーサネット/FCoE 固定ポートには、SFP+(Small Form Factor Pluggable Plus)フォーム ファクタ対応のモジュールやケーブルを接続できます。拡張モジュール スロットが 1 個あり、最大 6 個の 10 ギガビット イーサネット/FCoE ポートまたは最大 8 個のファイバ チャネル ポート、またはこの両方の組み合わせをサポートできます。また、シリアル コンソール ポート 1 個とアウトオブバンド 10/100/1000 Mbps イーサネット管理ポート 1 個があります。2 個の N+1 冗長ホットプラグ可能電源と 5 個の N+1 冗長ホットプラグ可能ファン モジュールによって、前面から背面への冷却が確実に行われます。

図 2 Cisco Nexus 5010 は 20 個の 10 ギガビット イーサネット/FCoE 固定ポートと 1 個の拡張モジュール スロットをサポート

図 2 Cisco Nexus 5010 は 20 個の 10 ギガビット イーサネット/FCoE 固定ポートと 1 個の拡張モジュール スロットをサポート
※画像をクリックすると、大きな画面で表示されますpopup_icon


拡張モジュール オプション

Cisco Nexus 5000 シリーズは、3 つの拡張モジュール オプションをサポートし、10 ギガビット イーサネット/FCoE ポートの増設またはファイバ チャネル SAN の接続、またはその両方に使用できます。Cisco Nexus 5010 がサポートするモジュールは 1 つです。Cisco Nexus 5020 では 2 つのモジュールを任意に組み合わせ、データ センターの用途に合わせて最適化できます(図 3)。

  • 10 ギガビット イーサネット モジュール 1 個で、10 ギガビット イーサネット/FCoE SFP+ ポートを 6 個追加できます。高密度サーバ構成のサポートに役立ちます。
  • ファイバ チャネル モジュール 1 個で、1/2/4 Gbps ファイバ チャネル ポート 8 個を SFP ポート経由で追加できます。既存のファイバ チャネル ネットワークとの透過的な接続が可能になり、ストレージ I/O の統合を主目的とする環境に適しています。
  • ファイバ チャネル/イーサネット複合モジュールには、10 ギガビット イーサネット/FCoE ポート 4 個(SFP+ ポート)と、1/2/4 Gbps ネイティブ ファイバ チャネル接続ポート 4 個(SFP ポート)があります。
図 3 データセンターの用途に合わせて Cisco Nexus 5000 シリーズを最適化するための 3 つの拡張モジュール オプション

図 3 データセンターの用途に合わせて Cisco Nexus 5000 シリーズを最適化するための 3 つの拡張モジュール オプション
※画像をクリックすると、大きな画面で表示されますpopup_icon


Cisco Nexus 5000 シリーズの主な機能


機能と利点

豊富な機能を備えたこのスイッチ ファミリは、ラック レベルのアクセス レイヤ アプリケーションに最適です。標準規格ベースのイーサネット/FCoE 機能によって、各データセンターの要件やタイミングに基づいてネットワークを統合することが可能になるため、データセンターのラックへの投資が保護されます。

  • 高いポート密度、ワイヤ スピードのパフォーマンス、きわめて低い遅延という特性を併せ持つこのスイッチは、10 ギガビット イーサネットの需要の拡大にラック レベルで応える理想的な製品です。また、ポート密度の高さも特徴の一つで、ラックの容量いっぱいに収容されたブレード サーバやラックマウント サーバもサポートすることができます。
  • 今日のデータセンターに合わせて作られたこのスイッチは、サポート対象のサーバと同じように設計されています。ポートと電源コネクタが背面にあり、サーバのポートに近いため、ケーブル長を短縮でき、効率が向上します。ホットスワップ可能な電源および冷却モジュールには、前面パネルからアクセスできます。また、前面パネルにはスイッチの動作が一目でわかるステータス表示灯があります。前面から背面への冷却はサーバの設計と同じであり、データセンターの効率的なホット アイル(温度が高くなるように機器配置したラック間の通路)およびコールド アイル(温度が低くなるように機器配置したラック間の通路)の設計をサポートします。お客様が交換可能なユニットはすべて前面パネルからアクセスすることができ、サービサビリティに優れています。SFP+ ポートが採用されているため、相互接続ソリューションの柔軟な選択が可能です。たとえば短い配線には銅ケーブル、長い配線にはファイバを使用することができます。
  • Fibre Channel over Ethernet(FCoE)および IEEE Data Center Bridging(DCB)機能は I/O 統合をサポート。また、複数のトラフィック フローの管理が容易になり、パフォーマンス最適化も実現します。イーサネットのポーズ メカニズムによって提供される、パケット ロスのないファブリックがあれば、SAN 統合を実装することはできます。しかし Cisco Nexus 5000 シリーズは、さらに管理が容易にして、かつ高性能なユニファイド ネットワーク ファブリックを構築するための追加機能を備えています。

10 ギガビット イーサネットとユニファイド ファブリックの機能

Cisco Nexus 5000 シリーズの最も重要な特徴は、10 ギガビット イーサネット接続のための卓越したアクセス スイッチ ファミリであるということです。スイッチの機能のほとんどは、10 ギガビット イーサネットで高いパフォーマンスを実現するように設計されています。Cisco Nexus 5000 シリーズの 10 ギガビット イーサネット ポートは FCoE もサポートし、ユニファイド データセンター ファブリックを実装するための機能を備えており、LAN、SAN、およびサーバ クラスタリングのトラフィックを統合することができます。

ノンブロッキング ラインレート パフォーマンス

Cisco Nexus 5000 シリーズ スイッチの 10 ギガビット イーサネット ポートはすべて、パケット フローをワイヤ スピードで処理できます。リソース共有を行わないので、ポートはそれぞれ、他のポートのトラフィック パターンの影響を受けることなく最大のパフォーマンスを発揮します。Cisco Nexus 5020 では、最大 52 個のイーサネット ポートが同時に 10 Gbps でパケットを送信でき、同時送信によるパフォーマンスへの影響はなく、真の 1.04 Tbps 双方向帯域幅が実現します。

シングルステージ ファブリック

Cisco Nexus 5000 シリーズ スイッチのクロスバー ファブリックは単一ステージ ファブリックとして実装されているため、スイッチ内のボトルネックは発生しません。単一ステージ ファブリックとは、ただ 1 つのクロスバー ファブリック スケジューラがシステム全体を完全に把握していることを意味します。そのため、スイッチ内で輻輳を発生させることなく、最善のスケジューリングが可能になります。単一ステージ ファブリックならば、仕様の帯域幅がそのとおりに達成され、輻輳が発生するか否かはネットワーク設計しだいとなります。つまり、スイッチが原因で輻輳が発生することはありません。

低遅延

Cisco Nexus 5000 シリーズの ASIC で採用されているカットスルー スイッチング テクノロジーによって、遅延は 3.2 マイクロ秒にまで抑えられます。この遅延の低さは、スイッチングされるパケットのサイズにかかわらず一定です。この遅延の値は、アクセス コントロール リスト(ACL)、QoS(Quality of Service)、およびその他のデータ パス機能をすべて有効化した完全構成時のインターフェイスで計測されたものです。Cisco Nexus 5000 シリーズの遅延の低さは、アプリケーション間の遅延を 10 マイクロ秒のレベルにまで抑えます(ただし、ネットワーク インターフェイス カードによって異なります)。これらの数値に加え、次に説明する輻輳管理機能を持つ Cisco Nexus 5000 シリーズは、遅延に敏感な環境のための有力な選択肢となります。

輻輳管理(Congestion Management)

遅延を低く抑えることだけが、高パフォーマンス ネットワーク ソリューションを左右する要素ではありません。サーバが生成するトラフィックではバーストが発生しやすく、あまりに多くのバーストが同時に発生すると、短期間の輻輳状態となります。バースト性の輻輳を平滑化する方法によっては、ネットワーク全体のパフォーマンスが影響を受ける可能性があります。Cisco Nexus 5000 シリーズは、輻輳を最小限に抑えるためのあらゆる輻輳管理機能を備えています。これらの機能は、次に説明するとおり、それぞれ異なる段階で輻輳に対処するもので、ネットワークのパフォーマンスを制御する単位を最大限に細分化します。

仮想出力キュー(Virtual Output Queues)

Cisco Nexus 5000 シリーズでは、すべての入力インターフェイスに仮想出力キュー(VOQ)を実装しているため、ある出力ポートで輻輳が発生しても、他の出力ポートへのトラフィックに影響が及ぶことはありません。仮想出力キューイングの利点はそれだけではありません。Cisco Nexus 5000 シリーズ アーキテクチャでは、IEEE 802.1p のサービス クラス(CoS)ごとに別の VOQ が使用されるため、各入力インターフェイスには出力ごとに 8 個の VOQ があります。つまり、1 つの入力インターフェイスの VOQ は合計 416 個となります。このように多くの VOQ を使用することは、出力別、CoS 別にスループットを最大化するのに役立ちます。特定の CoS の出力ポートの 1 つで輻輳が発生しても、他の CoS や他の出力インターフェイスへのトラフィックは影響を受けないため、輻輳拡散の原因となる HOL(Head-Of-Line)ブロッキングが回避されます。

パケット ロスのないロスレス イーサネット(優先度ごとのフロー制御; Priority Flow Control)

イーサネットの設計上、デフォルトでは、スイッチング ノードが着信トラフィックの速度で処理を続行できなくなるとパケットが廃棄されます。パケットを廃棄することで、イーサネットはネットワークに流れ込むランダムなトラフィック パターンを非常に柔軟に管理できるようになりますが、実質的にイーサネットの信頼性はなくなり、フロー制御と輻輳管理の責任はネットワーク スタック内の 1 つ上のレベルが負うことになります。

IEEE 802.1Qbb 優先度フロー制御(PFC)とは、IEEE 802.1p の CoS に基づいてイーサネット トラフィックのポイントツーポイント フロー制御を行う機能です。フロー制御メカニズムが実装されていれば、輻輳が発生してもパケットが廃棄されることはなく、イーサネットは信頼できる通信手段となります。CoS が細分化されているため、ある CoS にはパケット廃棄のない信頼できる動作、別の CoS には従来のイーサネットのベストエフォート型動作という選択も可能になります。PFC を実装しているネットワーキング デバイスは、通信相手との間で暗黙的に、「パケットを受け取ったら次のホップに転送し、ローカルでは決して廃棄しない」ことに合意しています。この取り決めを守るには、デバイスが「これ以上は確実にパケットを受け取ることができない」という状態になったときに相手に通知する必要があります。これが実質的に、PFC が実行するフロー制御機能です。FCoE のように、メディア レベルでの確実な送受信を前提としているプロトコルに対する利点は多大です。

遅延廃棄(Delayed Drop)

従来のイーサネットは信頼性が低く、輻輳発生時にパケット廃棄を延期させるには、インターフェイスのバッファリング能力を増やすしかありませんでした。バッファの容量が増えれば、短時間の輻輳であればパケットを廃棄することなく対処でき、輻輳が長時間続くときは通常の廃棄動作に切り替わります。利用可能なバッファ領域の大きさを調整することで、実質的に「短時間の輻輳」の定義が変わります。

PFC によってこの法則は変わり、バッファリングを行う場所は送信元まで押し戻されます。PFC は、確実な送信手段を必要とする FCoE などのプロトコルの場合に効果を発揮しますが、短時間の輻輳と長時間続く輻輳の区別はなくなります。

遅延廃棄とは、従来のイーサネットと PFC の中間の動作です。遅延廃棄が実装された環境では、CoS のフロー制御と輻輳時間の監視が行われ、輻輳が解決されない場合は従来どおりパケットが破棄されます。「短時間の輻輳」の定義を PFC によって調整できるようになるため、インターフェイス上の物理的なバッファを増やす必要がなくなります。

FCoE(Fibre Channel over Ethernet)

FCoE は、ファイバ チャネル フレームをイーサネット パケット内にカプセル化する標準ベースのテクノロジーです。Cisco Nexus 5000 シリーズによって FCoE が実装され、FCoE の終端となるホスト側にはさまざまなパートナーの製品を利用できるため、イーサネットを基盤としたストレージ I/O 統合が可能になります。

ハードウェア レベルの I/O 統合

Cisco Nexus 5000 シリーズの ASIC は、イーサネット、ファイバ チャネル、および FCoE を透過的に転送できるため、真の I/O 統合がハードウェア レベルで実現します。Cisco Nexus 5000 シリーズには、ASIC の中で高度な統合を行うことで統合のコストを最小限に抑えるという方法が採用されています。その結果、イーサネットのあらゆる機能を備えたイーサネット スイッチと、ファイバ チャネルのあらゆる機能を備えたファイバ チャネル スイッチが一体化した製品が誕生しました。

エンドポートの仮想化

  • イーサネット:イーサネット ホスト バーチャライザ(EHV; Ethernet host virtualizer):多くのネットワーク設計では、アベイラビリティを高めるためにアクセス スイッチが複数のディストリビューション スイッチに接続されています。スパニング ツリー プロトコルによって作られるループフリー論理トポロジでは、物理的な冗長パスがすべてアクティブになることはありません。このことは LAN コアが利用できるアクティブな帯域幅の大きさに影響を及ぼします。EHV を使用すれば、Cisco Nexus 5000 シリーズのデフォルトのスイッチング動作の代わりに、ループ防止のための別の方式をアクセス レイヤに導入することができます。EHV によって、スイッチはネットワークの巨大なエンドホストのように振る舞うことが可能になります。つまり、スイッチに直接接続されているすべてのホスト(サーバ)の代表として振る舞います(図 4)。このように振る舞うことから、EHV はネットワークの他の部分に対しては完全に透過的になり、スパニング ツリー ドメインが 1 レベル上のディストリビューション レイヤまで縮小することになります。これにより、アクセス レイヤとディストリビューション レイヤの間の物理的な帯域幅全体が利用可能になります。
図 4 イーサネット ホスト バーチャライザ(EHV)

図 4 イーサネット ホスト バーチャライザ(EHV)
※画像をクリックすると、大きな画面で表示されますpopup_icon


  • ファイバ チャネル:N ポート バーチャライゼーション(NPV; N_port virtualization):ファイバ チャネル スイッチでは階層構造化アドレスであるファイバ チャネル ID(FC_ID)が使用されているため、L2MP が可能であり、イーサネットにおけるスパニング ツリー プロトコルの転送の制約のようなものはありません。ただし、この固定アドレス構造によってファイバ チャネル ファブリックのスケーラビリティが制限され、ファブリック 1 つあたりのスイッチ数は最大 239 となるため、SAN ネットワーク設計における選択肢が限定されます。Cisco Nexus 5000 シリーズには、SAN に関するこのような制約を解消するために、スイッチを NPV モードで動作させるオプションが用意されています。Cisco Nexus 5000 シリーズが NPV モードのときは、スイッチは透過的なプロキシとなり、SAN ファブリックのサービスには関与しません。また、直接接続されたすべてのイニシエータとターゲットを集約して、1 つの単純なマルチポイント リンクであるかのように SAN ファブリック コアへと転送することができます。SAN ファブリックの外辺部に置かれた NPIV(N Port Identifier Virtualization) と NPV とを組み合わせることで、従来のファイバ チャネル スイッチのポート密度を超えて SAN の規模を拡張することができます。

Cisco Nexus 5000 シリーズの内部アーキテクチャ


スーパーバイザ アーキテクチャ

Cisco Nexus 5000 シリーズのコントロール プレーン側では、シングルコア 1.66-GHz Intel LV Xeon CPU 1 個と 2 GB の DRAM 上で Cisco® NX-OS が実行されます。スーパーバイザ コンプレックスは、1 Gbps イーサネット通信が可能な 2 個の内部ポートを通してデータ プレーンにインバンドで接続されます。システムの管理はインバンドで行うことも、アウトオブバンドである 10/100/1000 Mbps 管理ポートを通して行うこともできます。表 1 に、アーキテクチャの仕様をまとめます。

表 1. Cisco Nexus 5000 シリーズのアーキテクチャ

項目 仕様
CPU 1.66-GHz Intel LV Xeon:LF80538KF0281M
メモリ 2 GB DDR2 400(PC2 3200)(DIMM スロット 2 個)
ブート フラッシュ メモリ 1 GB USB ベース(NAND)フラッシュ メモリ
BIOS 2MB EEPROM(リカバリ イメージをロック)
オンボード障害ログ(OBFL) 64 MB フラッシュ メモリ(障害分析、カーネル スタック トレース、ブート レコード、および障害ログ用)
NVRAM 2 MB SRAM(Syslog およびライセンス情報)

データ プレーン

図 5 スーパーバイザとデータ プレーンのアーキテクチャ

図 5 スーパーバイザとデータ プレーンのアーキテクチャ
※画像をクリックすると、大きな画面で表示されますpopup_icon


Cisco Nexus 5000 シリーズには、スケーラビリティの高いカットスルー入力キューイング スイッチング アーキテクチャが採用されています。このアーキテクチャは主に、シスコが開発した 2 つの ASIC によって実装されます。

  • データ プレーン処理を実行する一連のユニファイド ポート コントローラ(UPC)
  • UPC を交差接続するユニファイド クロスバー ファブリック(UCF)

UPC はそれぞれ 10 ギガビット イーサネット/FCoE ポート 4 個を管理し、これらのポートで受信したパケットに対するフォワーディング決定を行います。フォワーディング決定が下されると、パケットはキュー(VOQ)に入れられ、UCF へのアクセス許可が下りるのを待ちます。このアーキテクチャではカットスルー方式が採用されているため、パケットをキューに入れてキューから取り出す操作は、パケットの内容全体を受信して入力ポートのバッファに入れる処理が完了する前に行われます。UCF は、入力側 UPC と使用可能な出力側 UPC との結び付けを行います。また、各 10 ギガビット イーサネット/FCoE インターフェイスを、12 Gbps のファブリック インターフェイスを通して内部で接続します。このように速度を 20% 高めることで、ASIC 内で実行されるパケット操作に関係なく、ラインレートのスループットを保証するのに役立ちます。

Cisco Nexus 5020 の UPC は 14 個あるため、10 Gbps で通信できるインターフェイスは合計 56 個です。そのうち、52 個はシャーシ バック パネル上の実際のポートにケーブルで接続されており、2 個はスーパーバイザ CPU のインバンド接続に使用されます。残りの 2 つは現在使用されていません。1 つの UCF だけで 58 × 58 の単一ステージ クロスバー スイッチとなり、14 個の UPC からの内部ファブリック インターフェイス 56 個すべてを十分にサポートできます(図 5)。

ユニファイド ポート コントローラ(UPC)

UPC は、Cisco Nexus 5000 シリーズ サーバ スイッチ内部のすべてのパケット処理操作を扱います。このデバイスには L2MP 機能があり、以下のプロトコルで、同時にワイヤ スピードで動作することができます。

  • 従来のイーサネット
  • ファイバ チャネル
  • FCoE

入力側では、各種メディアの物理的詳細を処理し、受信パケットを統一内部パケット形式にマッピングします。また、ASIC にローカルで保存されているプロトコル固有のフォワーディング テーブルに基づいてフォワーディング決定を行います。出力側では、出力メディアおよびレイヤ 2 プロトコルによってサポートされている形式に統一内部形式を再マッピングしてからパケットを送信します。

UPC の外部への 10 Gbps インターフェイスはそれぞれ、拡張モジュール 1 個につき 2 個の 1/2/4 Gbps ファイバ チャネル インターフェイスとして動作するようにケーブル接続できるので、1 つの UPC を最大 8 個のファイバ チャネル インターフェイスに拡張モジュール経由で接続できることになります。

図 6 に示すとおり、UPC ASIC は 4 個のデータ パス エレメントに区切られています(10 ギガビット イーサネット インターフェイス 1 個につき 1 エレメント)。UPC のリソースのほとんどは、データ パス エレメントごとに物理的に割り当てられますが、転送ロジックは例外で、4 個のエレメントで共有されます。

図 6 UPC ASIC のアーキテクチャ

図 6 UPC ASIC のアーキテクチャ
※画像をクリックすると、大きな画面で表示されますpopup_icon


各データ パス エレメントの前に、4 個のメディア アクセス コントローラ(MAC)があります。これは、ASIC 内でのイーサネットとファイバ チャネルのコンバージェンスをサポートするために必要なもので、それぞれにフロー制御処理機能が統合されています。

  • ギガビット イーサネット MAC 1 個(IEEE 802.3X ポーズと PFC に基づくフロー制御)
  • 10 ギガビット イーサネット MAC 1 個(IEEE 802.3X ポーズと PFC に基づくフロー制御)
  • 1/2/4 Gbps ファイバ チャネル MAC 2 個(バッファツーバッファ クレジットに基づくフロー制御)

解析(parsing)・編集(editing)ブロックは、着信パケットを解析してフィールドを取り出す処理を担当します。解析されたフィールドは、フォワーディング決定を行うために UPC のフォワーディング エンジンに送られます。また、パケットのカプセル化とカプセル化解除にも使用されます。これらの処理では、内部ヘッダーが追加または削除され、FCoE とファイバ チャネルの間の変換が行われます。解析・編集ロジックで処理できるのは、イーサネット、IPv4 および IPv6、IP レイヤ 4 トランスポート(TCP および UDP)、ファイバチャネルおよび FCoE です。解析・編集ブロックによって、関係するフレーム ヘッダー フィールドが抽出されると同時に入力がフォワーディング エンジンに送られるため、真のカットスルー スイッチングが実現します。

UPC にカットスルー テクノロジーを実装することで、空き出力ポート宛てのパケットは即座に UFC を通過して送出できるようになります。途中でパケット全体をバッファに入れる必要はありません。このような環境では、スイッチが入力インターフェイスでパケットの最初のビットを受け取ってからわずか 3.2 マイクロ秒後に、そのパケットの最初のビットを出力インターフェイスから送り出すことができます(SFP+ 銅トランシーバでテストした結果)。この 3.2 マイクロ秒という遅延は、全体のパケット サイズにかかわらず一定です。

各インターフェイスには ECC プロテクト SRAM の専用プール(480 KB)があり、QoS サブシステムによって 8 つの CoS(QoS コマンドライン インターフェイスでは「システム クラス」と呼ばれます)に分配されます。IEEE 802.1Q タグの中で IEEE 802.1p ビットによって定義される CoS ごとに、別の QoS ポリシー(Cisco NX-OS を使用して構成される)を持たせることができます。QoS サブシステムの目標は、各ポリシーによって定義される制約の範囲内で各クラスの最大スループットが保証されるようにすることです。

UPC 上のバッファリング方式では、480 KB のメモリ プールが入力側と出力側のバッファに使用されます。必要とされるバッファ量のかなりの部分を入力側バッファが占めるため、バッファのほとんどは入力側に割り当てられます。出力側バッファは主に、イーサネットとファイバ チャネルの両方のフロー制御の維持と、スループットを高めるための出力パイプラインの作成に使用されます。

入力側では、各データ パス エレメントに VOQ(ポートおよびシステム クラスごとに 1 個)とマルチキャスト キュー(システム クラスごとに 1 個)があります。ユニキャスト VOQ はそれぞれ、特定の出力インターフェイスの特定の CoS を表します。したがって、UCF ユニキャスト スケジューラは、入力に対応する最適な出力ポートをスケジューリング サイクルごとに柔軟に選択できるようになり、HOL(Head-of-Line)ブロッキングは完全に回避されます。

出力側では、各インターフェイスにおいて、システム クラスごとに別のキューが使用されるため、ある CoS でのフロー制御が別のパフォーマンスに影響を与えることはありません。

ユニファイド フォワーディング エンジン

Cisco Nexus 5000 シリーズ ユニファイド ファブリックの最も重要なコンポーネントは、UPC に実装されているユニファイド フォワーディング エンジンです。ユニファイド フォワーディング エンジンは、1 つのフォワーディング エンジン実装でイーサネットとファイバ チャネルのフォワーディング決定を実行することができます。ユニファイド フォワーディング エンジンの設計にあたっては、この 2 つの転送スタイルの類似点と相違点を考慮してブロックが最大限共通化されており、その結果、UPC 内のロジックの量と必要なトランジスタの数が最小限に抑えられています。このような節約の結果、ASIC のダイ サイズ、消費電力、および発熱量が削減され、UPC の密度目標である「1 つのチップで 10 Gbps のラインレート ポート 4 個」が実現しています。

フォワーディング決定実行時のボトルネックを最小限に抑えるために、ユニファイド フォワーディング エンジンはフォワーディング ステーション テーブルのローカル コピーを UPC のハードウェア上に置いて使用するように設計されています。この UPC 上のステーション テーブルは、32,000 エントリを保持する dLeft ハッシュ テーブルを使用してハードウェア内に実装されています。

図 7 に、フォワーディング決定のステップを示します。

図 7 ユニファイド フォワーディング エンジンによるフォワーディング決定

図 7 ユニファイド フォワーディング エンジンによるフォワーディング決定
※画像をクリックすると、大きな画面で表示されますpopup_icon


各ステップの概要を次に説明します。

仮想インターフェイスの状態

フォワーディング パイプラインにおける最初のアクションは、受信したパケットのコンテキストを作成することです。これは、パケットを特定のインターフェイス構成にマッピングすることによって行われます。その結果、パケットがスイッチを横断していくときは、インターフェイスに適用された構成が効力を持つことになります。Cisco Nexus 5000 シリーズには、仮想インターフェイスの概念が実装されています。つまり、それぞれ別の構成を持つ複数の論理エンティティが同じ 1 つの物理インターフェイスにマッピングされます。したがって、通常のイーサネット トラフィックを伝送する仮想イーサネット ポートと、FCoE トラフィックを伝送する仮想ファイバ チャネル N ポートに別の構成を適用できるようになります。結果として、実際のデータ パケットは同一の物理ワイヤ上で多重化されていても、管理プレーンでは LAN と SAN の管理が完全に分離されるため、管理の柔軟性が最大になり、既存のデータセンター運用モデルを引き続き利用することができます。

物理インターフェイスでパケットを受信したときに、適切な仮想インターフェイス構成を検索するための情報は、物理インターフェイスからだけでは得られません。そのため、受信パケット ヘッダーを解析して取り出した情報を物理インターフェイス情報に付加する必要があります。この解析は一般に、FCoE ヘッダーを見つけるだけという非常に単純なもので、その結果を基に仮想イーサネット インターフェイスか仮想ファイバ チャネル インターフェイスかが選択されます。

宛先のルックアップ

以降のパケット処理でどの仮想インターフェイスを使用するかがユニファイド フォワーディング エンジンによって決定されると、実際のフォワーディング決定プロセスが開始します。最初に、宛先 MAC アドレスまたは FC ID を、該当するフォワーディング テーブルの中で検索します。従来のイーサネット フォワーディングの場合は、検索対象のステーション テーブルは 1 つだけですが、ファイバ チャネル フォワーディングの場合は、宛先を選択するときにステーション テーブル(ローカル接続されたステーション)とスイッチ テーブル(レイヤ 2 ルーティングを介してリモートの宛先を処理する)の両方を検索する必要があります。このスイッチ テーブルによって、Cisco Nexus 5000 シリーズのハードウェアベースの等コスト マルチパス化をファイバ チャネル フォワーディングにも利用できるようになります。Cisco Nexus 5000 シリーズの UPC は、リンク ステート データベースにファイバ チャネル スイッチを最大 4,000 個登録できます。

各 UPC 内の 32,000 エントリを保持するステーション テーブルは、すべてのフォワーディング スタイルで共有されます。テーブル内の各エントリには、該当するフォワーディング スタイルを示すマーキングがあり、VLAN および VSAN の情報もエントリと共に保存されています。

ハードウェアベースのソース パス学習

未知の MAC アドレスが UPC のユニファイド フォワーディング エンジンによって初めて検出されたときは、ローカルの UPC のハードウェアにその MAC アドレスが記憶されます。トラフィック フローのソース MAC アドレスが未知の場合は、入力側と出力側の両方で UPC のハードウェアにその MAC アドレスが記憶されます。また、入力側 UPC によってスーパーバイザへの割り込みが生成され、そのフローに関与していない他のすべての UPC がスーパーバイザによって更新されます。この手法によって、ユニキャスト フラッディングの量は最小限に抑えられますが、分散ステーション テーブルの実装が複雑になることはありません。フローのリバース パスに関与する可能性が高い UPC は、ソース MAC アドレスをハードウェア内に記憶するからです。

ポリシー適用

Cisco Nexus 5000 シリーズの UPC は、パケットが本来の構成に基づいて確実に転送または廃棄されるようにするために、厳密な包括的ルールに従っています。このステップを担当するマルチステージ ポリシー エンジンは、フォワーディング結果を操作するために、メモリ アレイ、ハッシュ テーブル、および TCAM(Ternary Content-Addressable Memory)での並列検索を実行します。この並列検索の結果の評価と優先順位決定をパイプラインで行い、最終的なポリシーを決定します(ACL 許可、ACL 拒否、QoS ポリシング、リダイレクト、またはスイッチド ポート アナライザ(SPAN)レプリケーション)。具体的には、ACL は各 UPC にある 1 メガビットの TCAM に実装されており、照合するアクセス コントロール エントリを 2,048 件(1 エントリの大きさは 432 ビット)保持できます(図 8)。

図 8 ポリシー適用

図 8 ポリシー適用
※画像をクリックすると、大きな画面で表示されますpopup_icon


ポリシー エンジンが評価する要素は次のとおりです。

  • VLAN メンバシップ
  • インターフェイス、VLAN、および MAC バインディング
  • MAC およびレイヤ 3 バインディング(IP およびファイバ チャネル)
  • ファイバ チャネル ゾーン メンバシップ
  • ポート ACL(アクセス コントロール エントリ数 768)
  • VLAN ACL(アクセス コントロール エントリ数 1,024、入力側のみ)
  • ロールベース ACL(出力側のみ)
  • QoS ACL(アクセス コントロール エントリ数 64、入力側のみ)
  • SPAN および診断 ACL(アクセス コントロール エントリ数 64)
  • コントロール プレーン ACL(スーパーバイザ リダイレクトおよびスヌーピング、アクセス コントロール エントリ数 128)

UPC は、アクセス コントロール エントリの柔軟な割り当てが可能です。そのため、Cisco NX-OS では機能領域別に ACL が区分されています。Cisco NX-OS では、グローバル スコープ(VLAN ACL およびコントロール プレーン ACL)とローカル スコープ(ポート、QoS、ロールベース、および SPAN の ACL)が区別されます。前者はすべての UPC 上で同期している必要があり、後者は UPC ごとに独立して割り当てられます。

マルチパス拡張

ユニキャスト パケットに対してステーション テーブル(およびスイッチ テーブル)を検索した結果、見つかる出力インターフェイスは、物理または仮想インターフェイス、集約インターフェイス(Cisco EtherChannel または SAN PortChannel)、あるいはこれらの物理/仮想/集約インターフェイスの集合を表す識別子のいずれかですが、どの形式でも特定の宛先に到達することは可能です。したがって、フォワーディング エンジンの最後のステップは、利用可能な論理パスのリストから物理ファブリック パスを 1 つ選択することです。これが、マルチパス拡張ロジックのタスクです(図 9)。

図 9 マルチパス拡張ロジック

図 9 マルチパス拡張ロジック
※画像をクリックすると、大きな画面で表示されますpopup_icon


拡張ロジックでは、パケット フローのセマンティクスが考慮されます。これは、パケットの順次配信を保証すると同時に、複数のフローを複数の物理パスに分散させることによって、利用可能なすべての出力インターフェイスをできる限り均等に使用するためです。

フローの定義は、転送されるプロトコルによって異なります。イーサネットのフローとは、送信元と宛先の MAC アドレス、送信元と宛先の IP アドレス、および送信元と宛先の TCP および UDP ポートから成り、これらの選択はソフトウェアによる設定が可能です。FCoE とファイバ チャネルでは、フローとは送信元と宛先の MAC アドレス、送信元と宛先の FC_ID、および送信元交換 ID(OX_ID; Origin Exchange Identifier)から成り、これらの選択はソフトウェアによる設定が可能です。Cisco Nexus 5000 シリーズの UPC は、フローのハッシュを計算して求めた数値を使用して最大 16 個の物理インターフェイスからの選択を行います。Cisco Nexus 5000 シリーズで作成できる集約インターフェイス(EtherChannel または SAN PortChannel インターフェイス)は最大 16 個で、それぞれが最大 16 個のメンバ物理インターフェイスを持ちます。

VOQ の選択

パケットが受信されると、入力側インターフェイスの UPC は、パケットの最終宛先への転送に使用する出力側インターフェイスおよび UPC のセットを選択します。UPC 上の外部インターフェイスはそれぞれ、すべての UPC にある他のすべての外部インターフェイスに結ばれています。この結び付きは UCF を通して行われ、例外はありません。UPC は、自身が管理する 4 つのポートに対するローカル フォワーディングは行いません。フォワーディング決定の目標は、内部出力側ファブリック インターフェイスのセットを選択し、対応する適切な VOQ にパケット記述子を挿入し、ファブリック スケジューラの判断に基づいてキューの内容を UCF に排出させることです。仮想出力キューイングは、HOL ブロッキングの回避に実際に役立つソリューションの一つです。Cisco Nexus 5000 シリーズでは、このソリューションが幅広く利用されており、出力間での HOL ブロッキングの回避だけでなく、同じ出力側インターフェイス宛てのさまざまな優先度クラス間での HOL ブロッキングも回避します。

ユニファイド クロスバー ファブリック(UCF)

UCF は、シングルステージ、高パフォーマンスの 58 × 58 ノンブロッキング クロスバーにスケジューラを統合したものです。入力ポートと出力ポートがこのクロスバーによって相互接続され、全体のスイッチング キャパシティは 1.04 Tbps となっています。パケットがクロスバーを横断するときは、クロスバー以外での転送より 20% 増速され、内部ヘッダーの分を補完するとともに、パケット サイズを問わずラインレート 10 Gbps を保証するのに役立ちます。

統合スケジューラによって、入力と出力の間でのクロスバーの使用が調整されるため、入力/出力ペア間の競合は発生しなくなります(図 10)。スケジューリング アルゴリズムは、既存のアルゴリズムを強化したものです。元のアルゴリズムは、インフライト パケット完成に関する限界が決定論的ではないため、カットスルー スイッチングに適していません。強化されたアルゴリズムは、高スループットと低遅延の保証に役立ち、重み付けによって各入力の公平性が保証されます。また、パケット サイズを問わず、スタベーション(リソースを獲得できずに長時間待たされること)やデッドロックを発生させることなく、できる限り多くのペアを成立させるというポリシーを遵守することができます。

入力バッファリングはすべて UPC によって実行されるので、UCF に入力バッファはありません。パケットごとに 1 つの要求がスケジューラに送信されます。ただし、出力側インターフェイスにはそれぞれ 4 個のファブリック バッファと 4 個のクロスポイントがあり、バッファあたり 10,240 バイトのメモリが割り当てられています。ファブリック バッファのうち 3 個はユニキャスト パケットに使用され、1 個はマルチキャスト パケット用に予約されています。この 4 個のバッファが装備されていることで、4 個の入力ポートが同時にファブリックを使用できるようになり、結果としてユニキャスト パケットの転送速度が 300% 増加します。バッファは FIFO(First-In-First-Out)の順で UPC 内の出力キューに送出されるため、一種の出力パイプラインが作られます。これによって、対応する UPC 上の出力帯域幅がいっぱいまで使用され、スループットが向上します。

スケジューラのもう 1 つの重要な特性に、クレジット管理システムがあります。これは、VOQ の処理を行う前に出力バッファ内のスペースを確保する機能です。つまり、UCF から出力 UPC までのパスを使用してファブリック バッファの内容を排出している間は、排出が完了していない限り、そのファブリック バッファはいっぱいであると見なされます。特定の(出力ポートまたは優先度)ペアに対して、UCF 上のファブリック バッファまたは UPC 上の出力バッファ プールのいずれかが使用不可能な場合は、その出口はビジーであると見なされます。

図 10 UCF に統合されたスケジューラ

図 10 UCF に統合されたスケジューラ
※画像をクリックすると、大きな画面で表示されますpopup_icon


マルチキャスト ファブリック レプリケーション

レイヤ 2 マルチキャスト トラフィック(宛先 MAC アドレスが MAC マルチキャスト アドレスであるトラフィック)の場合は、UCF によってパケット レプリケーションが実行されます。ファブリック レプリケーションを行うことで、入力側 UPC と UCF の間の内部ファブリック インターフェイスの使用が最適化され、システム レベルのスループットが最大になります。ファブリック レプリケーションを行うために、UPC はそれぞれ別の入力キューをマルチキャスト トラフィック用に保持しており(全 8 個、つまり優先度クラスごとに 1 個)、UCF は別のマルチキャスト スケジューリング アルゴリズムを使用します。このマルチキャスト スケジューリング アルゴリズムの動作モードは 2 つあります。デフォルトのモードでは、パケットに対応するファンアウト全体が利用可能になったときに内部ファブリック インターフェイスへのアクセスが許可されます。

その時点で、入力側 UPC はパケットのコピーを 1 つ作成して UCF に送信し、そのパケットを内部バッファから削除し、パケット記述子を入力優先キューから削除します。UCF は、この単一のコピーを内部的に複製してすべての出力側ファブリック インターフェイスに送信します。この UCF の動作は、UPC の入力優先キュー内でマルチキャスト パケットがスタベーション(窮乏)状態になることの防止に役立ちますが、入力側 UPC がファブリック インターフェイスにアクセスしてマルチキャスト パケットを送信するには、マルチキャスト パケットのファンアウト内のすべての出力ポートに対応する UCF 内のファブリック バッファがすべて空き状態になるまで待つ必要があります。

UCF マルチキャスト スケジューリング アルゴリズムのもう 1 つの動作モードでは、パケットのファンアウトが複数のサブセットにインテリジェントに分割されるため、ファンアウトの数が多い場合の排出が高速になります。ファンアウトのサブセットの 1 つが利用可能になると、ファブリック インターフェイスへのアクセスが UCF によって許可され、UPC によってパケットが送信されますが、記述子は入力優先キューの先頭に残されます。UCF は、ファンアウトのうち、確定したサブセットにパケットをレプリケートし、そのファンアウトのうち残りのどの部分を後で処理する必要があるかを記憶します。オーバーラップしないファンアウト サブセットへの最小限の部分的許可の後で、ファンアウト全体が処理され、UCF は UPC に入力優先キュー内の次のパケットの処理へ進むよう指示を与えます(図 11)。

図 11 マルチキャスト ファブリック レプリケーション

図 11 マルチキャスト ファブリック レプリケーション
※画像をクリックすると、大きな画面で表示されますpopup_icon


まとめ


シスコは、ラック設置型の高帯域幅・低遅延のアクセスレイヤ スイッチの最良のソリューションを目指して Cisco Nexus 5000 シリーズ スイッチを設計しました。I/O 統合の観点からは、Cisco Nexus 5000 シリーズ スイッチはユニファイド ファブリックの基盤でもあります。ユニファイド ファブリックはデータセンター インフラストラクチャをシンプルにし、導入コストと運用コストの削減につながります。このドキュメントでは、スイッチの機能と利点の概要を説明し、次に 10 ギガビット イーサネット、I/O 統合、および仮想化の各機能の内部的な実装について詳しく説明しました。これらの機能を実現するうえでなくてはならないのが、2 つの ASIC です。1 つは入力側と出力側におけるすべてのパケット処理操作を扱うユニファイド ポート コントローラ(UPC)、もう 1 つはパケットのスケジューリングとスイッチングを行うユニファイド クロスバー ファブリック(UCF)です。Cisco Nexus 5000 シリーズ スイッチは、ユニファイド ファブリックのための初のシスコ データセンター スイッチ製品であり、Cisco Data Center 3.0 戦略の実現へまた一歩近づいたことを体現しています。