NVIDIA 認定 Cisco Nexus HyperFabric AI エンタープライ ズ リファレンス アーキテクチャ

Data Sheet

Available Languages

Download Options

  • PDF
    (2.2 MB)
    View with Adobe Reader on a variety of devices
Updated:April 29, 2025

Bias-Free Language

The documentation set for this product strives to use bias-free language. For the purposes of this documentation set, bias-free is defined as language that does not imply discrimination based on age, disability, gender, racial identity, ethnic identity, sexual orientation, socioeconomic status, and intersectionality. Exceptions may be present in the documentation due to language that is hardcoded in the user interfaces of the product software, language used based on RFP documentation, or language that is used by a referenced third-party product. Learn more about how Cisco is using Inclusive Language.

Available Languages

Download Options

  • PDF
    (2.2 MB)
    View with Adobe Reader on a variety of devices
Updated:April 29, 2025
 

 

NVIDIA 認定の Cisco Nexus Hyperfabric AI エンタープライズ リファレンス アーキテクチャ(NVIDIA HGXTM H200 および NVIDIA Spectrum -X を搭載した CiscoUCS C885A M8 ラック サーバーのシスコクラウドマネージド AI/ML ネットワーキング)

はじめに

Cisco Nexus® Hyperfabric AI は、クラウドでホストされているコントローラによって管理されるオンプレミスの AI クラスタです。これは、AI イニシアチブを強化およびシンプル化します。そして、包括的な統合クラウド管理型ソリューションにより、人工知能デプロイメントを促進します。Cisco Nexus Hyperfabric AI リファレンス アーキテクチャは、Cisco Silicon One ®スイッチに基づいており、NVIDIA HGX H200 および Spectrum-X NVIDIA エンタープライズ リファレンス アーキテクチャ(エンタープライズ RA)に準拠しています。

ソリューションの重要コンポーネントを図 1 に示します。クラスタで使用される主要なハードウェア コンポーネントについては、次のセクションで説明します。

Key components of Cisco Nexus Hyperfabric AI

図 1.               

Cisco Nexus Hyperfabric AI の主要なコンポーネント

ハードウェア

Cisco UCS C885A M8 ラック サーバ

Cisco UCS C885A M8 ラック サーバは、大規模言語モデル(LLM)トレーニング、ファインチューニング、大規模モデル推論、取得拡張生成(RAG)などの AI ワークロード向けに、大規模でスケーラブルなパフォーマンスを提供する 8RU であり、高密度 GPU サーバです。C-G-N-B 命名規則は、2-8-10-40C-G-N-B)内の NVIDIA HGX リファレンス アーキテクチャに基づいてが次のように定義されています:

     C:ノード内の CPU の数

     G:ノード内の GPU の数

     N:以下のように分類されているネットワーク アダプタ(NIC)の数

    North-south:ノードと外部システムの間の通信。

    East-west:クラスタ内の通信。

     BGPU あたりの平均ネットワーク帯域幅(ギガビット/秒(GbE)単位)

サーバ内の 8x NVIDIA H200 SXM GPU は、高速 NVLink インターコネクトを使用してインターコネクトされています。east-west トラフィック は、8x NVIDIA BlueField-3 B3140H SuperNIC、そして、north/south トラフィックは、VIDIA BlueField-3 B3240 DPU NIC1x400G モード内)を使用して、他の物理サーバに GPU 接続します。コンピューティング用に、各サーバには 2 つの AMD EPYC CPU、最大 3 TB DDR DRAM30 TB NVMe ローカル ストレージ、およびホットスワップ可能なファン トレイと電源が含まれます。サーバの詳細な仕様については、付録 A を参照してください。

Cisco UCS C885A M8 Rack Server with NVIDIA HGX

図 2.               

NVIDIA HGX を搭載した Cisco UCS C885A M8 ラック サーバ

Cisco HF6100-60L4D

Cisco HF6100-60L4D は、1RU シリコン ワン NPU ベースの高密度スイッチで、1/10/25/50GE の速度に対応する 60 個の SFP56 ポートと、ブレークアウトをサポートする 400 QSFPDD 4 個のポートをサポートしています。このスイッチは、管理ネットワーク、アプリケーションやサポート サーバーへの接続などのさまざまな役割を果たします。

Cisco HF6100-60L4D switch

図 3.               

Cisco HF6100-60L4D スイッチ

Cisco HF6100-32D

Cisco HF6100-32D は、32 ポートの QSFPDD をサポートする、1RU シリコン ワン NPU ベースの高密度 400G-port–capable スイッチです。このスイッチは、クラスタの要件に応じて、リーフまたはスパイン ロールで使用できます。

Cisco HF6100-32D switch

図 4.               

Cisco HF6100-32D スイッチ

Cisco HF6100-64E

Cisco HF6100-64E は、2RU シリコン 1 NPU ベースの高密度 800G-port-capable スイッチで、64 個の OSFP 800G ポートをサポートおよび 64 個の 800GE または 128 個の 400G GE ポートに対応できます。これは、リーフとスパインの両方のロールで使用できます。

Cisco HF6100-64E Switch

図 5.               

Cisco HF6100-64E スイッチ

Cisco UCS C225 M8 ラック サーバ

Cisco UCS C225 M8 ラック サーバは 1RU の汎用サーバーで、アプリケーション サーバー、サポート サーバー、KubernetesK8s)や Slurm などの制御ノードなど、さまざまなロールで使用できます。Cisco Nexus Hyperfabric AI 内では、これらのサーバーは、以下の「ストレージ アーキテクチャ」セクションで説明されている VAST ストレージ ソリューションを実行するためにも使用されます。

Cisco UCS C225 M8 Rack Server

図 6.               

Cisco UCS C225 M8 ラック サーバ

Cisco オプティクスおよびケーブル

1 に示されている次のシスコのオプティクスとケーブルが、リストされているデバイスで使用されています。

表 1.                さまざまなデバイスでサポートされるオプティクスおよびケーブルのリスト

デバイス

オプティクスおよびケーブル

B3140HB3240

CB-M12-M12-SMF ケーブル付き QSFP-400G-DR4

B3220

CB-M12-M12-MMF ケーブル付き QSFP-200G-SR4

HF6100-64E

デュアル CB-M12-M12-SMF ケーブル付き OSFP-800G-DR8

HF6100-32D

CB-M12-M12-SMF ケーブル付き QDD-400G-DR4

CB-M12-M12-MMF ケーブル付き QSFP-200G-SR4

HF6100-60L4D

CB-M12-M12-SMF ケーブル付き QDD-400G-DR4

CAT5E ケーブルを使用した 1G 用の SFP-1G-T-X

CAT6A ケーブルを使用した 10G SFP-10G-TX

ネットワーキング トポロジ

Hyperfabric は、任意のタイプのファブリック設計に使用できる柔軟な多目的ファブリック設計ツールです。AI クラスタの展開を容易にするために、Hyperfabric for AI には、さまざまな「T レイヤー」サイズの AI クラスタ用の事前構成済みテンプレートが付属しています。お客様は「現状のまま」のテンプレートを使用するか(デバイスの接続に必要な光ファイバおよび関連する光ファイバの長さ以外の選択肢やカスタマイズはありません)、または独自のカスタム ネットワークを設計することを選択できます。テンプレート化された設計のみが、NVIDIA エンタープライズ リファレンス アーキテクチャ(ARA)と密接に連携するリファレンス アーキテクチャの一部と見なされます。以下に示すように、Cisco® のデザインの特定の側面に対応するために、マイナーな変更が加えられています:

     NVIDIA HGX を搭載した Cisco UCS C885A M8 ラック サーバには、NVIDIA 2x200G ポートではなく、2x400G のフロント エンド ポートが含まれています。また、x86 管理ポートでは 1G ではなく 10G の速度が使用されます。

     VAST ストレージ ソリューションには、ストレージ ネットワークに最低 8x400G が必要です

     NVIDIA  BlueField-3 SuperNIC BMC ポートは接続されず、x86 ホストから管理されます。ただし、NVIDIA  BlueField-3 DPU BMC ポートは接続されます。

NVIDIA HGX を搭載した Cisco UCS C885A M8 ラック サーバのトポロジ

7 の図に、NVIDIA HGX を使用した最大 12 Cisco UCS C885A M8 ラック サーバ のクラスタ トポロジを示します。

Enterprise RA for 12 Cisco UCS C885A M8 Rack Servers with NVIDIA HGX (96 GPUs)

図 7.               

NVIDIA HGX を搭載した 12 台の Cisco UCS C885A M8 ラック サーバ用エンタープライズ RA96 GPU

2 NVIDIA HGX サーバを搭載した 12 ノード Cisco UCS C885A M8 ラック サーバ クラスタの BOM を示します。

表 2.                NVIDIA HGX 96 GPU)を搭載した 12 ノード Cisco UCS C885A M8 ラック サーバ クラスタの BOM

PID

説明

数量

UCSC-885A-M8-HC1

NVIDIA HGX を搭載した Cisco UCS C885A M8 ラック サーバ

12

HF6100-64ED

Cisco ハイパーファブリック スイッチ、64x800Gbps OSFP

2

HF6100-60L4D

Cisco Hyperfabric スイッチ 60x50G SFP28 4x400G QSFP-DD

1

HF6100-32D

Cisco Hyperfabric スイッチ、32x400Gbps QSFP-DD

2

OSFP-800G-DR8

OSFP800GBASE-DR8SMF デュアル MPO-12 APC500m

114

QDD-400G-DR4-S

400G QSFP-DD トランシーバ、400GBASE-DR4MPO-12500m パラレル

10

QSFP-400G-DR4

400G QSFP112 トランシーバ、400GBASE-DR4MPO-12500 m パラレル

120

SFP-1G-TX

1G SFP

36

SFP-10G-T-X

10G SFP

24

CB-M12-M12-SMF

MPO-12 ケーブル

204

CAT6A

10G 用銅ケーブル

24

CAT5E

1G 用銅ケーブル

36

800G から 400G への接続では、以下に示すように、スイッチ側にデュアル 2x400G MPO-12 コネクタを備えたオプティクスを使用します。

Cisco OSFP-800G-DR8 transceiver module

図 8.               

Cisco OSFP-800G-DR8 トランシーバ モジュール

各接続は、ブレークアウト ケーブルを必要とせずに独立して 400G をサポートします。

Cisco OSFP-800G-DR8 plughole view

図 9.               

Cisco OSFP-800G-DR8 プラグホール ビュー

10 の図に、NVIDIA HGX を使用した最大 16 Cisco UCS C885A M8 ラック サーバ のクラスタ トポロジを示します。East-WestEW)ネットワークは、左側の東西スパイン上に 4 本のレール、右側の東西スパイン上に 4 本のレールが配置されています。

Enterprise RA for 16 Cisco UCS C885A M8 Rack Servers with NVIDIA HGX (128 GPUs)

図 10.                  

NVIDIA HGX を搭載した 16 台の Cisco UCS C885A M8 ラック サーバ用エンタープライズ RA128 GPU

3 NVIDIA HGX サーバを搭載した 16 ノード Cisco UCS C885A M8 ラック サーバ クラスタの BOM を示します。

表 3.                NVIDIA HGX 128 GPU)を搭載した 16 ノード Cisco UCS C885A M8 ラック サーバ クラスタの BOM

PID

説明

数量

UCSC-885A-M8-HC1

NVIDIA HGX を搭載した Cisco UCS C885A M8 ラック サーバ

16

HF6100-64ED

Cisco ハイパーファブリック スイッチ、64x800Gbps OSFP

4

HF6100-60L4D

Cisco Hyperfabric スイッチ 60x50G SFP28 4x400G QSFP-DD

2

HF6100-32D

Cisco Hyperfabric スイッチ、32x400Gbps QSFP-DD

2

OSFP-800G-DR8

OSFP800GBASE-DR8SMF デュアル MPO-12 APC500m

144

QDD-400G-DR4

400G QSFP-DD トランシーバ、400GBASE-DR4MPO-12500m パラレル

12

QSFP-400G-DR4

400G QSFP112 トランシーバ、400GBASE-DR4MPO-12500 m パラレル

160

SFP-1G-TX

1G SFP

48

SFP-10G-T-X

10G SFP

32

CB-M12-M12-SMF

MPO-12 ケーブル

198

CAT6A

10G 用銅ケーブル

32

CAT5E

1G 用銅ケーブル

48

クラスタ サイズが 16 を超える場合、East-WestE-W)コンピューティング ネットワークはスパイン リーフ ファブリックに拡張されます。クラスタ サイズが最大の場合、128 Cisco UCS C885A M8 ラック サーバ クラスタの図 11 に示すように、north/southN-S)ネットワークもスパインリーフになります。E-W ネットワークは、各 EW リーフ 18 にある各レール 18 とレールに沿っています。

Enterprise RA for 128 Cisco UCS C885A M8 Rack Servers with NVIDIA HGX (1024 GPUs)

図 11.               

NVIDIA HGX を搭載した 128 台の Cisco UCS C885A M8 ラック サーバ用エンタープライズ RA1024 GPU

クラスタ ファブリックのサイジング テーブル

Cisco UCS C885A M8 ラック サーバでサイジング

4 と表 5 は、NVIDIA HGX を搭載した Cisco UCS C885A M8 ラック サーバ システム、8 EW B3140H NVIDIA BlueField-3 基の SuperNIC 2 NS B3240 NVIDIA BlueField-3 DPU NIC を使用したさまざまなクラスタ サイズに必要なさまざまなユニットの数量を示しています。

表 4.                NVIDIA HGX を搭載した Cisco UCS C885A M8 ラック サーバの East-west コンピューティング ファブリック テーブル:コンピューティング、スイッチ、トランシーバ、ケーブル数

コンピューティング数

スイッチ数

トランシーバ数

ケーブル数

ノード

GPU

リーフ

スパイン

SuperSpine

ノードからリーフ

スイッチ間(800G

ノードからリーフ

スイッチとスイッチ

ノード

400G

リーフ

800G

12

96`

2

N/A

なし

96

48

48

96

48

16

128

2

N/A

なし

128

64

64

128

64

32

256

4

2

該当なし

256

128

256

256

256

64

512

8

8

該当なし

512

256

1024

512

1024

128

1024

16

16

8

1024

512

2048

1024

2048

表 5.                NVIDIA HGX を搭載した Cisco UCS C885A M8 ラック サーバの North-south コンピューティング ファブリック テーブル:コンピューティング、スイッチ、トランシーバ、ケーブル数

コンピューティング数

スイッチ数

トランシーバ数

ケーブル数

ノード

GPU

リーフ

スパイン

管理リーフ

ストレージ リーフ

ノードからコンピューティング リーフ

ISL ポート

ノードから管理リーフ(1/10G

リーフからスパインへの管理

ストレージ リーフからスパイン

スパインからお客様およびサポートへのスパイン

ノード
400G

リーフ
800G

800G

ノード

リーフ

リーフ(400G

スパイン(800G

リーフ(400G

スパイン(800G

お客様(800G

サポート(800G

SMF
MPO-12

CAT6A + CAT5E

12

96

East-west でコンバージド

1

2

24

12

N/A

なし

60

2

2

8

4

8

4

60

60

16

128

2

該当なし

2

2

32

16

10

N/A

80

4

2

8

4

8

4

78

80

32

256

2

該当なし

3

4

64

32

16

N/A

160

6

4

16

8

16

4

144

160

64

512

2

該当なし

6

8

128

64

30

N/A

320

12

6

32

16

32

4

274

320

128

1024

4

4

11

16

256

128

256

N/A

640

44

22

64

32

64

4

756

640

ストレージ アーキテクチャ

シスコは VAST Data と協力して、EBox アーキテクチャの Cisco UCS C225 M8 ラック サーバ上にストレージ ソフトウェアをオンボードし、Cisco Nexus Hyperfabric AI クラスタのストレージ サブシステムを提供しています。VAST データは、サーバを段階的に追加することでストレージ容量と読み取り/書き込みパフォーマンスを水平方向にスケーリングできる「分散および共有(DASE)アーキテクチャ」をサポートします。AI データ パイプラインのすべてのステージをサポートするために、NFSS3、および SMB などのすべてのプロトコル サーバが有効になっています。

12 は、2 つのストレージ リーフを備えた単一の EBox のストレージ サーバと BOM の全体的なネットワーク接続を示しています。データ パスの場合、各サーバは 2 つの NVIDIA BlueField-3 B3220L 2x200G NICを使用します:NIC0 はサーバ内の内部ネットワークに使用され、他のサーバからストレージ ドライブにアクセスできるようにします。 そして NIC1 は、NFSS3、および SMB などのクライアント トラフィックをサポートする外部ネットワークに使用されます。注: すべてのサーバがすべてのリーフに接続するため、内部ネットワーク トラフィックはリーフでローカルに切り替えられます(スパインには到達しません)。クライアントが外部トラフィックに面する場合、EBox ごと、スパイン上の最小要件は 11 x 200G または 6 x 400G です。1G BMC および 10G x86 管理ポートは管理リーフ スイッチに接続されます。

Block diagram and BOM of storage sub-system

図 12.            

ストレージ サブシステムのブロック図と BOM

クラスタ サイズが大きくなると、ストレージ リーフ スイッチと Ebox の数は、クラスタのサイジング テーブルにあるとおりに線形的に増加します。

ソフトウェア

Hyperfabric コントローラ

Hyperfabric は、クラウドホスト型のマルチテナント コントローラであり、主な機能はネットワーク ファブリックを制御することです。Hyperfabric スイッチの構成ターゲット状態、ソフトウェア バージョンなどを完全に管理します。

ネットワーク コントローラは、接続されているデバイスによって観察されるネットワークの動作をより詳細に可視化できるというメリットを利用できます。Cisco UCS ベースのコンピューティングおよびストレージ サーバーの場合、ハイパー ファブリックは IPM テレメトリを提供し、パケットの順序変更、バッファの調整、IPG の調整などのいくつかのポート レベルのオプションを最小限に管理します。それ以外の場合は、サーバーと NIC は可視性のみのデバイスです。

そのため、Hyperfabric は次のことを行いません。

     何らかの方法でコンピューティングまたはストレージを構成する

     サーバの BMC またはホスト CPU ソフトウェア ライフサイクルを管理する

     NVIDIA BlueField-3 NIC でカーネルおよびディストリビューションを管理する

サーバの構成および管理機能は、他の方法で管理する必要があります(Cisco Intersight® は、オプションです)。これらのツールの展開および使用は、お客様側で全責任を負います。ネットワーク コントローラの適切な範囲であることに加えて、この懸念事項の分離は、ネットワーク運用をコンピューティングとストレージからセグメント化するという主要な運用パラダイムに合致しています。

NVIDIA AI Enterprise

このリファレンス アーキテクチャには、NVIDIA 認定の Cisco UCS C885A M8 ラック サーバーで展開およびサポートされている NVIDIA AI Enterprise が含まれています。NVIDIA AI Enterprise は、実稼働対応の AI エージェント、生成 AI、コンピュータ ビジョン、音声 AI などの開発と展開を合理化するクラウドネイティブなソフトウェア プラットフォームです。エンタープライズ レベルのセキュリティ、サポート、および API の安定性により、プロトタイプから実稼働へのスムーズな移行が保証されます。

NVIDIA NIM マイクロサービスは、オープンソース コミュニティ モデル、カスタム モデル、および NVIDIA AI Foundation モデルの実稼働展開のための完全な推論スタックを提供します。スケーラブルで最適化された推論エンジンと使いやすさにより、モデルが加速し、TCO が改善され、実稼働展開が迅速化されます。

コンピューティング サーバ スタック

クラスタ ソリューション全体が、Ubuntu Linux 22.04 LTS および NVIDIA Cloud Native StackCNS)バージョン 12.3 を実行しているコンピューティング ノードで検証されています。これには、KubernetesK8)環境内の互換性のあるドライバ、GPU、およびネットワーク オペレータが含まれます。Slurm バージョン 24.11.1 は、ワークロード オーケストレーション エンジンとして検証されています。NVIDIA NGC カタログの下にあるコンテナは、Kubernetes Slurm の両方で起動できます。

Compute-server software stack

図 13.                  

コンピューティング サーバー ソフトウェア スタック

お客様は、NVIDIA が公開している NVIDIA AI Enterprise、ドライバ、および CNS 互換性マトリックスに従って、OS ディストリビューションとソフトウェア バージョンを選択して実行できます。

セキュリティ

ソリューションのフェーズ 1 以降、追加のシスコのネットワークセキュリティおよび可観測性サービスが、クラスタのさまざまなハードウェア(スイッチ、ホスト、NIC)および ソフトウェア コンポーネントに統合されます。

テスト/認定

管理プレーン、コントロール プレーン、およびコンピューティング、ストレージとネットワーキングを組み合わせたデータ プレーンのあらゆる側面で全体的なソリューションを徹底的にテストしています。また、HPC BenchmarkIB PerfTestNCCL TestMLCommons TrainingInference ベンチマークなど、多数のベンチマークテストスイートも実行され、パフォーマンスを評価し、調整を支援しています。NVIDIA AI エンタープライズ エコシステムのさまざまな要素とエンティティが投入およびテストされ、微調整、推論、および RAG に関する多数の企業中心のお客様のユース ケースを評価します。ネットワークを使用したシングル ノードおよびマルチ ノードの両方で NVIDIA 認定システム のテスト スイート バージョン 3.5 を実行した結果、Cisco UCS C885A M8 ラック サーバは合格しました。

要約

つまり、Cisco Nexus Hyperfabric AI は、完全に統合された、エンドツーエンドのテスト済み AI クラスタ ソリューションであり、AI インフラストラクチャの展開ニーズに対応するワンストップ ショップをお客様に提供します。

付録 A:コンピューティング サーバの仕様

Cisco UCS C885A M8 ラック サーバ

表 6.                Cisco UCS C885A M8 8RU ラック サーバ

エリア

詳細

フォーム ファクタ

8RU ラック サーバ(空冷)

コンピューティング + メモリ

5 世代 AMD EPYC 9575F X 2400W64 コア、最大 5GHz

24x 96GB DDR5 RDIMM、最大 6,000 MT/S(推奨メモリ構成)

24x 128GB DDR5 RDIMM、最大 6,000 MT/S(サポートされる最大メモリ構成)

ストレージ

RAID サポート付きデュアル 1 TB M.2 NVMe(ブート デバイス)

最大 16 台の PCIe5 x4 2.5 インチ U.2 1.92 TB NVMe SSD(データキャッシュ)

GPU

8x NVIDIA H200 GPU(各 700W

ネットワーク カード

8 PCIe x16 HHHL NVIDIA BlueField-3 B3140H East-West NIC

2 PCIe x16 FHHL NVIDIA BlueField-3 B3240 North-South NIC

1 つのホスト管理用の OCP 3.0 X710-T2L

冷却

システム冷却用の 16 ホットスワップ可能(N+1)ファン

前面 IO

2xUSB 2.01xID ボタン、1x電源ボタン

背面 IO

1x USB 3.0 A1x USB 3.0 CmDP1x ID ボタン、1x 電源ボタン、1x USB 2.0 C1x RJ45

電源装置

6 X 54V 3kW MCRPS4+2 冗長性)および 2 X 12V 2.7kW CRPS1+1 冗長性)

付録 B:制御ノード サーバの仕様

汎用性の高い Cisco UCS C225 M8 1RU ラック サーバは、Slurm および KubernetesK8)、等のサポート サーバと制御ノードサーバとして使用されます。表 7 は、サーバの最小仕様を表示します。

表 7.                Cisco UCS C225 M8 1RU ラック サーバ

エリア

詳細

フォーム ファクタ

1RU ラック サーバ(空冷)

コンピューティング + メモリ

1x 4 世代 AMD EPYC 9454P48 コア)

32GB DDR5 RDIMM X 124800MT/s

ストレージ

RAID 搭載デュアル 1 TB M.2 SATA SSD(ブート デバイス)

最大 10 台の 2.5 インチ PCIe Gen4 NVMe PCIe SSD(それぞれ容量 1.9 15.3 TB):オプション

ネットワーク カード

1 PCIe x16 FHHL NVIDIA BlueField-3 B3220LDPU モードで構成)

または

1 PCIe x16 FHHL NVIDIA BlueField®-3 B3140HDPU モードで構成)

x86 ホスト管理用の 1 OCP 3.0 X710-T2L2 x 10G RJ45

冷却

システム冷却用の 8 ホットスワップ可能(N+1)ファン

電源装置

2x 1.2KW MCRP PSU N+1 冗長構成

BMC

ホスト管理用の 1G RJ45

2 ソケット CPU を使用する展開では、B3220 DPU NIC とともに Cisco UCS C245 M8 2RU ラック サーバ バリアントを使用できます。

Learn more