GPU 管理

GPU 管理

概要

GPU は、さまざまなアプリケーションの高性能コンピューティングおよびグラフィック処理に広く使用されています。BMC は、温度などの GPU の正常性ステータスをモニターして、計算負荷が高いときの過熱や誤動作を防ぎ、ハードウェアの信頼性と寿命を確保します。

モニター対象および制御対象の機能

BMC は、次の GPU 機能をモニターおよび制御します:

  • GPU 温度をモニターする

  • 現在の GPU 電力消費量をモニターする

  • GPU ボード上のコンポーネントの温度をモニターする

  • GPU ボード上のコンポーネントの電力消費をモニターする

  • GPU ボード上のコンポーネントのバージョンを表示する

  • GPU ボード上の GPU ファームウェアおよびコンポーネント ファームウェアをリモートで更新する

日付と時刻の構成


(注)  


このオプションは、一部のCisco UCS C885A M8 ラック サーバ構成でのみ利用可能です。


手順


ステップ 1

[ナビゲーション ペイン(Navigation Pane)]で、 [設定(Settings)] [ > 日付と時刻(Date and time)]を選択します。

ステップ 2

[構成設定(Configure Settings)]で、次のオプションのいずれかを選択します:

  • 手動

  • GPU 日時を BMC 日時と同じに設定する

ステップ 3

[マニュアル(Manual)] は、次のプロパティを更新します:

名前

説明

[日付(Date)] フィールド

YYYY-MM-DD 形式で入力します。

[24 時間表記(UTC)(24-hour time (UTC))]フィールド

HH:MM フォーマットで時間を入力します。

ステップ 4

BMC から設定を自動的にインポートするには、 [GPU 日時を BMC 日時と同じにする(Set GPU Datetime to be the BMC Datetime)] を選択します。

ステップ 5

[設定(Set)] をクリックします。


GPU FRU 情報の表示

手順


ステップ 1

[ナビゲーション ペイン(Navigation Pane)]で、[GPU 管理(GPU Management)] > [情報(Information)」を選択します。

ステップ 2

[FRU アセンブリ(FRU Assembly)]で、次のプロパティを表示できます:

名前

説明

モデル(Model)

GPU モデルを表示します。

名前

GPU 名を表示します。

製品番号

GPU に関連付けられている製品番号を一覧表示します。

物理コンテキスト

GPU の物理的なコンテキストまたは配置を記述します。

シリアル番号(Serial Number)

GPU のシリアル番号を表示します。

ベンダー

GPU のベンダーまたは製造元を識別します。

ステップ 3

[バージョン(Versions)]で、次のプロパティを表示できます:

名前

説明

[Name] カラム

GPU に関連するコンポーネントまたはソフトウェアを識別します。

[バージョン(Version)] カラム

コンポーネントまたはソフトウェアに関連付けられているバージョン番号を表示します。


GPU 電源および温度センサーの表示

手順


ステップ 1

[ナビゲーション ペイン(Navigation Pane)]で、[GPU 管理(GPU Management)] > [センサー(Sensors)」を選択します。

ステップ 2

[電力(Power)]で、次のプロパティを表示できます。

名前

説明

[Name] カラム

パワー センサーを識別します。

[現在の値(Current Value)] カラム

現在の電力測定値を表示します。

[最小の値(Current Value)] カラム

記録された最小電力値を表示します。

[最小の値(Current Value)] カラム

記録された最大電力値を表示します。

ステップ 3

[温度(Temperature)]では、次のプロパティを表示できます:

名前

説明

[Name] カラム

温度センサーを識別します。

[現在の値(Current Value)] カラム

現在の温度測定値を表示します。

[最小の値(Current Value)] カラム

記録された最小温度値を表示します。

[現在の値(Current Value)] カラム

記録された最大温度値を表示します。

[クリティカル上限(Critical High)] カラム

温度センサーのクリティカル上限しきい値を示します。

[クリティカル下限(Critical Low)] カラム

温度センサーの重大な下限しきい値を示します。


GPU 電力構成の表示

手順


ステップ 1

[ナビゲーション ペイン(Navigation Pane)]で、[GPU 管理(GPU Management)] > [電力(Power)」を選択します。

ステップ 2

次のプロパティを表示することができます:

名前

説明

[Name] カラム

GPU を識別します。

[消費電力(Power Consumption)] カラム

現在の電力の使用状況を表示します。

[パワーキャッピング(Power Cap)] カラム

GPU に設定されている最大電力制限を示します。


GPU 電力制限の適用

手順


ステップ 1

[ナビゲーション ペイン(Navigation Pane)]で、[GPU 管理(GPU Management)] > [電力(Power)」を選択します。

ステップ 2

[電力制限の適用(Apply power cap) ] チェックボックスを選択します。

ステップ 3

[電力制限値(ワット)(Power cap value (in watts))] フィールドに、200 ~ 750 の値を入力します。

ステップ 4

[保存(Save)] をクリックします。


イベント ログ

GPU イベント ログの表示

手順


ステップ 1

ナビゲーション ウィンドウから、 [GPU 管理 (GPU Management)] > [イベント ログ(Event logs)]を選択します。

ステップ 2

次のオプションに基づいてイベント ログをフィルタ処理できます。

  • 開始終了の日付

  • 重要度に基づく:( OKWarning、および Critical)

  • 検索フィールドを使用して検索キーワード

次のログ プロパティを表示することができます:

名前

説明

[ID] カラム

各ログ エントリの一意の識別子を表示します。

[シビラティ(重大度)(Severity)] カラム

ログ エントリの重要度または影響のレベルを示します。次のいずれかになります。

  • [OK]:ログエントリが正常または成功した操作を表していることを示します。

  • [クリティカル(critical)]:すぐに対処が必要な重大な問題があることを示します。

  • [注意(Warning)]:モニターする必要がある潜在的な問題を示します。

[日付(Date)] カラム

ログ エントリが記録された日時を表示します。

[Description] カラム

ログ エントリに関する簡単な概要または詳細を提供します。


GPU イベント ログのエクスポート

手順


ステップ 1

ナビゲーション ウィンドウから、 [GPU 管理 (GPU Management)] > [イベント ログ(Event logs)]を選択します。

ステップ 2

1 つのログ エントリをエクスポートするには、エクスポートする行に対応するエクスポートアイコンをクリックします。

ステップ 3

(任意) すべてのログ エントリをエクスポートするには、 [すべてエクスポート(Export all)]をクリックします。

ブラウザ設定によって、JSON ログ ファイルを開くまたは、保存することをプロンプトされる場合があります。


GPU ファームウェアのアップデート

始める前に

この手順を始める前にクライエントにファームウェア ファイルが利用可能だということを確認します。

手順


ステップ 1

[ナビゲーション ペイン(Navigation Pane)]で、[GPU 管理(GPU Management)] > [Firmware(ファームウェア)]を選択します。

ステップ 2

[ファイルを追加(Add File)] をクリックしてファームウェア ファイルの場所を探すために参照します。

ファームウェア ファイルを選択します。

ステップ 3

ファームウェア アップデートを開始するために [アップデートを開始(Start Update)] をクリックします。


次のタスク

ファームウェアの更新が完了したら、AC 電源の再投入を実行して GPU のアップグレードをアクティブ化して完了します。