診断の設定

Cisco UCS Manager 診断の概要

Cisco UCS Manager 診断ツールでは、サーバーのハードウェア コンポーネントの状態を検証できます。診断ツールには各種テストが用意されており、サーバーのさまざまなハードウェア サブシステム(メモリや CPU など)に対して、負荷を与えたりすることができます。ハードウェア コンポーネントを修復するか、交換した後のサーバーの状態の健全性チェックを実行するためのツールを使用できます。このツールは、実稼働環境に新しいサーバーを導入する前に、包括的なバーンイン テストを実行するときにも使用できます。

新しいシステムの場合、org スコープでデフォルトの診断ポリシーが作成されます。このデフォルトのポリシーは default という名前であり、削除できません。ユーザーがこのポリシーを削除しようとするとエラー メッセージが表示されます。デフォルトの診断ポリシーは、すべてのサーバーで同じテスト セットを実行する際に推奨される方法です。デフォルト ポリシーを含むすべての診断ポリシーはカスタマイズ可能です。

デフォルト ポリシーには 1 つのメモリ テストだけが含まれています。メモリ テストのデフォルトのパラメータは変更できます。また、デフォルト診断ポリシー内のメモリ テストは削除できます。メモリ テストがない場合、診断ポリシーは実行されません。

診断ポリシーの作成

始める前に

このタスクを実行するには、admin 権限を持つユーザとしてログインする必要があります。

手順

  コマンドまたはアクション 目的

ステップ 1

UCS-A # scope org

組織コンフィギュレーション モードを開始します。

ステップ 2

UCS-A /org # create diag-policy <diag-policy>

診断ポリシーを作成します。

(注)  

 

診断ポリシー名には、最大で 16 文字まで使用できます。

ステップ 3

UCS-A /org/diag-policy # commit buffer

次に、診断ポリシーに説明を作成して設定する例を示します。


UCS-A# scope org 
UCS-A /org # create diag-policy new-policy
UCS-A /org/diag-policy* # commit-buffer
 

診断ポリシーのメモリ テストの設定

始める前に

このタスクを実行するには、admin 権限を持つユーザとしてログインする必要があります。

手順

  コマンドまたはアクション 目的

ステップ 1

UCS-A # scope org

組織コンフィギュレーション モードを開始します。

ステップ 2

UCS-A /org # create diag-policy-name <diag-polic-name>

カスタム診断ポリシーを作成します。診断ポリシーには、最大で 16 文字まで使用できます。

ステップ 3

UCS-A /org/diag-policy-name* # commit buffer

トランザクションをシステムの設定にコミットします。

ステップ 4

UCS-A /org/diag-policy # create memory-test <memory-test <test order>

診断ポリシーのカスタム メモリ テストを作成します。メモリ テスト ID の範囲は、1 ~ 64 です。

メモリ テストには、ユーザーが設定できる次の値があります。
名前 説明

注文

テストの実行順序。

[CPU Filter]

CPU フィルタをすべての CPU または指定した CPU に設定します。

[Loop Count]

ループ カウントを指定された反復回数に設定します。値の範囲は 1 ~ -1000 です。

[Memory Chunk Size]

メモリ チャンクを 5mb-chunk または big-chunk に設定します。

Memory Size

メモリ サイズを特定の値に設定します。

Pattern

メモリ テストを butterfly、killer、prbs、prbs-addr、または prbs-killer に設定します。

ステップ 5

UCS-A /org/diag-policy/memory-test* # set cpu-filter {all cpus | p0-p1-cpus}

すべての CPU またはコア 0 および 1 の CPU に CPU フィルタを設定します。値は all cups または p0-p1-cpus です。

ステップ 6

UCS-A /org/diag-policy/memory-test* # set memchunksize {5mb-chunk | big-chunk}

メモリ チャンク サイズを指定された値(GiB 単位)に設定します。値は 5mb-chunk または big-chunk です。

ステップ 7

UCS-A /org/diag-policy/memory-test* # set memsize {0-4096 | all}

メモリ サイズを指定された値に設定します。使用可能な値は、0 ~ 4096、または all です。

ステップ 8

UCS-A /org/diag-policy/memory-test* # set pattern {butterfly |killer |prbs |prbs-addr |prbs-killer}

メモリ テストを指定されたパターンに設定します。使用可能なパターンは、butterfly、killer、prbs、prbs-addr、または prbs-killer です。

ステップ 9

UCS-A /org/diag-policy/memory-test* # set loopcount 1-1000

ループ カウントを指定された反復回数に設定します。ループ カウントは、1 ~ 1000 の範囲で指定します。

ステップ 10

UCS-A /org/diag-policy/memory-test* # commit-buffer

トランザクションをシステムの設定にコミットします。

ステップ 11

UCS-A /org/diag-policy/memory-test # exit

メモリ テストのスコープを終了します。

ステップ 12

UCS-A /org/diag-policy # show configuration

カスタム診断ポリシーのメモリ テストに設定された設定値を表示します。

次に、診断ポリシーにメモリ テストを作成する例を示します。


UCS-A# scope org
UCS-A /org # create diag-policy P2
UCS-A /org/diag-policy* # commit-buffer
UCS-A /org/diag-policy # create memory-test 1
UCS-A /org/diag-policy/memory-test* # set cpu-filter all-cpus
UCS-A /org/diag-policy/memory-test* # set memchunksize big-chunk
UCS-A /org/diag-policy/memory-test* # set memsize all
UCS-A /org/diag-policy/memory-test* # set pattern butterfly
UCS-A /org/diag-policy/memory-test* # set loopcount 1000
UCS-A /org/diag-policy/memory-test* # commit-buffer
UCS-A /org/diag-policy/memory-test # exit
UCS-A /org/diag-policy # show configuration
enter diag-policy P2
enter memory-test 1
set cpu-filter all-cpus
set loopcount 1000
set memchunksize big-chunk
set memsize all
set pattern butterfly
exit
set descr ""
set policy-owner local
exit
UCS-A /org/diag-policy #

診断ポリシーの削除

始める前に

このタスクを実行するには、admin 権限を持つユーザとしてログインする必要があります。

手順

  コマンドまたはアクション 目的

ステップ 1

UCS-A # scope org

組織コンフィギュレーション モードを開始します。

ステップ 2

UCS-A /org # delete diag-policy <diag-policy>

指定した診断ポリシーを削除します。

ステップ 3

UCS-A /org* # commit-buffer

トランザクションをシステムの設定にコミットします。

次に、診断ポリシーを削除する例を示します。


UCS-A # scope org
UCS-A /org # delete diag-policy P2
UCS-A /org* # commit-buffer
UCS-A /org #
 

サーバーでの診断テストの実行

始める前に

このタスクを実行するには、admin 権限でログインする必要があります。

手順

  コマンドまたはアクション 目的

ステップ 1

UCS-A # scope server chassis-id /server-id

指定サーバーのシャーシ サーバー範囲を入力します。

ステップ 2

UCS-A /chassis/server # scope diag

診断モードを開始します。

ステップ 3

UCS-A /chassis/server/diag # set diag-policy-name <diag-policy-name>

指定された診断ポリシーをサーバーに関連付けます。

ステップ 4

UCS-A /chassis/server/diag* # commit-buffer

トランザクションをシステムの設定にコミットします。

ステップ 5

UCS-A /chassis/server/diag # show

サーバー診断の詳細を表示します。

ステップ 6

UCS-A /chassis/server/diag # start

サーバーで診断テストを実行します。

ステップ 7

UCS-A /chassis/server/diag* # commit-buffer

トランザクションをシステムの設定にコミットします。

次に、サーバー 1/7 で診断テストを実行する例を示します。


UCS-A # scope server 1/7
UCS-A /chassis/server # scope diag
UCS-A /chassis/server/diag # set diag-policy-name P1 
UCS-A /chassis/server/diag* # commit-buffer  
UCS-A /chassis/server/diag # show 
Oper State    Diag Overall Progress    Diag Policy Name
-----------   ----------------------   ----------------
Completed     100                      P1
UCS-A /chassis/server/diag # start 
UCS-A /chassis/server/diag* # commit-buffer
UCS-A /chassis/server/diag #  

診断テストの停止

始める前に

このタスクを実行するには、admin 権限を持つユーザとしてログインする必要があります。

手順

  コマンドまたはアクション 目的

ステップ 1

UCS-A # scope server

サーバー コンフィギュレーション モードを開始します。

ステップ 2

UCS-A chassis/server # scope diag

診断コンフィギュレーション モードを開始します。

ステップ 3

UCS-A chassis/server/diag # stop

診断ポリシーを停止します。

ステップ 4

UCS-A /chassis/server/diag* # commit-buffer

トランザクションをシステムの設定にコミットします。

次に、診断ポリシーを停止する例を示します。

UCS-A# scope server 1/2
UCS-A /chassis/server # scope diag
UCS-A /chassis/server/diag # stop
UCS-A /chassis/server/diag* # commit-buffer
 

診断のトラブルシューティング

問題

デバッグ手順

BIOS が不良 DIMM を検出すると、その DIMM は無効になり、診断操作では認識されません。

診断操作の結果の他に、メモリ関連のエラーを参照してください。

DIMM ブラックリスト機能が有効であり、DIMM がブラックリストに追加されると、その DIMM は診断操作では認識されません。

診断操作の結果の他に、メモリ関連のエラーを参照してください。

サーバーに不良 DIMM があり、これが原因でサーバーが起動できない場合、診断操作が正常に実行されない可能性があります。

該当なし

修正できないエラーが原因でサーバー リブートが行われる場合、診断操作が失敗する可能性があります。

該当なし

メモリ エラーが原因で診断操作が停止する場合、診断操作エラーが発生する可能性があります。

該当なし

診断操作は、管理型エンドポイントのフェールオーバーやクリティカルな UCSM プロセスの再起動などの外部イベントにより中断することがあります。このような状況では、診断操作が取り消され、メモリ テストが失敗としてマークされます。

このエラーは外部イベントによってトリガーされます。診断操作をやり直します。

メモリ テストが失敗してエラーが発生します。修正できないエラーが検出されます。

[Chassis/Server/Faults] タブで、サーバー エラーを確認します。

[Chassis/Server/SEL Logs] タブで、SEL ログを調べて DIMM エラーを確認します。

メモリ テスト エラーをさらに分析する必要があります。

プライマリ FI の /workspace パーティションにある次のログ ファイル アーカイブで、診断操作のログを確認します:diagnostics/diag_log_<system-name>_<timestamp>_<chassis-id>_<blade-id>.tgz

前述のログ ファイル アーカイブ内で分析ファイル tmp/ServerDiags/MemoryPmem2.<id>/MemoryPmem2.analysis を参照します。

次のコマンドを使用して、分析ファイルで診断ログを見つけます。

# for file in `ls /workspace/diagnostics/*diag*`; do tar -tzvf $file | grep analysis && echo "IN " $file; done