ハードウェア問題のトラブルシューティング

このハードウェア問題のトラブルシューティングは、次の内容で構成されています。

マザー ボード

G3 ~ S5

AC 電源を供給した後、郵便番号デバッグ LED(図 13)(デュアル M.2 ライザー カード上)を参照し、LED が点灯しているかどうかを確認します。

「はい」の場合、 FPGA 電源投入エラー コード(LED ビット 2 および 1 を確認) を参照して、対応する郵便番号を確認します。

図 1. デュアル M.2 ライザー カードの郵便番号 デバッグ LED

(注)  


郵便番号デバッグ LED ビット(4、3、2、1)

  • 点灯:LED ビット(4、3、2、1)でBIOS 80、81 ポートのデータを表示します。(詳細については、 BIOS 関連の問題 > ISSU 後

  • 点灯:2 つのドットが点灯した LED 4 および 3 での PFR 郵便番号データの表示

  • :LED ビット(2、1)に FPGA 電源シーケンスとエラー コード、またはボード ID を表示します。(詳細については、 表 3:FPGA 電源投入エラーコード(LED ビット 2 および 1 を確認))


FPGA 郵便番号エラー コード チェック

システム ポストのハングが発生した場合は、郵便番号デバッグ LED の数字を書き留めて、 表 3:FPGA 電源投入エラーコード(LED ビット 2 および 1 を確認):電源投入エラー状態, 表 4:FPGA 電源切断エラー コード(LED ビット 2 および 1 を確認)、および 表 5:熱エラー郵便番号(LED ビット 2 および 1 を確認)、以下に進み、根本原因を確認します。

表 1. FPGA 電源投入エラーコード(LED ビット 2 と 1 を確認):電源投入エラー状態
郵便番号 項目
10 LTPI PHY の調整
11 FM_HPM_STBY_EN(LTPI リンクアップ)
12 BMC 対応
13 CPU0 が存在しません
14 PWRGD_CPU_PVDD3V3_STBY
15 PWRGD_CPU0_PVDD1V8_STBY
16 PWRGD_CPU1_PVDD1V8_STBY
17 FM_HPM_STBY_RST
18 PWRGD_PSU1_PWROK
19 PWRGD_PSU2_PWROK
22 PWRGD_GPU_P54V(HIB によって提供)
21 PWRGD_P3V3
31 PWRGD_PVDD1V1_P0
32 PWRGD_PVDDIO_P0
33 PWRGD_PVDDCR_SOC_P0
34 PWRGD_PVDDCR_CPU0_P0
35 PWRGD_PVDDCR_CPU1_P0
41 PWRGD_PVDD1V1_P1
54 PWRGD_PVDDIO_P1
43 PWRGD_PVDDCR_SOC_P1
44 PWRGD_PVDDCR_CPU0_P1
45 PWRGD_PVDDCR_CPU1_P1
46 SYS_POWER_ON_READY
表 2. FPGA 電源切断エラー コード(LED ビット 2 および 1 を確認)
郵便番号 項目
51 FM_HPM_STBY_EN
52 BMC 対応
53 CPU0 が存在しません
54 PWRGD_CPU_PVDD3V3_STBY
55 PWRGD_CPU0_PVDD1V8_STBY
72 PWRGD_CPU1_PVDD1V8_STBY
57 FM_HPM_STBY_RST
62 PWRGD_GPU_P54V(HIB によって提供)
61 PWRGD_P3V3
71 PWRGD_PVDD1V1_P0
72 PWRGD_PVDDIO_P0
73 PWRGD_PVDDCR_SOC_P0
74 PWRGD_PVDDCR_CPU0_P0
75 PWRGD_PVDDCR_CPU1_P0
81 PWRGD_PVDD1V1_P1
82 PWRGD_PVDDIO_P1
83 PWRGD_PVDDCR_SOC_P1
84 PWRGD_PVDDCR_CPU0_P1
85 PWRGD_PVDDCR_CPU1_P1
86 SYS_POWER_ON_READY
表 3. 温度エラーの郵便番号(LED ビット 2 と 1 を確認)
郵便番号 項目
91 FM_CPU0_THERMTRIP_N
92 FM_CPU1_THERMTRIP_N
9F ユニバーサル サーマル エラー

(注)  


  1. すべてのファンが正常に動作しているかどうかを確認してください。

  2. いずれかのファンが機能を停止したり、異常な動作をした場合は、再度プラグインしてください。

  3. ファンの再プラグが機能しない場合は、ファンを直接交換してください。


S5 から S0(POST)

ポリシー固有の質問については、 7 章:BIOS関連の問題 80/81 郵便番号の LED ノートを確認します。

80/81 ポート LED の確認

(BIOS はデコードを提供)

システムエラー

OS 問題のトラブルシューティング

PCIE デバイスの損失チェック

前提条件

PCIE デバイスが OS で検出されません。

トラブルシューティングの手順

  1. OS でコマンドを実行して、失われたデバイスとその対応するスロット位置を確認します。

    • PCIe ツリーとデバイスのアドレスを確認します:lspci -tv | less

    • 認識できないスロット ID を確認します。 lspci -v | grep -i “slot:”|sort “

  2. 失われたスロットの場所を取得した後、失われたデバイスのパスをチェックするために、システム PCIE トポロジ マッピング テーブルを適用します。

PCIE トポロジ マッピング テーブル

PCIE ルート ポート 送信元 ケーブル ID スイッチ ケーブル ボード コネクタ デバイス カテゴリ デバイス名

システム(System)

スロット名

[0000:40] [0000:60] MB #A #B SW1 HIB ボード #J CEMBB PCIE スロット(x16) LP2 202
#IPv4 アドレス PCIE スロット(x16) LP1 201
MIDPLANE CNHIB1 NVME SSD (x4) SSD1 301
NVME SSD (x4) SSD2 302
NVME SSD (x4) SSD3 303
NVME SSD (x4) SSD4 304
MEDPLANE から HGBB

CNHIB3、

CNHIB4、CNUBBJ9、

CNUBBJ10

GPU(OAM) GPU2 102
GPU(OAM) GPU 3 103
#Q [CEM_L] PCIE スロット(x16) FHHL11 211
PCIE ルート ポート 送信元 ケーブル ID スイッチ ケーブル ボード コネクタ デバイス カテゴリ デバイス名 システム スロット名
[0000:00] [0000:20] MB #C #D SW2 HIB ボード #L CEMBB PCIE スロット(x16) LP4 204
#K PCIE スロット(x16) LP3 203
MIDPLANE CNHIB5 NVME SSD (x4) SSD5 305
NVME SSD (x4) SSD6 306
NVME SSD (x4) SSD7 307
NVME SSD (x4) SSD8 308
MEDPLANE から HGBB

CNHIB6、

CNHIB7、CNUBBJ7、

CNUBBJ8

GPU(OAM) GPU 0 100
GPU(OAM) GPU 1 101
#R#U CEM_L PCIE スロット(x16) FHHL13 213
#Y#U CEM_L PCIE スロット(x16) FHHL15 215
Riser-M.2 (x4) M.2
PCIE ルート ポート 送信元 ケーブル ID スイッチ ケーブル ボード コネクタ デバイス カテゴリ デバイス名 システム スロット名
[0000:c0] [0000:e0] MB #E #F SW3 HIB ボード #N CEMBB PCIE スロット(x16) LP6 206
#M PCIE スロット(x16) LP5 205
MIDPLANE CNHIB10 NVME SSD (x4) SSD9 309
NVME SSD (x4) SSD10 310
NVME SSD (x4) SSD11 311
NVME SSD (x4) SSD12 312
MEDPLANE から HGBB

CNHIB8

CNHIB9 CNUBBJ5

CNUBBJ6

GPU (OAM) GPU7 107
GPU (OAM) GPU6 106
#S #X CEM_R PCIE スロット(x16) FHHL12 212
#Z M.2 アダプタ カード Riser-M.2 (x4) M.2
Riser-M.2 (x4) M.2
OCP カード OCP OCP1
PCIE ルート ポート 送信元 ケーブル ID スイッチ ケーブル ボード コネクタ デバイス カテゴリ デバイス名 システム スロット名
[0000:80] [0000:a0] MB #G#H SW4 HIB ボード #P CEMBB PCIE スロット(x16) LP8 208
#O PCIE スロット(x16) LP7 207
MIDPLANE CNHIB11 NVME SSD (x4) SSD13 313
NVME SSD (x4) SSD14 314
CNHIB14 NVME SSD (x4) SSD15 315
NVME SSD (x4) SSD16 316
MEDPLANE から HGBB

CNHIB12、

CNHIB13、CNUBBJ3

CNUBBJ4

GPU (OAM) GPU4 104
GPU (OAM) GPU5 105
#T #X CEM_R PCIE スロット(x16) FHHL14 214

SAS/SATA の問題

単一の SAS または SATA デバイスを検出できません

  1. SAS または SATA カードを再接続します。

  2. それでもデバイスを読み取れない場合は、新しい SAS または SATA カードに交換します。

  3. それでもデバイスを読み取れない場合は、新しいミッドプレーンに変更します。

すべての SAS または SATA デバイスを検出できません

  1. BIOS セットアップ メニューで RAID カードを確認します。

    通常の状況で「正常」画面を表示できるようになります。

  2. RAID カードに「Fail」またはカードが表示されない場合は、Raid カードを再接続するか、新しいカードに変更します。

  3. 問題が解決しない場合は、新しい CEM_L(R) カードと交換します。

  4. SSDドライバに Fail または表示されない場合は、 SAS IO ケーブルを再接続して、ピンが曲げられていないことを確認します。

  5. それでもデバイスを検出できない場合は、 SAS IO カードを接続し直します。

  6. 問題が再発した場合は、 SAS IO ケーブルとSAS IO カードを交換します。

NVMe/ SAS/SATA デバイスが異常であるか、または障害 LED を表示

  1. ドライブ LED を確認します。ドライブが存在する場合、アクティブ LED が緑色に点灯します。

    ドライブ キャリア LED インジケータ
    インジケータ カラー 点滅パターン デバイスの動作
    アクティビティ LED 消灯 消灯 ドライなし
    グリーン 点灯 ドライブはありますが、アクティビティはありません
    グリーン 点滅 4HZ ドライブはありますが、I/O アクティビティ
    ロケータ LED オレンジ 点滅 4HZ 探す(識別する)
    障害 LED RED 社 点灯 障害発生
    RED 社 点滅 1HZ 再構築
  2. 障害 LED が赤色に点灯している場合は、 BIOS メニューを入力して、デバイスが正常かどうかを確認します。

  3. BIOS に RAID カードの設定を入力し、すべてのデバイスのステータスが正常であることを確認して番号を確認します。ハードディスクに異常がある場合は、 TAC でケースを開いてください。