メモリ関連の障害

この章は、次の項で構成されています。

fltMemoryArrayVoltageThresholdCritical

障害コード

F0190

説明

この障害が発生すると、次のいずれかのメッセージが表示されます。

  • [sensor_name]:メモリ ライザー [Id] の電圧しきい値が重大しきい値の上限レベルにあります。電源を確認してください。マザーボードの電源コネクタを取り付け直してください。([sensor_name]: Memory riser [Id] Voltage Threshold at upper critical levels: Check Power Supply; reseat power connectors on the motherboard.)

  • [sensor_name]:下限重大レベルのメモリ ライザー [Id] 電圧しきい値:電源を確認してください。マザーボードの電源コネクタを取り付け直してください。([sensor_name]: Memory riser [Id] Voltage Threshold at lower critical levels: Check Power Supply; reseat power connectors on the motherboard.)

説明

この障害は、メモリ アレイの電圧が指定したハードウェアの電圧定格を超えた場合に発生します。

推奨処置

この障害が発生した場合は、次の処理を実行します。

  1. どのしきい値を超えたかを特定するために、DIMM の SEL の統計情報を確認します。

  2. メモリ アレイをモニタして、さらに低下するかを確認します。

  3. 電源装置を交換してください。このコンポーネントを交換する前に、前提条件、安全に関する推奨事項と警告について、サーバ固有のインストレーションおよびサービス ガイドを参照してください。

  4. 問題がまだ続く場合は、tech-support ファイルを作成し、Cisco TAC にお問い合わせください。

障害の詳細

Severity: major

原因(Cause):電圧の問題(voltage-problem)

mibFaultCode:190

mibFaultName:fltMemoryArrayVoltageThresholdCritical

moClass:memory:Array

タイプ(Type):環境(environmental)

fltMemoryArrayVoltageThresholdNonRecoverable

障害コード

F0191

説明

この障害が発生すると、次のいずれかのメッセージが表示されます。

  • [sensor_name]:上限回復不能レベルのメモリ ライザー [Id] 電圧しきい値:電源を確認してください。マザーボードの電源コネクタを取り付け直してください。([sensor_name]: Memory riser [Id] Voltage Threshold at upper non recoverable levels: Check Power Supply; reseat power connectors on the motherboard.)

  • [sensor_name]:下限回復不能レベルのメモリ ライザー [Id] 電圧しきい値:電源を確認してください。マザーボードの電源コネクタを取り付け直してください。([sensor_name]: Memory riser [Id] Voltage Threshold at lower non recoverable levels: Check Power Supply; reseat power connectors on the motherboard.)

説明

この障害は、メモリ アレイの電圧が指定したハードウェアの電圧定格を超えた場合に発生します。高電圧は、メモリのハードウェアを傷つける可能性があります。

推奨処置

この障害が発生した場合は、次の処理を実行します。

  1. どのしきい値を超えたかを特定するために、DIMM の SEL の統計情報を確認します。

  2. メモリ アレイをモニタして、さらに低下するかを確認します。

  3. 電源装置を交換してください。

    このコンポーネントを交換する前に、前提条件、安全に関する推奨事項と警告について、サーバ固有のインストレーションおよびサービス ガイドを参照してください。

  4. 問題がまだ続く場合は、tech-support ファイルを作成し、Cisco TAC にお問い合わせください。

障害の詳細

Severity: critical

原因(Cause):電圧の問題(voltage-problem)

mibFaultCode:191

mibFaultName:fltMemoryArrayVoltageThresholdNonRecoverable

moClass:memory:Array

タイプ(Type):環境(environmental)

fltMemoryUnitDegraded

障害コード

F0184

説明

DIMM [Id] は劣化しています。DIMM をチェックするか、交換してください。(DIMM [Id] is degraded : Check or replace DIMM.)

説明

この障害は、DIMM が縮退運転状態である場合に発生します。通常、この状態は、DIMM での過剰な数の修正可能な ECC エラーが、サーバ BIOS によって報告されている場合に発生します。

推奨処置

この障害が発生した場合は、次の処理を実行します。

  1. DIMM の ECC エラーをさらにモニタします。相当数のエラーが解決しなかった場合は、DIMM が動作不能になっている可能性があります。

  2. DIMM が動作不能になっている場合は、DIMM を交換します。障害のある DIMM の検索に CIMC WebUI を使用できます。

    このコンポーネントを交換する前に、前提条件、安全に関する推奨事項、警告、および手順について、サーバ固有のインストレーションおよびサービス ガイドを参照してください。

  3. 問題がまだ続く場合は、tech-support ファイルを作成し、Cisco TAC にお問い合わせください。

障害の詳細

Severity: warning

原因(Cause):機器の劣化(equipment-degraded)

mibFaultCode:184

mibFaultName:fltMemoryUnitDegraded

moClass:memory:Unit

タイプ(Type):機器(equipment)

fltMemoryUnitDisabled

障害コード

F0844

説明

MEM_RSR3_STATUS:メモリ ライザー 3 は、メモリ ライザー設定が混在しているか無効であるため使用不可になっています。ライザーを取り外し、ホスト CPU タイプが取り付けられているメモリ ライザー DDR タイプをサポートしていることを確認してください。(MEM_RSR3_STATUS: Memory riser 3 has been disabled due to a mixed or invalid memory riser configuration: Remove the riser and make sure the host CPU type supports the Memory Riser DDR type that is installed.)

説明

この障害は、対応するメモリ ライザーが使用不可になっていることを示しています。

推奨処置

この障害が発生した場合は、次の処理を実行します。

  1. ライザーを取り外します。

  2. ホスト CPU タイプが取り付けられているメモリ ライザー DDR タイプをサポートしていることを確認します。

  3. 問題がまだ続く場合は、tech-support ファイルを作成し、Cisco TAC にお問い合わせください。

障害の詳細

重大度(Severity):クリティカル(critical)

原因(Cause):機器使用不可(equipment-disabled)

mibFaultCode:844

mibFaultName:fltMemoryUnitDisabled

moClass:memory:Array

タイプ(Type):機器(equipment)

fltMemoryUnitIdentityUnestablishable

障害コード

F0502

説明

この障害が発生すると、次のいずれかのメッセージが表示されます。

  • [sensor_name]:メモリ ライザー [Id] がありません。メモリ ライザー [Id] を取り付け直すか、交換してください。([sensor_name]: Memory Riser [Id] missing: reseat or replace memory riser [Id].)

  • [sensor_name]:メモリ ユニット [Id] がありません。物理メモリ [Id] を取り付け直すか、交換してください。([sensor_name]: Memory Unit [Id] missing: reseat or replace physical memory [Id].)

説明

この障害は、センサーによってサーバ内にサポートされていない DIMM が検出されたことを示しています。たとえば、モデルやベンダーを認識できない場合です。

推奨処置

この障害が発生した場合は、DIMM がサーバの設定でサポートされているかどうかを確認します。DIMM がサーバの設定でサポートされていない場合は、Cisco TAC に連絡してください。

障害の詳細

Severity: warning

原因(Cause):ID 確立不可(identity-unestablishable)

mibFaultCode:502

mibFaultName:fltMemoryUnitIdentityUnestablishable

moClass:memory:Unit

タイプ(Type):機器(equipment)

fltMemoryUnitInoperable

障害コード

F0185

説明

DIMM [Id] は動作不能です。DIMM を取り付け直すか、交換してください。(DIMM [Id] is inoperable : Check or replace DIMM.)

説明

この障害は、DIMM の修正可能または修正不可能なエラーがしきい値に達したことを示しています。DIMM が動作不能になっている可能性があります。

推奨処置

この障害が発生した場合は、次の処理を実行します。

  1. どのしきい値を超えたかを特定するために、DIMM の SEL の統計情報を確認します。

  2. 必要な場合は、DIMM を交換します。障害のある DIMM の検索に CIMC Web UI を使用できます。

    このコンポーネントを交換する前に、前提条件、安全に関する推奨事項、警告、および手順について、サーバ固有のインストレーションおよびサービス ガイドを参照してください。

  3. 問題がまだ続く場合は、tech-support ファイルを作成し、Cisco TAC にお問い合わせください。

障害の詳細

Severity: major

原因(Cause):機器動作不能(equipment-inoperable)

mibFaultCode:185

mibFaultName:fltMemoryUnitInoperable

moClass:memory:Unit

fltMemoryUnitThermalThresholdCritical

障害コード

F0187

説明

この障害が発生すると、次のいずれかのメッセージが表示されます。

  • メモリ ユニット [Id] の温度が重大しきい値の上限に達しました。冷却装置を確認してください。(Memory Unit [Id] temperature is upper critical: Check Cooling.)

  • [sensor_name]:メモリ ライザー [Id] の熱しきい値が重大しきい値の上限レベルにあります。冷却装置を確認してください。([sensor_name]: Memory riser [Id] Thermal Threshold at upper critical levels: Check Cooling.)

説明

この障害は、サーバのメモリ装置の温度が重大しきい値を超えている場合に発生します。

考えられる要因は次のとおりです。

  • 極端な温度下では、Cisco UCS 機器の動作効率の低下が生じたり、早期劣化、チップの障害、および機器の障害を含むさまざまな問題が生じたりすることがあります。また、極端な温度変化によって、CPU がソケットから外れることがあります。

  • Cisco UCS 機器は、吸気温度が 10 °C(50 °F)を下回らず、35 °C(95 °F)を上回らない環境で動作する必要があります。

  • CPU のセンサーが 82 °C(179.6 °F)に到達すると、システムはその CPU をオフラインにします。

推奨処置

この障害が発生した場合は、次の処理を実行します。

  1. 製品仕様書で、サーバの動作温度範囲を確認します。

  2. 『Cisco UCS Site Preparation Guide』を確認して、前面および背面のスペースを含め、サーバに適切なエアーフローを確保します。

  3. サーバへのエアーフローが妨げられていないことを確認します。

  4. サイトの冷却システムが正常に動作していることを確認します。

  5. 設置場所を定期的にクリーニングして、ほこりやごみが堆積しないようにしてください。それらが堆積するとシステムが過熱するおそれがあります。

  6. 問題がまだ続く場合は、tech-support ファイルを作成し、Cisco TAC にお問い合わせください。

障害の詳細

重大度(Severity):警告(warning)

原因(Cause):熱の問題(thermal-problem)

mibFaultCode:187

mibFaultName:fltMemoryUnitThermalThresholdCritical

moClass:memory:Unit

タイプ(Type):環境(environmental)

fltMemoryUnitThermalThresholdNonCritical

障害コード

F0186

説明

この障害が発生すると、次のいずれかのメッセージが表示されます。

  • メモリ ユニット [Id] の温度が非重大しきい値の上限に達しました。冷却装置を確認してください。(Memory Unit [Id] temperature is upper non critical: Check Cooling.)

  • [sensor_name]:上限非重大レベルのメモリ ライザー [Id] 熱しきい値:冷却装置を確認してください([sensor_name]: Memory riser [Id] Thermal Threshold at upper non critical levels: Check Cooling)

説明

この障害は、サーバのメモリ装置の温度が非重大しきい値を超えたが、まだ重大しきい値未満である場合に発生します。

考えられる要因は次のとおりです。

  • 極端な温度下では、Cisco UCS 機器の動作効率の低下が生じたり、早期劣化、チップの障害、および機器の障害を含むさまざまな問題が生じたりすることがあります。また、極端な温度変化によって、CPU がソケットから外れることがあります。

  • Cisco UCS 機器は、吸気温度が 10 °C(50 °F)を下回らず、35 °C(95 °F)を上回らない環境で動作する必要があります。

  • CPU のセンサーが 82 °C(179.6 °F)に到達すると、システムはその CPU をオフラインにします。

推奨処置

この障害が発生した場合は、次の処理を実行します。

  1. 製品仕様書で、サーバの動作温度範囲を確認します。

  2. 『Cisco UCS Site Preparation Guide』を確認して、前面および背面のスペースを含め、サーバに適切なエアーフローを確保します。

  3. サーバへのエアーフローが妨げられていないことを確認します。

  4. サイトの冷却システムが正常に動作していることを確認します。

  5. 設置場所を定期的にクリーニングして、ほこりやごみが堆積しないようにしてください。それらが堆積するとシステムが過熱するおそれがあります。

  6. 問題がまだ続く場合は、tech-support ファイルを作成し、Cisco TAC にお問い合わせください。

障害の詳細

Severity: minor

原因(Cause):熱の問題(thermal-problem)

mibFaultCode:186

mibFaultName:fltMemoryUnitThermalThresholdNonCritical

moClass:memory:Unit

タイプ(Type):環境(environmental)

fltMemoryUnitThermalThresholdNonRecoverable

障害コード

F0188

説明

この障害が発生すると、次のいずれかのメッセージが表示されます。

  • メモリ ユニット [Id] の温度が回復不能しきい値の上限に達しました。冷却装置を確認してください。(Memory Unit [Id] temperature is upper non recoverable: Check Cooling.)

  • [sensor_name]:上限回復不能レベルのメモリ ライザー [Id] 熱しきい値:冷却装置を確認してください。([sensor_name]: Memory riser [Id] Thermal Threshold at upper non recoverable levels: Check Cooling.)

説明

この障害は、サーバのメモリ装置の温度が動作範囲外になっている場合に発生します。

考えられる要因は次のとおりです。

  • 極端な温度下では、Cisco UCS 機器の動作効率の低下が生じたり、早期劣化、チップの障害、および機器の障害を含むさまざまな問題が生じたりすることがあります。また、極端な温度変化によって、CPU がソケットから外れることがあります。

  • Cisco UCS 機器は、吸気温度が 10 °C(50 °F)を下回らず、35 °C(95 °F)を上回らない環境で動作する必要があります。

  • CPU のセンサーが 82 °C(179.6 °F)に到達すると、システムはその CPU をオフラインにします。

推奨処置

この障害が発生した場合は、次の処理を実行します。

  1. 製品仕様書で、サーバの動作温度範囲を確認します。

  2. 『Cisco UCS Site Preparation Guide』を確認して、前面および背面のスペースを含め、サーバに適切なエアーフローを確保します。

  3. サーバへのエアーフローが妨げられていないことを確認します。

  4. サイトの冷却システムが正常に動作していることを確認します。

  5. 設置場所を定期的にクリーニングして、ほこりやごみが堆積しないようにしてください。それらが堆積するとシステムが過熱するおそれがあります。

  6. 問題がまだ続く場合は、tech-support ファイルを作成し、Cisco TAC にお問い合わせください。

障害の詳細

Severity: major

原因(Cause):熱の問題(thermal-problem)

mibFaultCode:188

mibFaultName:fltMemoryUnitThermalThresholdNonRecoverable

moClass:memory:Unit

タイプ(Type):環境(environmental)