はじめに
このドキュメントでは、Cisco Unified Computing System(UCS)の一時的なUncorrectable Error Correction Code(UECC)メモリエラーをクリアする方法について説明します。
前提条件
要件
このドキュメントに関する固有の要件はありません。
使用するコンポーネント
このドキュメントは、すべてのM5、M6、およびM7世代のサーバに適用されます。
このドキュメントの情報は、特定のラボ環境にあるデバイスに基づいて作成されました。このドキュメントで使用するすべてのデバイスは、クリアな(デフォルト)設定で作業を開始しています。本稼働中のネットワークでは、各コマンドによって起こる可能性がある影響を十分確認してください。
背景説明
以前のError Correction Code(ECC;エラー訂正コード)エラーやUncorrectable Error Correction Code(UECC;修正不可能なエラー訂正コード)エラーを表示していないサーバの場合、通常の操作でのリブート時に、BIOS POST時に特定のメモリモジュールでUECCメモリエラーが発生する可能性があります。該当するDual In-Line Memory Module(DIMM;デュアルインラインメモリモジュール)はブロックリストとして表示されますが、その後ブロックリストデータをクリアしたとき、またはReturn Materials Authorization(RMA)後の障害解析中に、新しいエラーは報告されません。 これは、UCSメモリエラーの潜在的な一時的な性質を示します。DIMMは、Block Listing Errorデータをクリアした後も使用できます。
一時的または永続的でないエラーが警告なしに発生する可能性があります。修正可能なエラーは、DIMMトレーニングエラーやマルチビットエラーが発生する前に、必ずしもDIMM内で発生するとは限りません。メモリトレーニング中に発生する範囲は、実行時にメモリを使用した場合の範囲と大きく異なります。したがって、メモリモジュールの安定性は、サーバのPOSTとランタイムの間で必ずしも相関するわけではありません。
既知の障害
前述の動作の概要は、次の不具合で説明されています。
1. Cisco Bug ID CSCwa75339
2. Cisco Bug ID CSCwk28210
3. Cisco Bug ID CSCwo62396
POST UECCエラーをクリアする手順
ブレードサーバ
注:特定の環境に必要な正しいシャーシIDとサーバIDを選択してください。表示されるイメージはデモ用です。
サーバの電源をオフにします。
サーバの電源を物理的にオフにする必要があります。オフにしないと、再起動時にUECCエラーが引き続き発生する可能性があります。
注:CIMCはサーバの電源投入時にのみDIMM SPDデータをポーリングするため、DIMM SPDデータは更新されません。本当に問題のあるDIMMがある場合は、リブート時にエラーが再発するため、CiscoサポートはDIMMのRMAを提供できます。
UCS ManagerのGUI方式
Equipment > Chassis > Chassis ID > Servers > Server ID > Actions > System > Reset All Memory Errorsの順に移動します。

Intersight Managed Mode(IMM)のGUI方式

注:これらの手順は、統合Cシリーズサーバにも適用されます。
コマンドラインインターフェイス(CLI)方式
UCS Managerの仮想IPアドレスへのSSHセッションを起動します。記載されている手順に進む前に、問題のサーバの電源がオフになっていることを確認します。

完了したら、システム内で新しいエラーが増えていないことを確認します。
ラックサーバ
サーバの電源をオフにします。
サーバの電源を物理的にオフにする必要があります。オフにしないと、再起動時にUECCエラーが引き続き発生する可能性があります。
注:CIMCはサーバの電源投入時にのみDIMM SPDデータをポーリングするため、DIMM SPDデータは更新されません。本当に問題のあるDIMMがある場合は、リブート時にエラーが再発するため、CiscoサポートはDIMMのRMAを提供できます。
GUI方式
サーバがIntersight Managed Mode(IMM)で管理されていない場合は、コマンドラインインターフェイス(CLI)方式が必要です。それ以外の場合は、前の手順が適用されます。
CLI 方式
サーバのCIMC IPアドレスへのSSHセッションを起動します。 記載されている手順に進む前に、問題のサーバの電源がオフになっていることを確認します。

完了したら、システム内で新しいエラーが増えていないことを確認します。