概要
このドキュメントでは、Cisco Unified Computing System(UCS)ソリューションのメモリモジュールおよび関連する問題をトラブルシューティングする方法について説明します。
前提条件
要件
シスコでは、次の知識を推奨しています。 Cisco Unified Computing System (Cisco UCS)
.
使用するコンポーネント
このドキュメントの内容は、特定のソフトウェアやハードウェアのバージョンに限定されるものではありません。
ただし、このドキュメントでは次の項目について説明します。
Cisco UCS B-Series Blade Servers
UCS Manager
- UCSは
Dual In-line Memory Module
(DIMM)をRAMモジュールとして使用します。
このドキュメントの情報は、特定のラボ環境にあるデバイスに基づいて作成されました。このドキュメントで使用するすべてのデバイスは、初期(デフォルト)設定の状態から起動しています。本稼働中のネットワークでは、各コマンドによって起こる可能性がある影響を十分確認してください。
トラブルシューティングの方法
このセクションでは、UCSメモリの問題のいくつかの部分について説明します。
- メモリの取り付け
- UCSMおよびCLIによるDIMMのトラブルシューティング
- テクニカルサポートで確認するログ
用語および略語
DIMM |
Dual In-line Memory Module(デュアル インライン メモリ モジュール) |
ECC |
Error Correcting Code(エラー訂正コード) |
LVDIMM |
Low Voltage DIMM(低電圧 DIMM) |
MCA |
Machine Check Architecture(マシン チェック アーキテクチャ) |
MEMBIST |
Memory Built-In Self Test(メモリ組み込み自己テスト) |
MRC |
Memory Reference Code(メモリ参照コード) |
POST |
Power On Self Test |
SPD |
Serial Presence Detect(シリアル プレゼンス検出) |
DDR |
Double Data Rate(ダブル データ レート) |
RAS |
Reliability, Availability and Serviceability(信頼性、可用性、有用性) |
メモリの取り付け
メモリの配置は、UCSソリューションの最も重要な物理的側面の1つです。
通常、サーバには、要求された量のメモリが事前に搭載されています。
ただし、不明な場合は、ハードウェアインストールガイドを参照してください。
メモリの取り付けルールについては、各プラットフォームのBシリーズの技術仕様を参照してください。
B シリーズの技術仕様書のリンク:
https://www.cisco.com/c/en/us/products/servers-unified-computing/ucs-b-series-blade-servers/datasheet-listing.html
メモリ エラー
- DIMM エラー
- マルチビット:訂正不能
- POSTはBIOSによってマッピングされ、OSはDIMMを認識しない
- ランタイムにより、OS がほぼ常にリブートされる
- パリティ エラー
- SPD(シリアル プレゼンス検出)エラー
- 設定エラー
- サポート外の DIMM
- サポート外の DIMM 取り付け
訂正可能なエラーと訂正不能なエラーの比較
特定のエラーが訂正可能か訂正不能かは、メモリ システムに採用されている ECC コードの強度に依存します。
専用ハードウェアは、訂正可能なエラーが生じた場合に、プログラムの実行に影響を与えずにそのエラーを修復できます。
修正可能なエラーのあるDIMMは無効にされず、OSで使用できます。「 Total Memory
と Effective Memory
同じです。
これらの修正可能なエラーは、UCSMの操作可能状態で次のように報告されます Degraded
全体的な操作性は – Operable
エラーを修正できます。
修正不可能なエラーがあると、アプリケーションまたはオペレーティングシステムが実行を継続できなくなります。
修正不可能なエラーのあるDIMMは無効になり、OSでは認識されません。UCSM operStateの変更 Inoperable
コピーされます。
UCSM および CLI での DIMM トラブルシューティング
GUI からのエラー確認
UCSM |
ログ |
説明 |
DIMM Status |
ステータス |
SEL |
注 |
操作可能 |
操作可能 |
SEL ログで DIMM 関連エラーの確認が必要 |
DIMM がインストールされ、動作しています。 |
操作可能 |
低下 |
SEL で ECC エラーの確認が必要 |
ランタイム中に訂正可能な ECC DIMM エラーが検出されました。 |
削除済み |
N/A |
ログなし |
DIMM がインストールされていないか、SPD データが破損しています。 |
Disabled |
操作可能 |
SEL で識別不能エラーの確認が必要 |
Capability Catalog の確認と更新が必要 |
Disabled |
N/A |
SEL で同じチャネルの他の DIMM が不良でないか確認が必要 |
DIMMは正常ですが、同じチャネル内の障害が発生したDIMMでは構成ルールを維持できないため、無効になっています。 |
Disabled |
N/A |
ログなし |
DIMMが取り外されたため、メモリ構成ルールに失敗しました。 |
操作不能 |
Inoperable/Replacement required |
|
UE ECC エラーが検出されました。 |
低下 |
操作不能 |
SEL で ECC エラーの確認が必要 |
ホストがリブートする前に ECC エラーが検出されたため、[DIMM Status] と [Operability] が変更されました。 |
低下 |
Inoperable/Replacement required |
SEL で POST/MRC 中の ECC エラーの確認が必要 |
ランタイム中に訂正不能な ECC エラーが検出されましたが、OS は DIMM の使用を続行できます。OS はクラッシュして復旧しましたが、DIMM の使用を続行できます。エラーは再発の可能性があります。ほとんどの場合、DIMMを交換する必要があります。 |
統計情報を取得するには、 Equipment > Chassis > Server > Inventory > Memory,
右クリックします。 Memory
を選択し、 show navigator
.
CLI からのエラー確認
CLI からエラーのトラブルシューティングを行うには、次のコマンドが使用できます。
scope server x/y -> show memory detail
scope server x/y -> show memory-array detail
scope server x/y -> scope memory-array x -> show stats history memory-array-env-stats detail
メモリアレイスコープから、DIMMにアクセスすることもできます。
scope server X/Y > scope memory-array Z > scope DIMM N
そこから、DIMMごとの統計情報を取得したり、エラーカウンタをリセットしたりできます。
UCS/chassis/server/memory-array/dimm # reset-errors
UCS /chassis/server/memory-array/dimm* # commit-buffer
UCS /chassis/server/memory-array/dimm # show stats memory-error-state
この情報に一致する修正可能なエラーが表示された場合は、ブレードサーバをリセットする代わりにBMCをリセットすることで問題を修正できます。
次の Cisco UCS Manager CLI コマンドを使用します。
(BMCをリセットしても、ブレードで実行されているOSには影響しません)。
To reset memory-error counters on a Cisco UCS C-Series Rack Server operating in standalone mode, run the script on the CLI:
UCS-C# scope reset-ecc
UCS-C/reset-ecc # set enabled yes
UCS-C/reset-ecc *# commit
For colusa servers:
UCS# scope chassis
UCS /chassis # scope server x
UCS /chassis/server # reset-ecc
UCSリリース2.27および3.1以降では、メモリ訂正エラーのしきい値は削除されています。
したがって、メモリモジュールは現在は次のように報告されません。 Inoperable
または Degraded
単に修正されたメモリエラーが原因です。
次のホワイトペーパーを参照してください。https://www.cisco.com/c/dam/en/us/products/collateral/servers-unified-computing/ucs-manager/whitepaper-c11-736116.pdf
大容量、高帯域幅、低動作電圧に対する業界の要求は、メモリエラーレートの増加につながります。
従来、業界では訂正可能なエラーを訂正不能なエラーと同様に扱い、アラートが発生するとすぐにモジュールの交換が必要とされてきました。
広範な調査により、訂正可能なエラーは訂正不能なエラーと相関関係がないこと、訂正可能なエラーはシステム パフォーマンスを低下させないことがわかったので、Cisco UCS チームは訂正可能なエラーが発生するモジュールの交換は、状況判断のうえ、対応することを推奨します。
修正可能なエラーに関するDegraded memoryアラートが発生したお客様には、メモリエラーをリセットして操作を再開することを推奨します。
この推奨事項は、不要なサーバの中断を回避するのに役立ちます。
エラー管理の今後の機能拡張では、修正可能なエラーのタイプを区別し、必要に応じて適切なアクションを特定します。
少なくとも、バージョン2.1(3c)または2.2(1b)を使用します。これらのバージョンには、UCSメモリエラー管理に関する機能拡張が含まれています
テクニカル サポートで確認すべきログ ファイル
UCSM_X_TechSupport > sam_techsupportinfo
DIMM およびメモリ アレイに関する情報が記載されています。
サーバおよびシャーシに関するテクニカル サポート
CIMCX_TechSupport\tmp\CICMX_TechSupport.txt -> Generic tech support information about sever X.
CIMCX_TechSupport\obfl\obfl-log -> OBFL logs provide an ongoing logs about status and boot of server X.
CIMCX_TechSupport\var\log\sel -> SEL logs for server X.
プラットフォーム/バージョンに基づいて、テクニカルサポートバンドル内のファイルに移動します。
var/nuova/BIOS > RankMarginTest.txt
var/nuova/BIOS > MemoryHob.txt
var/nuova/var/nuova/ BIOS > MrcOut_*.txt
これらのファイルには、BIOS レベルで見たメモリに関する情報が記載されています。
DIMM状態のレポートテーブルを使用して、この情報を再度相互参照できます。
例:
/var/nuova/BIOS/RankMarginTest.txt
- BIOSトレーニングテストMEMBISTのテスト結果を表示するのに便利
- エラーを探してください。
- マップから外されている DIMM がないか確認してください。
- DIMM の個別情報(ベンダー、速度、PID)を表示してください。
DIMM |GB|R|MfgDate|Mod ID |DRAM ID |Reg ID |CtW Tck CLS Taa V|Freq|Part#
A1 18| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
A2 26| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
B1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
B2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
C1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
C2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
D1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
D2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
E1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
E2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
F1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
F2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
最初のカラムには、次の 2 つの値があります。
DIMM ロケータ(F2)
DIMM ステータス(01)
各ステータスの概要は次のとおりです。
0x00 // インストールされていない(DIMM なし)
0x01 // インストール済み(動作中)
//// 0x02-0F(予約済み)
//// 失敗
0x10 // トレーニング失敗
0x11 // クロック トレーニング失敗
//// 0x12-17(予約済み)
0x18 // MEMBIST 失敗
//// 0x19-1F(予約済み)
//// 無視
0x20 // 無視(デバッグ コンソールから無効化済み)
0x21 // 無視(BMC から SPD エラーのレポートあり)
0x22 // 無視(非 RDIMM)
0x23 // 無視(非 ECC)
0x24 // 無視(非 x4)
0x25 // 無視(同一 LDIMM 内の他の PDIMM が不良)
0x26// 無視(同一チャネル内の他の LDIMM が不良)
0x27 // 無視(ロックステップまたはミラーリングされている他のチャネルが失敗)
0x28 // 無視(無効な PDIMM の取り付け)
0x29 // 無視(PDIMM 組織の不一致)
0x2A // 無視(PDIMM 登録ベンダーの不一致)
//// 0x2B-7F(予約済み)
var/nuova/BIOS > MemoryHob.txt
サーバに取り付けられたメモリが有効であるか不良であるかを表示します。
+++ BEGINNING OF FILE
Memory Speed = 1067 MHz
Memory Mode = 00
RAS Modes = 03
MRC Flags = 0000000A
Total Memory = 98304 MB
Effective Memory = 90112 MB
Failed Memory = 8192 MB
Ignored Memory = 0 MB
Redundant Memory = 0 MB
|---------------------------------|
| Memory | Channel | DIMM Status |
| Channel | Status | 1 2 |
|---------------------------------|
| A | 01 | 01 01 |
| B | 01 | 01 01 |
| C | 01 | 01 01 |
| D | 01 | 01 01 |
| E | 01 | 01 01 |
| F | 01 | 01 18 |
|---------------------------------|
18h:DIMM が MEMBIST テストで不合格になると、DIMM ステータスが失敗となります。 問題のない既知の DIMM と交換してください。
DIMM ステータスの内容
00h インストールされていない(DIMM なし)
01h インストール済み(動作中)
02h-0Fh 予約済み
10h 失敗(トレーニング)
11h 失敗(クロック トレーニング)
12h-17h 予約済み
18h 失敗(MEMBIST)
19h-1Fh 予約済み
20h 無視(デバッグ コンソールから無効化済み)
21h 無視(BMC から SPD エラーのレポートあり)
22h 無視(非 RDIMM)
23h 無視(非 ECC)
24h 無視(非 x4)
25h 無視(同一 LDIMM 内の他の PDIMM が不良)
26h 無視(同一チャネル内の他の LDIMM が失敗)
27h 無視(ロックステップまたはミラーリングされた他のチャネル)
28h 無視(無効なメモリの取り付け)
29h 無視(組織の不一致)
2Ah 無視(登録ベンダーの不一致)
2Bh-7Fh 予約済み
80h 無視(回避策:ループ中)
81h 無視(I2C バスのスタック)
82h - FFh予約
DIMM のブラックリスト化
イン Cisco UCS Manager
の状態 Dual In-line Memory Module
(DIMM)はSELイベントレコードに基づいています。
メモリ テストの実行中に BIOS が訂正不能なメモリ エラーに遭遇すると、DIMM は不良とみなされます。
不良な DIMM は、動作しないデバイスとみなされます。
DIMM のブラックリスト化を有効にすると、Cisco UCS Manager はメモリ テスト実行メッセージをモニタし、DIMM SPD データ内でメモリ エラーに遭遇した DIMM をブラックリストに載せます。
DIMM のブラックリスト化は、UCSM 2.2(2) で、オプションのグローバル ポリシーとして導入されました。
この機能を正しく実装するには、サーバ ファームウェアのバージョンを、B シリーズ ブレードの場合は 2.2(1) 以上、C シリーズ ラック サーバの場合は 2.2(3) 以上にする必要があります。
UCSM 2.2(4)では、DIMMのブラックリスト登録が有効になっています。
次のコマンドでテクニカル サポートファイルを開きます。.../var/log/DimmBL.log
ファイルが使用可能なら、次のコマンドでファイルを開きます。/var/nuova/BIOS/MrcOut.txt
DIMM ステータス テーブルを確認します。「DIMM Status:」を探します。
DIMM Blacklisted = 1E
DIMM ステータス テーブルを確認します。「DIMM Status:」を探します。
DIMM Status:
00:インストールされていない
01:インストール済み
10:失敗(トレーニング失敗)クリア
1E:失敗(BMC による DIMM のブラックリスト化)
1F:失敗(SPD エラー)
25:無効(同一チャネルの他の DIMM が失敗)
例
DIMM Status:
|=======================|
|メモリ | DIMMステータス |
|チャネル | 1 2 3 |
|=======================|
| A | 25 1F 25 |
| B | 01 01 01 |
| C | 1F 25 25 |
| D | 01 01 01 |
| E | 01 01 01 |
| F | 25 25 1E |
| G | 01 01 01 |
| H | 01 01 01 |
|=======================|
DIMM Status:
01:インストール済み
1E:失敗(BMC による DIMM のブラックリスト化)
1F:失敗(SPD エラー)
25:無効(同一チャネルの他の DIMM が失敗)
DIMM のブラックリスト化のエラーをクリアする方法
UCSM GUI

UCSM CLI
UCS-B/chassis/server # reset-all-memory-errors
関連情報
重要なバグ
Cisco Bug ID CSCug93076 B200M3-DDR電圧レギュレータに軽負荷時の過剰なノイズがある
Cisco Bug ID CSCup07488 IPMI DIMM障害センサーがDIMMの低下をエラーカウントなしで設定しています。
Cisco Bug ID CSCud22620低下したDIMMの識別精度の向上
Cisco Bug ID CSCuw44524 C460M4、B260M4またはB460M4 IVBクリアCMOSがメモリUECCエラーを引き起こす可能性
Cisco Bug ID CSCur19705 B200M3で確認されたECC/UECCエラー
Cisco Bug ID CSCvm88447スタンドアロンColusaサーバのリセットECC手順に関する文書が欠落している