المقدمة
يصف هذا المستند ميزات الذاكرة الجديدة المقدمة في خوادم الجيل UCS M7 و M8 والخطوات اللازمة لفهم أخطاء الذاكرة واستكشاف أخطائها وإصلاحها
المتطلبات الأساسية
المتطلبات
توصي Cisco بأن تكون لديك معرفة بالمواضيع التالية.
- الفهم الأساسي ل UCS.
- الفهم الأساسي لبنية الذاكرة.
المكونات المستخدمة
تستند المعلومات الواردة في هذا المستند إلى إصدارات البرامج والمكونات المادية التالية:
- الخادمان من فئة UCS M7 و M8
- برنامج UCS Manager
- وحدة التحكم المتكاملة في الإدارة (CIMC) من Cisco
- وضع Cisco Intersight المدار (IMM)
تم إنشاء المعلومات الواردة في هذا المستند من الأجهزة الموجودة في بيئة معملية خاصة. بدأت جميع الأجهزة المُستخدمة في هذا المستند بتكوين ممسوح (افتراضي). إذا كانت شبكتك قيد التشغيل، فتأكد من فهمك للتأثير المحتمل لأي أمر.
معلومات أساسية
نظرة عامة على أخطاء الذاكرة
تعد أخطاء الذاكرة من أكثر أنواع الأخطاء شيوعا على الخوادم الحديثة. غالبا ما يتم اكتشاف الأخطاء عند محاولة قراءة موقع ذاكرة ولا تتطابق القيمة التي تمت كتابتها مؤخرا.
قد تكون أخطاء الذاكرة بسيطة أو صعبة. بعض الأخطاء يمكن إصلاحها، لكن العديد من الأخطاء البسيطة أو الصعبة في وقت واحد على وصول ذاكرة واحد يمكن أن تكون غير قابلة للتصحيح.
ميزات نظام الوصول عن بعد إلى الذاكرة Cisco UCS M7/M8
تتمتع الخوادم Cisco UCS M7 و M8 بمجموعة قوية من ميزات RAS، كما هو موضح هنا. تعمل هذه على تقليل تأثير أخطاء الذاكرة على الأداء ووقت تشغيل النظام.
نظام تصحيح الأخطاء (ECC) على مستوى النظام
تستخدم جميع خوادم Cisco UCS M7 وحدات ذاكرة تحتوي على رموز ECC يمكنها تصحيح أي خطأ يقتصر على شريحة DRAM واحدة بسرعة x4 واكتشاف أي خطأ مزدوج البت في ما يصل إلى جهازين. ويشار إلى هذا الآن باسم نظام تصحيح الأخطاء (ECC) على مستوى النظام، كما هو الحال في الخوادم من الجيل القديم
.
توفير تقنية Virtual Lock-Step (VLS) / ميزة تصحيح بيانات الأجهزة المزدوجة القابلة للتكيف (ADDDC)
يمكن أن يقوم توفير ADDDC بتصحيح فشلي DRAM المتتاليين إذا كانا موجودين في نفس المنطقة. تقوم هذه الميزة بتعقب الأخطاء القابلة للتصحيح وتقوم بتخطيط وحدات بت الفاشلة بشكل ديناميكي عن طريق نسخ المحتويات ("توفير") إحتياطيا في سطر ذاكرة تخزين مؤقت "رفيق". يمكن أن تقلل هذه الآلية من الأخطاء التي يمكن تصحيحها والتي، إذا تركت بدون معالجة، يمكن أن تصبح غير قابلة للتصحيح. تستخدم هذه الميزة تقنية Virtual LockStep (VLS) لتعيين أزواج أصدقاء خطوط ذاكرة التخزين المؤقت داخل قناة الذاكرة نفسها في مستوى بنك DRAM باستخدام VLS البنكي أو على مستوى جهاز DRAM باستخدام قوائم التحكم في الوصول للفئة VL.
.
نظام تصحيح الأخطاء (ECC) عند الموت
إن ECC الموجود على القرص المضغوط هو ميزة جديدة في DDR5. يتم تمكين هذه الميزة بشكل افتراضي. يتم تصحيح جميع أخطاء البت الأحادي (الثابتة والصغيرة) بواسطة DRAM قبل إرسال البيانات إلى المضيف. ومع ذلك، لم تتم إعادة كتابة هذه البيانات التي تم تصحيحها إلى DRAM. Error Check and Scan (ECS) هي الميزة المستخدمة لإزالة أخطاء البت الواحد وتصحيحها في الذاكرة.
التحقق من الخطأ والتدقيق (ECS)
يتحقق نظام تصحيح الأخطاء (ECS) من الأخطاء الموجودة في الخلفية عن طريق مسح كل DRAM بشكل دوري (كل 24 ساعة) وتصحيحها عن طريق إعادة البيانات إلى الصفيف وتقديم عدد من الأخطاء التي تم العثور عليها أثناء الفحص. ويتم تمكين هذه الميزة بشكل افتراضي.
إصلاح حزمة النشر (PPR)
يعد إصلاح حزمة مادة النشر ميزة يتم فيها إستخدام صفوف إحتياطية لاستبدال خلية أو صف تالف في جهاز DRAM.
هناك ثلاثة أنواع:PPR السهل (القابل لإعادة التكوين) وPPR الصلب (الدائم) وRuntime PPR.
- خوادم Cisco UCS M7 مع وحدات المعالجة المركزية من Intel تدعم ppr "الثابت". هذا إصلاح دائم ويتم تنفيذه أثناء إعادة التشغيل استنادا إلى بيانات الخطأ التي تم تجميعها أثناء وقت التشغيل السابق أو في حالة مواجهة أي أخطاء صف أثناء EMT.
- تتم عمليات الإصلاح عادة خلال فترات إعادة الضبط التي تتميز بالدفء/البرد أو دورات التيار المتردد.
- على دعم UCS M8 كل الأنواع الثلاثة PPR، يتم تمكين PPR الثابت بشكل افتراضي، بينما يتم تعطيل Runtime PPR.
- يسمح وقت التشغيل PPRs بإجراء عمليات الإصلاح أثناء تشغيل النظام دون التأثير على وقت التشغيل.
- في حالة تمكين كل من PPR في وقت التشغيل و HARD، يتم إستخدام جميع ميزات PPR. إذا تم تعطيل PPR الثابت ولكن تم تمكين PPR في وقت التشغيل، فسيعمل النظام افتراضيا على PPR السهل.
- يرتبط PPR إرتباطا وثيقا بأخطاء يمكن تصحيحها، ويقوم كل خطأ يمكن تصحيحه بإنشاء سجل SEL عند تمكين PPR.
PMIC (الدائرة المتكاملة لإدارة الطاقة)
تعد PMIC الموجودة على DIMM ميزة أساسية في وحدات ذاكرة DDR5. يعمل هذا الدمج على نقل وظيفة إدارة الطاقة من اللوحة الأم إلى وحدة الذاكرة نفسها، مما يوفر العديد من المزايا الهامة.
بالنسبة لذاكرة DDR5، يتم تمكين معالجة أخطاء PMIC.
- تقوم حالات فشل PMIC بإنشاء سجلات الخلايا أثناء كل من وقت التشغيل وما بعد التمهيد.
- أثناء تدريب الذاكرة، إذا تم اكتشاف عطل PMIC في قناة ذاكرة، فإن DIMM المتأثر يتم تخطيطه، ويستمر النظام في التمهيد بذاكرة منخفضة
تحليل السجل
ملفات للتحقق من الدعم الفني
يوفر UCSM_X_TechSupport > SAM_TechSupportInfo معلومات حول DIMM وصفيف الذاكرة.
الدعم الفني للهيكل/الخادم
CIMCX_TechSupport\tmp\CICMX_TechSupport.txt -> معلومات عامة حول دعم التقنية حول الخادم X.
توفر سجلات OBFL من CIMCX_TechSupport\obfl\obfl-log -> سجلات OBFL سجلات متواصلة حول حالة الخادم X وتمهيد تشغيله.
CIMCX_TechSupport\var\log\sel -> سجلات SEL للخادم X.
استنادا إلى النظام الأساسي/الإصدار، انتقل إلى الملفات في حزمة الدعم الفني.
RAS - ل ECS (التحقق من الأخطاء وتنظيف) موقع خطأ CEالخ. يتم جمعها خلال وقت التشغيل على كل غسول
/nv/etc/BIOS/bt/DDR5_CISCO_ECS
يتم تنفيذ AMT تلقائيا في التحميل التالي إذا تعرض لخطأ CE و UCE على وحدات ذاكرة DIMM
nv/etc/BIOS/bt/MrcOut.
AMT_TEST_PATTERN:
ADV_MT_Samsung
AMT_RESULT: مر.
خطأ PMIC: /nv/etc/DIMM-PMIC.txt
يحتوي خادم M8 على :-
nv/etc/BIOS/bt >MrcOut
توفر هذه الملفات معلومات حول الذاكرة كما هو موضح من مستوى BIOS.
يمكن إعادة الإشارة إلى المعلومات هناك مع جداول تقارير حالات DIMM.
مثال من خادم AMD :-
nv/etc/BIOS/bt >MrcOut
يحتوي على :
- إصدار BIOS وتاريخ الإنشاء ووقته
- إصدارات البرنامج الثابت PSP
- وجود DIMM وحالته (يشير إلى وجود DIMM أو عدم وجوده)
- تفاصيل تهيئة DIMM.
2025/08/14 13:44:34
BIOS ID : C245M8.4.3.6b.0 Built 04/28/2025 14:15:22
=====================
PSP Firmware Versions
=====================
ABL Version: 100E8012
PSP: 0.29.0.9B
PFMW (SMU): 4.71.126.0
SEV: 1.1.37.28
PHY: 0.1.38.0
MPIO: 1.0.2D.C4
TF MPDMA: 0.47.3.0
PM MPDMA: 0.47.46.0
GMI: AB.1.27.0
RIB: 2.0.8.39
SEC: D.E.90.71
PMU: 0.0.90.4E
EMCR: 0.0.E0.4E
uCode B1: 0xA101154
DIMM Status:
|=======================|
| Memory | DIMM Status |
| Channel | |
|=======================|
| P1_A | 01 |
| P1_B | 01 |
| P1_C | 01 |
| P1_D | 01 |
| P1_E | 01 |
| P1_F | 00 |
| P1_G | 01 |
| P1_H | 01 |
| P1_I | 01 |
| P1_J | 01 |
| P1_K | 01 |
| P1_L | 00 |
| P2_A | 01 |
| P2_B | 01 |
| P2_C | 01 |
| P2_D | 01 |
| P2_E | 01 |
| P2_F | 00 |
| P2_G | 01 |
| P2_H | 01 |
| P2_I | 01 |
| P2_J | 01 |
| P2_K | 01 |
| P2_L | 00 |
|=======================|
DIMM Configuration:
=================================================
MbistTest = Disabled
MbistAggressor = Disabled
MbistPerBitSlaveDieReport = Enabled
DramTempControlledRefreshEn = Disabled
UserTimingMode = Disabled
UserTimingValue = Disabled
MemBusFreqLimit = Disabled
EnablePowerDown = Disabled
DramDoubleRefreshRate = Disabled
PmuTrainMode = 0x0000
EccSymbolSize = 0x0000
UEccRetry = Disabled
IgnoreSpdChecksum = Disabled
EnableBankGroupSwapAlt = Disabled
EnableBankGroupSwap = Disabled
DdrRouteBalancedTee = Disabled
OdtsCmdThrotEn = Disabled
OdtsCmdThrotCyc = Disabled
=================================================
Enhanced Memory Context Restore : APOB_SAVED
2025/08/14 13:44:34
مخزون ملف خرج MCA :-
يحتوي هذا الملف على معلومات حول سجلات MCA لجميع البنوك .
(كلما تم الكشف عن خطأ UCE)
--- START OF MCA FILE ---
Timestamp H:M:S 13:44:15 D:M:Y 14:8:2025
--- Note ---
The legacy MCA registers include:
MCA_CTL - Enables error reporting via machine check exception.
MCA_STATUS - Logs information associated with errors.
MCA_ADDR - Logs address information associated with errors. The use of AMD Secure Memory Encryption may change the information logged in the address register.
MCA_MISC0 - Logs miscellaneous information associated with errors.
The MCA Extension registers include:
MCA_CONFIG - Provide configuration capabilities for this MCA bank.
MCA_IPID - Provides information on the block associated with this MCA bank.
MCA_SYND - Logs physical location information associated with a logged error.
MCA_DESTATUS - Logs status information associated with a deferred error.
MCA_DEADDR - Logs address information associated with a deferred error.
MCA_MISC[1:4] - Provides additional threshold counters within an MCA bank.
MCA_TRANSSYND - Logs location information associated with a transparent error.
MCA_TRANSADDR - Logs address information associated with a transparent error.
LS - Load-Store Unit -> Bank 0
IF - Instruction Fetch Unit -> Bank 1
L2 - L2 Cache Unit -> Bank 2
DE - Decode Unit -> Bank 3
Empty/Unused bank -> Bank 4
EX - Execution Unit -> Bank 5
FP - Floating Point Unit -> Bank 6
L3 - L3 Cache Unit -> Bank 7 to 14
MP5 - Microprocessor5 Management Controller -> Bank 15
PB - Parameter Block -> Bank 16
PCS-GMI - GMI Controller -> Bank 17 to 18
KPX-GMI - High Speed Interface Unit(GMI) -> Bank 19 to 20
UMC - Unified Memory Controller -> Bank 21 to 22
CS - Coherent Station -> Bank 23 to 24
NBIO - NorthBridge IO Unit -> Bank 25
PCIE - PCIe Root port -> Bank 26 to 27
PIE - Power Management, Interrupts, Etc -> Bank 28
SMU - System Management Controller Unit -> Bank 29
PCS_XGMI - XGMI Controller -> Bank 30
KPX_SERDES - High Speed Interface Unit(XGMI)-> Bank 31
Empty/Unused bank -> Bank 32 to 63
Total BankNumber = 32
MC Global Capability Value = 120
MC Global Status Value = 0
MC Global Control Value = 0
Number of processor = 64
ProcNum BankNum Socket CCD CCX Core Thread MCA Bank Status MCA Bank Address MCA Configuration MCA IPID MSR VAL MCA SYND MSR VAL MC MISC0 MSR VAL MC MISC1 MSR VAL MC DESTAT MSR VAL MC DEADDR MSR VAL MC SYND1 MSR VAL MC SYND2 MSR VAL
Timestamp H:M:S 13:44:32 D:M:Y 14:8:2025
--- END OF MCA FILE ---
مثال فشل PMIC في سجلات الشحم :-
عند حدوث فشل PMIC لوقت التشغيل على DIMM، سيتم إنشاء سجل SEL كما هو موضح أدناه، ويتم إيقاف تشغيل المضيف.
- 2024-06-11 20:26:36 ◆حدث برنامج نظام تحذير IST: تم التأكيد على مستشعر الذاكرة، فشل الذاكرة (تم الكشف عن خطأ PMIC وعزله)، مقبس DIMM 1، القناة A، وحدة المعالجة المركزية 2.

يتم تخطيط وحدة ذاكرة DIMM المعيبة بواسطة نظام الإدخال والإخراج الأساسي (BIOS) على طاقة المضيف التالية . نرى ما تحت الساق

يظهر خطأ كما هو موضح أدناه.


أستكشاف أخطاء RAS وإصلاحها
بشكل عام، تعتبر هذه الأخطاء في "إدارة UCS" كحدث RAS.


أوامر UCSM CLI لإعادة ضبط جميع عدادات أخطاء الذاكرة:
UCS-A# خادم النطاق x/y
UCS-A /chassis/server # إعادة ضبط جميع أخطاء الذاكرة
التزام # UCS-A /chassis/server*
لمسح بيانات شرطة مدينة سياتل :
قم بإيقاف تشغيل الخادم
ثم قم بتشغيل الأوامر التالية من واجهة سطر الأوامر (CLI) الخاصة بوحدة التحكم في الوصول UCSM :
توصيل UCS-A# التحكم في الوصول إلى شبكة CIMC x/y
UCS-A /chassis/server # إعادة ضبط جميع أخطاء الذاكرة
التزام # UCS-A /chassis/server*
حشرات مرموقة
1. معرف تصحيح الأخطاء من Cisco CSCwo62396
2. معرف تصحيح الأخطاء من Cisco CSCwq33148
3. معرف تصحيح الأخطاء من Cisco CSCwh73760