Avez-vous un compte?
Cisco a traduit ce document en traduction automatisée vérifiée par une personne dans le cadre d’un service mondial permettant à nos utilisateurs d’obtenir le contenu d’assistance dans leur propre langue. Il convient cependant de noter que même la meilleure traduction automatisée ne sera pas aussi précise que celle fournie par un traducteur professionnel.
Ce document décrit comment dépanner des questions connexes de modules de mémoire dans la solution du Système d'informatique unifiée Cisco (UCS). Module de mémoire intégré usesDual UCS (DIMM) comme modules de ram.
Cisco recommande que vous ayez la connaissance du Système d'informatique unifiée Cisco (Cisco UCS).
Ce document n'est pas limité à des versions de matériel et de logiciel spécifiques.
Cependant, ce foyer de document autour
Les informations contenues dans ce document ont été créées à partir des périphériques d'un environnement de laboratoire spécifique. Tous les périphériques utilisés dans ce document ont démarré avec une configuration effacée (par défaut). Si votre réseau est opérationnel, assurez-vous que vous comprenez l'effet potentiel de toute commande.
Cette section couvre des majeures parties de questions de mémoire UCS.
DIMM | Module de mémoire à double rangée de connexions |
ECC | Code correcteur d'erreurs |
LVDIMM | Basse tension DIMM |
MCM | Architecture de contrôle automatique |
MEMBIST | Autotest intégré de mémoire |
MRC | Code de référence de mémoire |
POST | Autotest de mise sous tension |
SPD | La présence séquentielle les détectent |
DDR | DDR |
RAS | Fiabilité, Disponibilité et utilité |
Le placement de mémoire est probablement l'un des aspects physiques les plus notables de la solution UCS. Typiquement le serveur est livré avec la mémoire pré-remplie avec la quantité priée. Cependant, référez-vous en cas de doute au guide d'installation du matériel, qui devrait être mis à jour régulièrement pendant que le nouveau matériel est introduit.
À la population de mémoire les règles satisfont se rapportent à la B-gamme des spécifications techniques pour la plate-forme spécifique.
lien de spécifications techniques de B-gamme :
Si une erreur particulière est corrigible ou uncorrectable dépend du point fort du code ECC utilisé dans le système mémoire. Le matériel dédié peut corriger des erreurs corrigibles quand elles se produisent sans l'incidence sur l'exécution de programme.
Le DIMM avec l'erreur corrigible ne sont pas désactivés et sont disponible pour que le SYSTÈME D'EXPLOITATION l'utilise. Toute la mémoire et la mémoire efficace soient identique (prenant la mémoire reflétant en considération). Ces erreurs corrigibles ont signalé dans l'état d'opérabilité UCSM comme dégradé tandis qu'opérabilité globale fonctionnelle avec des erreurs corrigibles.
Des erreurs non corrigibles généralement ne peuvent pas être réparées, et peuvent le rendre impossible pour que l'application ou le système d'exploitation continue l'exécution. Le DIMM avec l'erreur non corrigible est désactivé et le SYSTÈME D'EXPLOITATION ne voit pas cette mémoire. Modification d'operState UCSM au "" inopérable de "" dans ce cas.
UCSM | Logs | Description | |
État DIMM | Opérabilité | SEL | Commentaires |
Fonctionnel | Fonctionnel | Log du contrôle SEL pour des erreurs relatives DIMM | Un DIMM est installé et fonctionnel. |
Fonctionnel | Dégradé | Contrôle SEL pour des erreurs ECC | Une erreur corrigible ECC DIMM est détectée pendant le délai d'exécution. |
Retiré | S/O | Aucun logs | Un DIMM n'est pas installé ou des données corrompues SPD. |
Désactivée | Fonctionnel | Contrôle SEL pour des erreurs unestablishable d'identité | Catalogue de capacité de contrôle et de mise à jour |
Désactivée | S/O | Vérifiez le SEL si un autre DIMM manquait dedans dans le même canal | Un DIMM peut être sain mais handicapé parce que la règle de configuration ne pourrait pas être mise à jour par un DIMM défectueux dans le même canal. |
Désactivée | S/O | Aucun logs | Pour suivre la règle de configuration de mémoire en raison de manquer le DIMM. |
Inopérable | Inopérable/remplacement requis | L'erreur UE ECC a été détectée. | |
Dégradé | Inopérable | Contrôle SEL pour des erreurs ECC | L'état DIMM et en raison changés par opérabilité des erreurs ECC ont été détectés avant que l'hôte ait redémarré. |
Dégradé | Inopérable/remplacement requis | Contrôle SEL pour l'erreur ECC pendant le POST/MRC | L'erreur Uncorrectable ECC a été détectée pendant le délai d'exécution, DIMM reste disponible au SYSTÈME D'EXPLOITATION, le SYSTÈME D'EXPLOITATION tombe en panne et se réactive mais peut utiliser toujours ce DIMM. L'erreur peut se produire de nouveau plus tard. DIMM devrait être remplacé dans la plupart des situations. |
Afin d'obtenir des statistiques naviguez vers le matériel > le châssis > le serveur > l'inventaire > la mémoire et puis cliquez avec le bouton droit sur la mémoire et sélectionnez le navigateur d'exposition.
Ces commandes sont des erreurs utiles de pour le dépannage de CLI.
scope server x/y -> show memory detail
scope server x/y -> show memory-array detail
scope server x/y -> scope memory-array x -> show stats history memory-array-env-stats detail
De la portée de baie de mémoire vous pouvez également obtenir l'accès à DIMM.
serveur de portée X/Y > mémoire-baie de portée Z > portée DIMM N
Là alors de vous peut obtenir par-DIMM statistiques ou remettre à l'état initial les compteurs d'erreurs.
UCS/chassis/server/memory-array/dimm # reset-errors
UCS /chassis/server/memory-array/dimm* # commit-buffer
UCS /chassis/server/memory-array/dimm # show stats memory-error-state
Si vous voyez une erreur corrigible signalée qui apparie les informations ci-dessus, le problème peut être corrigé en remettant à l'état initial le BMC au lieu de réinsérer ou de remettre à l'état initial le serveur lame. Utilisez ces commandes CLI de Cisco UCS Manager :
La remise à l'état initial du BMC n'affecte pas l'exécution de SYSTÈME D'EXPLOITATION sur la lame.
To reset memory-error counters on a Cisco UCS C-Series Rack Server operating in standalone mode, run the following script on the CLI:
UCS-C# scope reset-ecc
UCS-C/reset-ecc # set enabled yes
UCS-C/reset-ecc *# commit
For colusa servers:
UCS# scope chassis
UCS /chassis # scope server x
UCS /chassis/server # reset-ecc
Avec des versions 2.27 UCS, et 3.1 et en haut, les seuils pour des erreurs corrigées par mémoire a été retirés.
Par conséquent, les modules de mémoire (DIMM) ne seront plus signalés en tant que seulement en raison « inopérable » ou « dégradé » des erreurs de mémoire corrigées.
Selon le whitepaper http://www.cisco.com/c/dam/en/us/products/collateral/servers-unified-computing/ucs-manager/whitepaper-c11-736116.pdf
Le secteur exige pour la grande capacité, une plus grande bande passante, et les tensions inférieures d'opération mènent aux débits accrus de memoryerror. Traditionnellement, le secteur a traité des erreurs corrigibles de la même manière que des erreurs non corrigibles, exigeant du module d'être remplacé immédiatement sur l'alerte. La recherche étendue donnée que des erreurs corrigibles ne sont pas corrélées avec des erreurs non corrigibles, et que les erreurs corrigibles ne dégradent pas la performance du système, l'équipe de Cisco UCS recommande contre le remplacement immédiat des modules avec des erreurs corrigibles. Les clients qui éprouvent une alerte dégradée de mémoire pour des erreurs corrigibles devraient remettre à l'état initial l'exécution des erreurs et de reprise de mémoire. Si vous suivez cette recommandation, elle évite l'interruption inutile de serveur. Les futures améliorations à la Gestion des erreurs sont livré et les aides distinguent parmi de divers types d'erreurs corrigibles et identifient les mesures appropriées, le cas échéant, requises.
Il est recommandé pour être minimum de la version 2.1(3c) ou 2.2(1b) qui a l'amélioration avec la Gestion des erreurs de mémoire UCS
Si le dépannage ci-dessus n'aidait pas s'il vous plaît à soulever une demande de support d'assistance.
UCSM_X_TechSupport > sam_techsupportinfo
Fournit des informations au sujet de DIMM et de baie de mémoire.
Support technique de châssis/serveur
CIMCX_TechSupport\tmp\CICMX_TechSupport.txt -> Generic tech support information about sever X.
CIMCX_TechSupport\obfl\obfl-log -> OBFL logs provide an ongoing logs about status and boot of server X.
CIMCX_TechSupport\var\log\sel -> SEL logs for server X.
Basé sur la plate-forme/version, naviguez vers les fichiers par paquet de support technique
distributeur intégrant son logiciel au matériel/nuova/BIOS > RankMarginTest.txt
distributeur intégrant son logiciel au matériel/nuova/BIOS > MemoryHob.txt
distributeur intégrant son logiciel au matériel/nuova/BIOS > MrcOut_*.txt
Ces fichiers fournissent des informations au sujet de mémoire comme vu du niveau BIOS.
Les informations là peuvent être de nouveau établis les renvois de les états DIMM signalant des tables affichées ci-dessus.
Exemple :
/var/nuova/BIOS/RankMarginTest.txt
Test s'exerçant
MEMBIST
DIMM |GB|R|MfgDate|Mod ID |DRAM ID |Reg ID |CtW Tck CLS Taa V|Freq|Part#
A1 18| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
A2 26| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
B1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
B2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
C1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
C2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
D1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
D2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
E1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
E2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
F1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
F2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
La première colonne a deux valeurs :
Localisateur DIMM (F2)
État DIMM (01)
Voici une brève description pour chaque état :
0x00 //non installé (aucun DIMM)
0x01 //installé (fonctionnant)
////0x02-0F (réservé)
////a manqué
0x10 //a manqué formation
0x11 //a manqué formation d'horloge
////0x12-17 (réservé)
0x18 //a manqué MemBIST
////0x19-1F (réservé)
////a ignoré
0x20 //ignoré (désactivé de la console de débogage)
0x21 //ignoré (erreur SPD signalée par BMC)
0x22 //ignoré (Non-RDIMM)
0x23 //ignoré (Non-ECC)
0x24 //ignoré (Non-x4)
0x25 //ignoré (l'autre PDIMM dans le même LDIMM a manqué)
0x26 //ignoré (l'autre LDIMM dans le même canal a manqué)
0x27 //ignoré (l'autre canal dans LockStep ou miroir a manqué)
0x28 //ignoré (population non valide PDIMM)
0x29 //ignoré (non-concordance d'organisation PDIMM)
0x2A //ignoré (non-concordance de constructeur de registre PDIMM)
////0x2B-7F (réservé)
distributeur intégrant son logiciel au matériel/nuova/BIOS > MemoryHob.txt
expositions efficaces et mémoire défectueuse installée sur le serveur
+++ BEGINNING OF FILE
Memory Speed = 1067 MHz
Memory Mode = 00
RAS Modes = 03
MRC Flags = 0000000A
Total Memory = 98304 MB
Effective Memory = 90112 MB
Failed Memory = 8192 MB
Ignored Memory = 0 MB
Redundant Memory = 0 MB
|---------------------------------|
| Memory | Channel | DIMM Status |
| Channel | Status | 1 2 |
|---------------------------------|
| A | 01 | 01 01 |
| B | 01 | 01 01 |
| C | 01 | 01 01 |
| D | 01 | 01 01 |
| E | 01 | 01 01 |
| F | 01 | 01 18 |
|---------------------------------|
18h - L'état DIMM est marqué en tant que manqué quand il échoue dans le test de MemBist. Remplacez par un bon DIMM connu.
Description d'état DIMM
00h non installé (aucun DIMM)
01h installé (fonctionnant)
02h-0Fh réservé
10h a manqué (la formation)
11h a manqué (la formation d'horloge)
12h-17h réservé
18h a manqué (MemBIST)
19h-1Fh réservé
20h ignoré (désactivé de la console de débogage)
21h ignoré (erreur SPD signalée par BMC)
22h ignoré (Non-RDIMM)
23h ignoré (Non-ECC)
24h ignoré (Non-x4)
25h ignoré (l'autre PDIMM dans le même LDIMM a manqué)
26h ignoré (l'autre LDIMM dans le même canal a manqué)
27h ignoré (l'autre canal dans LockStep ou miroir)
28h ignoré (population non valide de mémoire)
29h ignoré (non-concordance d'organisation)
2Ah ignoré (non-concordance de constructeur de registre)
2Bh- 7Fh réservé
80h ignoré (contournement - Bouclage)
81h ignoré (bus coincé I2C)
82h – FFh a réservé
Dans le Cisco UCS Manager, l'état du module de mémoire à double rangée de connexions (DIMM) est basé sur des enregistrements d'événement SEL. Quand le BIOS rencontre une erreur de mémoire noncorrectable pendant l'exécution de test mémoire, le DIMM est marqué en tant que défectueux. Un DIMM défectueux est considéré un périphérique non fonctionnel.
Si vous activez DIMM mettant sur la liste noire, le Cisco UCS Manager surveille les messages d'exécution de test mémoire et met n'importe quel DIMM sur la liste noire qui rencontrent des erreurs de mémoire dans les données DIMM SPD. Pour permettre à l'hôte pour tracer tout DIMM qui rencontrent des erreurs uncorrectable ECC.
Mettre DIMM a été introduit comme stratégie globale facultative dans UCSM 2.2(2).
Le micrologiciel de serveur doit être 2.2(1)+ pour des lames de B-gamme et 2.2(3)+ pour que les serveurs rack de série C implémentent correctement cette caractéristique.
Dans UCSM 2.2(4), mettre DIMM activé par défaut.
Ouvrez le fichier… /var/log/DimmBL.log de support technique
Ouvrez le fichier /var/nuova/BIOS/MrcOut.txt s'il est disponible
Trouvez la table d'état DIMM. Recherchez le « état DIMM : "
DIMM mis sur la liste noire = 1E
Trouvez la table d'état DIMM. Recherchez le « état DIMM : "
État DIMM :
00 - Non installé
01 - Installé
10 - Manqué (panne de formation) clairement
1E - Manqué (DIMM mis sur la liste noire par BMC)
1F - Manqué (erreur SPD)
25 - Handicapé (l'autre DIMM a manqué dans le même canal)
Exemple
État DIMM :
|=======================|
| Mémoire | État DIMM |
| La Manche | 1 2 3 |
|=======================|
| A | 25 1F 25 |
| B | 01 01 01 |
| C | 1F 25 25 |
| D | 01 01 01 |
| E | 01 01 01 |
| F | 25 25 1E |
| G | 01 01 01 |
| H | 01 01 01 |
|=======================|
État DIMM :
01 - Installé
1E - Manqué (DIMM mis sur la liste noire par BMC)
1F - Manqué (erreur SPD)
25 - Handicapé (l'autre DIMM a manqué dans le même canal)
UCSB/châssis/serveur # remise-tout-mémoire-erreurs
Le régulateur de tension de l'ID de bogue Cisco CSCug93076 B200M3-DDR peut avoir le bruit excessif sous le chargement léger
Le capteur de défaut de l'ID de bogue Cisco CSCup07488 IPMI DIMM place Dimm dégradé sans le compte d'erreur.
L'ID de bogue Cisco CSCud22620 a amélioré la précision à identifier le DIMM dégradé
L'ID de bogue Cisco CSCuw44524 C460M4, B260M4 ou B460M4 IVB CMOS clair peut entraîner l'erreur de la mémoire UECC
Erreurs de l'ID de bogue Cisco CSCur19705 ECC/UECC observées sur B200M3
Disparus de documentation d'étapes de l'ID de bogue Cisco CSCvm88447Reset ECC pour les serveurs autonomes de Colusa