Para parceiros
The documentation set for this product strives to use bias-free language. For the purposes of this documentation set, bias-free is defined as language that does not imply discrimination based on age, disability, gender, racial identity, ethnic identity, sexual orientation, socioeconomic status, and intersectionality. Exceptions may be present in the documentation due to language that is hardcoded in the user interfaces of the product software, language used based on RFP documentation, or language that is used by a referenced third-party product. Learn more about how Cisco is using Inclusive Language.
A Cisco traduziu este documento com a ajuda de tecnologias de tradução automática e humana para oferecer conteúdo de suporte aos seus usuários no seu próprio idioma, independentemente da localização. Observe que mesmo a melhor tradução automática não será tão precisa quanto as realizadas por um tradutor profissional. A Cisco Systems, Inc. não se responsabiliza pela precisão destas traduções e recomenda que o documento original em inglês (link fornecido) seja sempre consultado.
Este documento descreve como solucionar problemas relacionados a módulos de memória na solução Cisco Unified Computing System (UCS). O UCS usa DIMM (Dual In-line Memory Module, módulo de memória em linha dupla) como módulos de RAM.
A Cisco recomenda que você tenha conhecimento do Cisco Unified Computing System (Cisco UCS).
Este documento não se restringe a versões de software e hardware específicas.
No entanto, este documento se concentra em
The information in this document was created from the devices in a specific lab environment. All of the devices used in this document started with a cleared (default) configuration. If your network is live, make sure that you understand the potential impact of any command.
Esta seção aborda as principais partes dos problemas de memória do UCS.
DIMM | Módulo de memória dual em linha |
ECC | Código de correção de erro |
LVDIMM | DIMM de baixa voltagem |
MCA | Arquitetura de verificação de máquina |
MEMBISTA | Autoteste integrado de memória |
MRC | Código de referência da memória |
POST | Autoteste de inicialização |
SPD | Detecção de presença serial |
DDR | Taxa de dados dupla |
RAS | Confiabilidade, disponibilidade e facilidade de manutenção |
O posicionamento da memória é provavelmente um dos aspectos físicos mais notáveis da solução UCS. Normalmente, o servidor vem com memória pré-preenchida com a quantidade solicitada. No entanto, em caso de dúvida, consulte o guia de instalação de hardware, que deve ser atualizado regularmente à medida que um novo hardware é introduzido.
Para obter as regras de preenchimento de memória, consulte as especificações técnicas da série B para a plataforma específica.
Enlace das especificações técnicas da série B:
Se um erro específico é corrigível ou incorrigível depende da intensidade do código ECC empregado no sistema de memória. O hardware dedicado pode corrigir erros corrigíveis quando eles ocorrem sem afetar a execução do programa.
Os DIMMs com erro corrigível não estão desativados e estão disponíveis para uso do SO. A memória total e a memória eficiente são iguais (considerando o espelhamento de memória). Esses erros corrigíveis relatados no estado de operabilidade do UCSM como Degraded enquanto operabilidade geral Operável com erros corrigíveis.
Erros incorrigíveis geralmente não podem ser corrigidos e podem tornar impossível para o aplicativo ou sistema operacional continuar a execução. Os DIMMs com erro incorrigível estão desativados e o SO não vê essa memória. UCSM operState muda para "Imperável" neste caso.
UCSM | Logs | Descrição | |
Status do DIMM | Operabilidade | SEL | Comentários |
Operável | Operável | Verifique se há erros relacionados ao DIMM no registro SEL | Um DIMM está instalado e funcionando. |
Operável | Degradado | Verifique se há erros de ECC no SEL | Um erro ECC DIMM corrigível é detectado durante o tempo de execução. |
Removido | N/A | Nenhum registro | Um DIMM não está instalado ou dados SPD corrompidos. |
Desabilitado | Operável | Verifique se há erros não estabelecidos no SEL quanto à identidade | Verificar e atualizar catálogo de recursos |
Desabilitado | N/A | Verifique o SEL se outro DIMM no mesmo canal falhou | Um DIMM pode estar em bom estado de funcionamento, mas desativado porque a regra de configuração não pôde ser mantida por um DIMM com falha no mesmo canal. |
Desabilitado | N/A | Nenhum registro | Falha ao seguir a regra de configuração de memória devido à falta de DIMMs. |
Inoperável | Imperável/Substituição necessária | Erro ECC UE detectado. | |
Degradado | Inoperável | Verifique se há erros de ECC no SEL | O status e a operabilidade do DIMM foram alterados devido a erros ECC detectados antes da reinicialização do host. |
Degradado | Imperável/Substituição necessária | Verifique se há erro de ECC no SEL durante o POST/MRC | Erro incorrigível de ECC detectado durante o tempo de execução, o DIMM permanece disponível para SO, SO trava e volta, mas ainda pode usar este DIMM. Um erro pode ocorrer novamente mais tarde. O DIMM deve ser substituído na maioria das situações. |
Para obter estatísticas, navegue até Equipment > Chassis > Server > Inventory > Memory e clique com o botão direito na memória e selecione show navigator.
Esses comandos são úteis ao Troubleshoot erros da CLI.
scope server x/y -> show memory detail
scope server x/y -> show memory-array detail
scope server x/y -> scope memory-array x -> show stats history memory-array-env-stats detail
No escopo da matriz de memória, você também pode obter acesso ao DIMM.
scope server X/Y > scope memory-array Z > scope DIMM N
A partir daí, você pode obter estatísticas por DIMM ou redefinir os contadores de erro.
UCS/chassis/server/memory-array/dimm # reset-errors
UCS /chassis/server/memory-array/dimm* # commit-buffer
UCS /chassis/server/memory-array/dimm # show stats memory-error-state
Se você vir um erro corrigível que corresponda às informações acima, o problema pode ser corrigido redefinindo o BMC em vez de recolocá-lo ou redefini-lo. Use estes comandos CLI do Cisco UCS Manager:
A redefinição do BMC não afeta o SO em execução no blade.
To reset memory-error counters on a Cisco UCS C-Series Rack Server operating in standalone mode, run the following script on the CLI:
UCS-C# scope reset-ecc
UCS-C/reset-ecc # set enabled yes
UCS-C/reset-ecc *# commit
For colusa servers:
UCS# scope chassis
UCS /chassis # scope server x
UCS /chassis/server # reset-ecc
Com as versões 2.27 e 3.1 e superiores do UCS, os limiares de erros corrigidos de memória foram removidos.
Portanto, os módulos de memória (DIMM) não devem mais ser relatados como "inoperáveis" ou "degradados" somente devido a erros de memória corrigidos.
Conforme o whitepaper http://www.cisco.com/c/dam/en/us/products/collateral/servers-unified-computing/ucs-manager/whitepaper-c11-736116.pdf
As demandas do setor por maior capacidade, maior largura de banda e voltagens operacionais mais baixas levam ao aumento das taxas de erro de memória. Tradicionalmente, o setor tratou erros corrigíveis da mesma forma que erros incorrigíveis, exigindo que o módulo seja substituído imediatamente após o alerta. Dada a pesquisa abrangente de que os erros corrigíveis não estão correlacionados com erros incorrigíveis e de que os erros corrigíveis não degradam o desempenho do sistema, a equipe do Cisco UCS recomenda a substituição imediata de módulos por erros corrigíveis. Os clientes que experimentarem um alerta de memória degradada para erros corrigíveis devem redefinir o erro de memória e retomar a operação. Se você seguir esta recomendação, ela evita interrupções desnecessárias no servidor. Futuras melhorias no gerenciamento de erros estão chegando e ajudam a distinguir entre vários tipos de erros corrigíveis e a identificar as ações apropriadas, se houver, necessárias.
Recomenda-se que seja o mínimo da versão 2.1(3c) ou 2.2(1b) que tenha aprimoramento com o gerenciamento de erros de memória do UCS
Se a solução de problemas acima não ajudou, solicite ajuda para o suporte.
UCSM_X_TechSupport > sam_techsupportinfo
Fornece informações sobre DIMMs e matriz de memória.
Suporte técnico para gabinete/servidor
CIMCX_TechSupport\tmp\CICMX_TechSupport.txt -> Generic tech support information about sever X.
CIMCX_TechSupport\obfl\obfl-log -> OBFL logs provide an ongoing logs about status and boot of server X.
CIMCX_TechSupport\var\log\sel -> SEL logs for server X.
Com base na plataforma/versão, navegue até os arquivos no pacote de suporte técnico
var/nuova/BIOS > RankMarginTest.txt
var/nuova/BIOS > MemoryHob.txt
var/nuova/BIOS > MrcOut_*.txt
Esses arquivos fornecem informações sobre a memória conforme vista no nível do BIOS.
Informações que podem ser cruzadas novamente tabelas de relatórios de estados de DIMM mostradas acima.
Exemplo:
/var/nuova/BIOS/RankMarginTest.txt
Teste de treinamento
MEMBISTA
DIMM |GB|R|MfgDate|Mod ID |DRAM ID |Reg ID |CtW Tck CLS Taa V|Freq|Part#
A1 18| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
A2 26| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
B1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
B2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
C1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
C2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
D1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
D2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
E1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
E2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
F1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
F2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
A primeira coluna tem dois valores:
Localizador de DIMM (F2)
Status do DIMM (01)
Aqui está uma breve descrição para cada status:
0x00 // Não instalado (sem DIMM)
0x01 // Instalado (em funcionamento)
/// 0x02-0F (Reservado)
/// Falhou
0x10 // Falha no treinamento
0x11 // Falha no treinamento do relógio
/// 0x12-17 (Reservado)
0x18 // MemBIST com falha
/// 0x19-1F (Reservado)
/// Ignorado
0x20 // Ignorado (Desativado do console de depuração)
0x21 // Ignorado (erro SPD relatado pela BMC)
0x22 // Ignorado (não RDIMM)
0x23 // Ignorado (não ECC)
0x24 // Ignorado (não x4)
0x25 // Ignorado (falha de outro PDIMM no mesmo LDIMM)
0x26 // Ignorado (falha de outro LDIMM no mesmo canal)
0x27 // Ignorado (falha de outro canal em LockStep ou Mirror)
0x28 // Ignorado (preenchimento PDIMM inválido)
0x29 // Ignorado (Incompatibilidade de organização PDIMM)
0x2A // Ignorado (Incompatibilidade de fornecedor de registro PDIMM)
/// 0x2B-7F (Reservado)
var/nuova/BIOS > MemoryHob.txt
mostra a memória efetiva e com falha instalada no servidor
+++ BEGINNING OF FILE
Memory Speed = 1067 MHz
Memory Mode = 00
RAS Modes = 03
MRC Flags = 0000000A
Total Memory = 98304 MB
Effective Memory = 90112 MB
Failed Memory = 8192 MB
Ignored Memory = 0 MB
Redundant Memory = 0 MB
|---------------------------------|
| Memory | Channel | DIMM Status |
| Channel | Status | 1 2 |
|---------------------------------|
| A | 01 | 01 01 |
| B | 01 | 01 01 |
| C | 01 | 01 01 |
| D | 01 | 01 01 |
| E | 01 | 01 01 |
| F | 01 | 01 18 |
|---------------------------------|
18h - O status do DIMM é marcado como apresentando falha quando ele falha no teste MemBist. Substitua por um DIMM em boas condições.
Descrição do status do DIMM
00h não instalado (sem DIMM)
01h instalado (em funcionamento)
02h - 0h Reservado
10h Falha (Treinamento)
11h com falha (treinamento de relógio)
12h - 17h Reservado
18h com falha (MemBIST)
19h - 1h Reservado
20h ignorado (desabilitado do console de depuração)
21h ignorado (erro SPD relatado pela BMC)
22h ignorado (não RDIMM)
23h ignorado (não ECC)
24h ignorado (não x4)
25h ignorado (falha de outro PDIMM no mesmo LDIMM)
26h ignorado (falha de outro LDIMM no mesmo canal)
27h ignorado (outro canal em LockStep ou Mirror)
28h ignorado (preenchimento de memória inválido)
29h ignorado (incompatibilidade de organização)
2Ah ignorado (registre a incompatibilidade do fornecedor)
2Bh - 7Fh Reservado
80h ignorado (loop alternativo)
81h ignorado (barramento I2C travado)
82h - FFh Reservado
No Cisco UCS Manager, o estado do DIMM (Dual In-line Memory Module, módulo de memória em linha dupla) é baseado nos registros de eventos do SEL. Quando o BIOS encontra um erro de memória não corrigível durante a execução do teste de memória, o DIMM está marcado como defeituoso. Um DIMM com falha é considerado um dispositivo não funcional.
Se você habilitar a lista negra de DIMMs, o Cisco UCS Manager monitora as mensagens de execução de teste de memória e lista negra de todos os DIMMs que encontram erros de memória nos dados SPD do DIMM. Para permitir que o host mapeie qualquer DIMM que encontre erros ECC incorrigíveis.
A lista negra da DIMM foi apresentada como uma política global opcional no UCSM 2.2(2).
O firmware do servidor deve ser 2.2(1)+ para blades B-series e 2.2(3)+ para servidores rack C-series para implementar corretamente esse recurso.
No UCSM 2.2(4), a lista negra de DIMMs está habilitada por padrão.
Abra o arquivo de suporte técnico .../var/log/DimmBL.log
Abra o arquivo /var/nuova/BIOS/MrcOut.txt se ele estiver disponível
Localize a tabela de status do DIMM. Procure "DIMM Status:"
DIMM na lista negra = 1E
Localize a tabela de status do DIMM. Procure "DIMM Status:"
Status do DIMM:
00 - Não instalado
01 - Instalado
10 - Falha (falha no treinamento)limpar
1E - Falha (DIMM com lista negra pela BMC)
1F - Falha (Erro SPD)
25 - Desativado (falha de outro DIMM no mesmo canal)
Exemplo
Status do DIMM:
|======================
| Memória | Status do DIMM |
| Canal | 1 2 3 |
|======================
| A | 25 1F 25 |
| B | 01 01 01 |
| C | 1F 25 25 |
| D | 01 01 01 |
| E | 01 01 01 |
| F | 25 25 1E |
| G | 01 01 01 |
| H | 01 01 01 |
|======================
Status do DIMM:
01 - Instalado
1E - Falha (DIMM com lista negra pela BMC)
1F - Falha (Erro SPD)
25 - Desativado (falha de outro DIMM no mesmo canal)
UCS-B/chassis/servidor # reset-all-memory-errors
O regulador de tensão Cisco Bug ID CSCug93076 B200M3-DDR pode ter ruído excessivo sob carga leve
O sensor de falha do DIMM IPMI CSCup07488 da Cisco Bug ID está definindo Dimm Degraded sem contagem de erros.
Cisco Bug ID CSCud22620 Maior precisão na identificação de DIMMs degradados
O bug da Cisco ID CSCuw4524 C460M4, B260M4 ou B460M4 IVB clear CMOS pode causar erro de memória UECC
Erros de ID de bug da Cisco CSCur19705 ECC/UECC observados no B200M3
ID de bug Cisco CSCvm88447Documentação das etapas de redefinição de ECC ausente para servidores Colusa autônomos