O conjunto de documentação deste produto faz o possível para usar uma linguagem imparcial. Para os fins deste conjunto de documentação, a imparcialidade é definida como uma linguagem que não implica em discriminação baseada em idade, deficiência, gênero, identidade racial, identidade étnica, orientação sexual, status socioeconômico e interseccionalidade. Pode haver exceções na documentação devido à linguagem codificada nas interfaces de usuário do software do produto, linguagem usada com base na documentação de RFP ou linguagem usada por um produto de terceiros referenciado. Saiba mais sobre como a Cisco está usando a linguagem inclusiva.
A Cisco traduziu este documento com a ajuda de tecnologias de tradução automática e humana para oferecer conteúdo de suporte aos seus usuários no seu próprio idioma, independentemente da localização. Observe que mesmo a melhor tradução automática não será tão precisa quanto as realizadas por um tradutor profissional. A Cisco Systems, Inc. não se responsabiliza pela precisão destas traduções e recomenda que o documento original em inglês (link fornecido) seja sempre consultado.
Este documento descreve como solucionar problemas de módulos de memória e problemas relacionados na solução Cisco Unified Computing System (UCS).
A Cisco recomenda o conhecimento de Cisco Unified Computing System (Cisco UCS)
.
Este documento não se restringe a versões de software e hardware específicas.
No entanto, este documento aborda:
Cisco UCS B-Series Blade Servers
UCS Manager
Dual In-line Memory Module
(DIMM) como módulos de RAM.The information in this document was created from the devices in a specific lab environment. All of the devices used in this document started with a cleared (default) configuration. Se a rede estiver ativa, certifique-se de que você entenda o impacto potencial de qualquer comando.
Esta seção aborda várias partes de problemas de memória do UCS.
DIMM | Módulo de memória dupla em linha |
ECC | Código de Correção de Erro |
LVDIMM | DIMM de baixa voltagem |
MCA | Arquitetura de verificação de máquina |
MEMBRO | Memory Built-in Self Test (Teste automático integrado da memória) |
MRC | Código de referência de memória |
POST | Autoteste de inicialização |
SPD | Detecção de presença serial |
DDR | Taxa de dados dupla |
RAS | Confiabilidade, disponibilidade e facilidade de manutenção |
O posicionamento da memória é um dos aspectos físicos mais notáveis da solução UCS.
Normalmente, o servidor vem com memória pré-preenchida com uma quantidade solicitada.
No entanto, em caso de dúvida, consulte o guia de instalação de hardware.
Para as regras de preenchimento de memória, consulte as especificações técnicas da série B para a plataforma específica.
Link para especificações técnicas da série B:
A correção ou não de um erro específico depende da intensidade do código ECC empregado no sistema de memória.
O hardware dedicado é capaz de corrigir erros corrigíveis quando eles ocorrem sem nenhum impacto na execução do programa.
Os DIMMs com erros corrigíveis não estão desativados e estão disponíveis para uso pelo sistema operacional. O Total Memory
e Effective Memory
são os mesmos.
Esses erros corrigíveis são relatados no estado de operabilidade do UCSM como Degraded
enquanto a operabilidade geral é Operable
com erros corrigíveis.
Erros incorrigíveis impossibilitam que o aplicativo ou o sistema operacional continue a execução.
Os DIMMs com erros incorrigíveis são desativados e o SO não os vê. UCSM operState alterado para Inoperable
nesse caso.
UCSM | Logs | Descrição | |
Status do DIMM | Operabilidade | SEL | Comentários |
Operável | Operável | Verifique se há erros relacionados ao DIMM no registro SEL | Um DIMM está instalado e funcionando. |
Operável | Degradado | Verificar se há erros ECC no SEL | Um erro corrigível de DIMM ECC é detectado durante o tempo de execução. |
Removido | N/A | Sem logs | Um DIMM não está instalado ou os dados SPD estão corrompidos. |
Desabilitado | Operável | Verificar se há erros não detectáveis de identidade no SEL | Verificar e atualizar o catálogo de recursos |
Desabilitado | N/A | Verifique se outro DIMM de entrada falhou no mesmo canal | Um DIMM está íntegro, mas está desabilitado porque a regra de configuração não pôde ser mantida por um DIMM com falha no mesmo canal. |
Desabilitado | N/A | Sem logs | Falha na regra de configuração de memória devido a DIMMs perdidos. |
Inoperable | Inoperable/Replacement required (Não operacional/Substituição necessária) | Erro UE ECC detectado. | |
Degradado | Inoperable | Verificar se há erros ECC no SEL | O status e a operabilidade do DIMM foram alterados devido a erros de ECC detectados antes da reinicialização do host. |
Degradado | Inoperable/Replacement required (Não operacional/Substituição necessária) | Verifique se há erros ECC no SEL durante o POST/MRC | Erro ECC incorrigível detectado durante o tempo de execução, o DIMM permanece disponível para o SO, o SO trava e volta a funcionar, mas ainda pode usar esse DIMM. O erro pode ocorrer novamente mais tarde. O DIMM deve ser substituído na maioria das situações. |
Para obter estatísticas, navegue até Equipment > Chassis > Server > Inventory > Memory,
e clique com o botão direito do mouse em Memory
e selecione show navigator
.
Esses comandos são úteis ao solucionar erros do CLI.
scope server x/y -> show memory detail
scope server x/y -> show memory-array detail
scope server x/y -> scope memory-array x -> show stats history memory-array-env-stats detail
Do escopo da matriz de memória, você também pode obter acesso ao DIMM.
scope server X/Y > scope memory-array Z > scope DIMM N
A partir daí, você pode obter estatísticas por DIMM ou redefinir os contadores de erro.
UCS/chassis/server/memory-array/dimm # reset-errors
UCS /chassis/server/memory-array/dimm* # commit-buffer
UCS /chassis/server/memory-array/dimm # show stats memory-error-state
Se você vir um erro corrigível que corresponda a essas informações, o problema pode ser corrigido reinicializando o BMC em vez de reinicializar o servidor blade.
Use estes comandos CLI do Cisco UCS Manager:
(Redefinir o BMC não afeta o SO em execução no blade.)
To reset memory-error counters on a Cisco UCS C-Series Rack Server operating in standalone mode, run the script on the CLI:
UCS-C# scope reset-ecc
UCS-C/reset-ecc # set enabled yes
UCS-C/reset-ecc *# commit
For colusa servers:
UCS# scope chassis
UCS /chassis # scope server x
UCS /chassis/server # reset-ecc
Com as versões 2.27, 3.1 e superiores do UCS, os limites para erros corrigidos de memória foram removidos.
Portanto, os módulos de memória não são mais reportados como Inoperable
or Degraded
exclusivamente devido a erros de memória corrigidos.
Conforme o whitepaper https://www.cisco.com/c/dam/en/us/products/collateral/servers-unified-computing/ucs-manager/whitepaper-c11-736116.pdf
As demandas do setor por maior capacidade, maior largura de banda e menores voltagens operacionais resultam em taxas de erro de memória maiores.
Tradicionalmente, o setor tem tratado os erros corrigíveis da mesma forma que os erros incorrigíveis, exigindo que o módulo seja substituído imediatamente após o alerta.
Considerando uma pesquisa extensa que os erros corrigíveis não estão correlacionados com erros incorrigíveis e que os erros corrigíveis não degradam o desempenho do sistema, a equipe do Cisco UCS recomenda a substituição imediata de módulos com erros corrigíveis.
Os clientes que tiverem um alerta de memória degradada para erros corrigíveis são aconselhados a redefinir o erro de memória e retomar a operação.
Essa recomendação ajuda a evitar a interrupção desnecessária do servidor.
Futuras melhorias no gerenciamento de erros distinguem entre vários tipos de erros corrigíveis e identificam as ações apropriadas, se houver, necessárias.
No mínimo, use a versão 2.1(3c) ou 2.2(1b) que tenha aprimoramento com o gerenciamento de erros de memória do UCS
UCSM_X_TechSupport > sam_techsupportinfo
fornece informações sobre DIMM e matriz de memória.
Suporte técnico para chassi/servidor
CIMCX_TechSupport\tmp\CICMX_TechSupport.txt -> Generic tech support information about sever X.
CIMCX_TechSupport\obfl\obfl-log -> OBFL logs provide an ongoing logs about status and boot of server X.
CIMCX_TechSupport\var\log\sel -> SEL logs for server X.
Com base na plataforma/versão, navegue até os arquivos no pacote de suporte técnico.
var/nuova/BIOS > RankMarginTest.txt
var/nuova/BIOS > MemoryHob.txt
var/nuova/var/nuova/ BIOS > MrcOut_*.txt
Esses arquivos fornecem informações sobre a memória conforme vistos no nível do BIOS.
É possível fazer novamente referência cruzada das informações com as tabelas de relatórios de estados do DIMM.
Exemplo:
/var/nuova/BIOS/RankMarginTest.txt
DIMM |GB|R|MfgDate|Mod ID |DRAM ID |Reg ID |CtW Tck CLS Taa V|Freq|Part#
A1 18| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
A2 26| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
B1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
B2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
C1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
C2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
D1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
D2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
E1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
E2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
F1 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
F2 01| 8|2|2009W48|Samsung|Samsung 00|Inphi 03|5550 0C 003C 69 0|1333|M393B1K70BH1-CH9
A primeira coluna tem dois valores:
Localizador de DIMM (F2)
Status do DIMM (01)
Aqui está uma breve descrição de cada status:
0x00 // Não instalado (sem DIMM)
0x01 // Instalado (Trabalhando)
/// 0x02-0F (Reservado)
//// Falhou
0x10 // Falha no treinamento
0x11 // Falha no treinamento do relógio
//// 0x12-17 (Reservado)
0x18 // MemBIST com falha
//// 0x19-1F (Reservado)
//// Ignorado
0x20 // Ignorado (Desabilitado do console de depuração)
0x21 // Ignorado (Erro SPD relatado pelo BMC)
0x22 // Ignorado (Não-RDIMM)
0x23 // Ignorado (Não-ECC)
0x24 // Ignorado (Não-x4)
0x25 // Ignorado (Falha em outro PDIMM no mesmo LDIMM)
0x26 // Ignorado (Falha em outro LDIMM no mesmo canal)
0x27 // Ignorado (Falha em outro canal no LockStep ou Mirror)
0x28 // Ignorado (preenchimento PDIMM inválido)
0x29 // Ignorado (Incompatibilidade de organização PDIMM)
0x2A // Ignorado (Incompatibilidade de fornecedor de registro PDIMM)
//// 0x2B-7F (Reservado)
var/nuova/BIOS > MemoryHob.txt
mostra memória efetiva e com falha instalada no servidor
+++ BEGINNING OF FILE
Memory Speed = 1067 MHz
Memory Mode = 00
RAS Modes = 03
MRC Flags = 0000000A
Total Memory = 98304 MB
Effective Memory = 90112 MB
Failed Memory = 8192 MB
Ignored Memory = 0 MB
Redundant Memory = 0 MB
|---------------------------------|
| Memory | Channel | DIMM Status |
| Channel | Status | 1 2 |
|---------------------------------|
| A | 01 | 01 01 |
| B | 01 | 01 01 |
| C | 01 | 01 01 |
| D | 01 | 01 01 |
| E | 01 | 01 01 |
| F | 01 | 01 18 |
|---------------------------------|
18h - O status do DIMM é marcado como falha quando ele falha no teste MemBist. Substitua por um DIMM em boas condições.
Descrição do status do DIMM
00h Não instalado (sem DIMM)
01h instalado (em funcionamento)
02h-0Fh Reservado
10h Reprovado (Treinamento)
11h Falhou (Treinamento do relógio)
12h - 17h Reservado
18h com falha (MemBIST)
19h-1Fh Reservado
20h Ignorado (Desativado no console de depuração)
21h Ignorado (erro de SPD relatado pelo BMC)
22h Ignorado (Não-RDIMM)
23h Ignorado (Não-ECC)
24h Ignorado (Não-x4)
25h ignorado (outro PDIMM no mesmo LDIMM falhou)
26h Ignorado (falha em outro LDIMM do mesmo canal)
27h Ignorado (Outro canal no LockStep ou Mirror)
28h Ignorado (população de memória inválida)
29h Ignorado (Incompatibilidade de organização)
2Ah ignorado (incompatibilidade de fornecedor de registro)
2Bh- 7Fh Reservado
80h Ignorado (Looping Alternativo)
81h Ignorado (barramento I2C preso)
82h - FFh Reservado
IN Cisco UCS Manager
, o estado do Dual In-line Memory Module
(DIMM) é baseado em registros de eventos SEL.
Quando o BIOS encontra um erro de memória não corrigível durante a execução do teste de memória, o DIMM é marcado como defeituoso.
Um DIMM com defeito é considerado um dispositivo não funcional.
Se você ativar a lista negra de DIMM, o Cisco UCS Manager monitorará as mensagens de execução do teste de memória e fará a lista negra de todos os DIMMs que encontrarem erros de memória nos dados de SPD de DIMM.
O DIMM Blacklisting foi introduzido como uma política global opcional no UCSM 2.2(2).
O firmware do servidor deve ser 2.2(1)+ para blades B-series e 2.2(3)+ para servidores rack C-series para implementar adequadamente esse recurso.
No UCSM 2.2(4), o DIMM, Blacklisting, está ativado.
Abra o arquivo de suporte técnico .../var/log/DimmBL.log
Abra o arquivo /var/nuova/BIOS/MrcOut.txt se ele estiver disponível
Localize a tabela DIMM Status (Status do DIMM). Procure "DIMM Status:"
DIMM na lista negra = 1E
Localize a tabela DIMM Status (Status do DIMM). Procure "DIMM Status:"
Status do DIMM:
00 - Não instalado
01 - Instalado
10 - Reprovado (Falha no treinamento)limpar
1E - Com falha (DIMM na lista negra pela BMC)
1F - Falha (Erro de SPD)
25 - Desativado (outro DIMM falhou no mesmo canal)
Exemplo
Status do DIMM:
|=======================|
Memória | | Status do DIMM |
| Canal | 1 2 3 |
|=======================|
| A | 25 1F 25 |
| B | 01 01 01 |
| C | 1F 25 25 |
| D | 01 01 01 |
| E | 01 01 01 |
| F | 25 25 1E |
| G | 01 01 01 |
| H | 01 01 01 |
|=======================|
Status do DIMM:
01 - Instalado
1E - Com falha (DIMM na lista negra pela BMC)
1F - Falha (Erro de SPD)
25 - Desativado (outro DIMM falhou no mesmo canal)
UCS-B/chassis/server # reset-all-memory-errors
O regulador de tensão com ID de bug da Cisco CSCug93076 B200M3-DDR apresenta ruído excessivo sob carga leve
O sensor de falhas do DIMM CSCup07488 IPMI com ID de erro da Cisco está configurando Dimm degradado sem contagem de erros.
ID de bug Cisco CSCud2620 Maior precisão na identificação de DIMMs degradados
O bug da Cisco ID CSCuw44524 C460M4, B260M4 ou B460M4 IVB clear CMOS pode causar erro de memória UECC
Erros de Cisco bug ID CSCur19705 ECC/UECC observados no B200M3
A documentação do ID de bug da Cisco CSCvm8447Reset ECC steps está ausente para servidores independentes da Colusa
Revisão | Data de publicação | Comentários |
---|---|---|
3.0 |
19-Dec-2022 |
Recertificação |
1.0 |
21-Oct-2016 |
Versão inicial |