Introdução
Este documento descreve como solucionar problemas da placa de estrutura e de armazenamento (FSC) quando o trap SNMP "ThreshFabricEGQDiscards".
Pré-requisitos
Requisitos
A Cisco recomenda que você tenha conhecimento destes tópicos:
- StarOs
- Plataforma ASR5500
Componentes Utilizados
Este documento não se restringe a versões de software e hardware específicas.
As informações neste documento foram criadas a partir de dispositivos em um ambiente de laboratório específico. Todos os dispositivos utilizados neste documento foram iniciados com uma configuração (padrão) inicial. Se a rede estiver ativa, certifique-se de que você entenda o impacto potencial de qualquer comando.
Problema
Erro "ThreshFabricEGQDiscards" observado quando o Single Event Upset (SEU) está no chipset da borda da malha (FE) em uma placa FSC em um chassi ASR5500. Devido a essa mudança de bit nas tabelas FE, o chip FE começa a corromper pacotes (células) na estrutura, causando Descartes da fila de saída, o que leva a falhas de pulsação entre as placas.
Você pode ver um exemplo desse problema usando o comando show snmp trap history verbose da interface de linha de comando (CLI).
Sat Jan 02 03:59:30 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 9 device 2 threshold 50 measured value 2430 interval 30
Sat Jan 02 03:59:30 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 9 device 1 threshold 50 measured value 2096 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 5 device 4 threshold 50 measured value 481 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 4 device 2 threshold 50 measured value 3761 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 4 device 1 threshold 50 measured value 3660 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 5 device 2 threshold 50 measured value 173 interval 30
Sat Jan 02 03:59:40 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 5 device 1 threshold 50 measured value 133 interval 30
Sat Jan 02 03:59:42 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 8 device 2 threshold 50 measured value 2977 interval 30
Sat Jan 02 03:59:42 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 8 device 1 threshold 50 measured value 4310 interval 30
Sat Jan 02 03:59:44 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 3 device 1 threshold 50 measured value 4499 interval 30
Sat Jan 02 03:59:44 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 3 device 2 threshold 50 measured value 4091 interval 30
Sat Jan 02 03:59:45 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 10 device 1 threshold 50 measured value 2796 interval 30
Sat Jan 02 03:59:45 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 10 device 2 threshold 50 measured value 5418 interval 30
Sat Jan 02 03:59:47 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 1 device 2 threshold 50 measured value 4747 interval 30
Sat Jan 02 03:59:47 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 1 device 1 threshold 50 measured value 5243 interval 30
Sat Jan 02 03:59:49 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 7 device 2 threshold 50 measured value 4644 interval 30
Sat Jan 02 03:59:49 2016 Internal trap notification 523 (ThreshFabricEGQDiscards) slot 7 device 1 threshold 50 measured value 5017 interval 30
Essa linha é vista em vários consoles de cpu de placas:
Note: o comando debug console card é o comando hidden/test. Esse comando também é coletado todas as vezes para todas as placas no ASR5500 quando o comando show support details é executado no nó StarOs.
******** debug console card 1 cpu 0 tail 10000 only *******
Saturday January 02 05:45:38 EST 2016
[...]
2016-Jan-02+03:59:47.479 card 1-cpu0: afio [1/0/2701] [2862193.674] afio/afio_petrab_egress.c:121: #1: petrab=1=1/1, PetraB EGQ Egress drop threshold exceeded, drop count=5243, interval=30 secs, threshold=50
Troubleshooting
Verifique se as quedas de saída estão aumentando.
Note: Se os erros de estrutura estiverem aumentando e você estiver executando o nó StarOs na versão 19.0 ou posterior, continue na seção Solução deste artigo.
Note: Se os erros de estrutura estiverem aumentando e você estiver executando a versão do nó StarOs abaixo da versão release.19.0, aumente a solicitação de serviço em relação ao TAC.
Etapa 1. Entre no modo de teste, aqui está a documentação sobre como ativá-lo no nó StarOs.
cli test-commands [encrypted] password password
Etapa 2. Verificar a integridade da estrutura.
show fabric health | grep -i -E "^Petra-B|EGQ"
Exemplo de saída quando o problema não está presente:
[local]#show fabric health | grep -i -E "^Petra-B|EGQ"
Petra-B 1=1/1
Petra-B 2=1/2
Petra-B 3=2/1
Petra-B 4=2/2
Petra-B 5=3/1
Petra-B 6=3/2
[...]
Exemplo de saída em que você vê um aumento nos pacotes de descarte EGQ:
[local]#show fabric health | grep -i -E "^Petra-B|EGQ"
Petra-B 1=1/1
EGQ.RqpDiscardPacketCounter 1143278
EGQ.EhpDiscardPacketCounter 1143278
EGQ.PqpDiscardUnicastPacketCounter 1143278
Petra-B 2=1/2
EGQ.RqpDiscardPacketCounter 1068491
EGQ.EhpDiscardPacketCounter 1068491
EGQ.PqpDiscardUnicastPacketCounter 1068491
[local]#show fabric health | grep -i -E "^Petra-B|EGQ"
Petra-B 1=1/1
EGQ.RqpDiscardPacketCounter 1346022 <<<
EGQ.EhpDiscardPacketCounter 1346022 <<<
EGQ.PqpDiscardUnicastPacketCounter 1346022 <<<
Petra-B 2=1/2
EGQ.RqpDiscardPacketCounter 1271360 <<<
EGQ.EhpDiscardPacketCounter 1271360 <<<
EGQ.PqpDiscardUnicastPacketCounter 1271360 <<<
Solução
Mecanismo de recuperação automática
Tipo de alteração de comportamento:
Novo comando CLI para habilitar o procedimento de recuperação/redefinição automática de FSC ao detectar descartes excessivos de saída de estrutura
Versão introduzida:
19.0
Comportamento antigo:
Processo de recuperação manual para redefinir FSCs.
Novo comportamento:
Novos comandos de configuração CLI, verifique a documentação:
fabric fsc autorrecovery enable max-attempts <X> para ativar este recurso.
max-attempts é o número de vezes que ele redefine cada FSCs. Por padrão, o máximo de tentativas é ilimitado.
fabric fsc autorrecovery disable para desabilitar este recurso.
show afctrl fsc-auto-recovery exibe detalhes sobre a recuperação automática de FSC, incluindo dispositivos ainda a serem redefinidos, contagem de redefinição, máximo de tentativas, estado de saída de limite de queda e histórico de recuperação automática de FSC.
Caution: Impacto no cliente: Os dispositivos FSC FE são redefinidos e todos os pacotes em trânsito são perdidos.
Note: Todos os valores, exceto o histórico, são replicados quando o MIO falha.