Introdução
Este documento descreve as etapas de remediação e retardamento de coop-ep-Fault F3696 da ACI.
Informações de Apoio
Essa falha específica é disparada quando os EPs entram em um estado de "congelamento" devido ao recurso de amortecimento de endpoint COOP. Os EPs são colocados em um estado de "congelamento" quando são encontrados para ter um comportamento de movimento consistente, causando várias atualizações para COOP em um curto intervalo de tempo.
O amortecimento EP COOP é um mecanismo de proteção do processo COOP que também auxilia na identificação do motivo pelo qual EP ou EP.
O retardamento de COOP EP é introduzido, e ativado por padrão, no Cisco Application Policy Infrastructure Controller (APIC) versão 4.2(3).
code : F3696
descr : 1 EPs are in freeze state.
cause : coop-ep-dampening
Observação: a natureza dessa falha e os temporizadores de burndown associados podem fazer com que a falha seja disparada e, em seguida, eliminada por conta própria.
Malhas da Intersight Connected ACI
Essa falha é monitorada ativamente como parte dos contratos de ACI proativos.
Se você tiver uma malha da ACI conectada à Intersight, uma solicitação de serviço foi gerada em seu nome para indicar que instâncias dessa falha foram encontradas na malha da ACI conectada à Intersight.
Amortecimento de endpoint COOP
O protocolo COOP (Council of Oracle Protocol) é usado para comunicar informações de mapeamento de endpoint (EP) (local e identidade) ao proxy spine. Os switches leaf encaminham informações de endereço de endpoint para os switches spine via COOP, o que garante que todos os nós spine mantenham uma cópia consistente do endereço de endpoint e das informações de local.
O movimento consistente de EP, como em interfaces ou dispositivos, causa atualizações constantes de endpoint em direção às colunas para garantir que o banco de dados COOP seja preciso. Um volume agressivo de atualizações devido à movimentação em andamento do endpoint pode resultar em excesso de utilização do recurso COOP, impedindo o processamento de atualizações válidas do endpoint.
A detecção de ponto de extremidade invasor, um recurso do switch leaf, impede que atualizações agressivas do EP alcancem o switch spine, desde que os movimentos tenham escopo para uma única folha. Há outros cenários de movimento de EP, como o movimento de EP em folha cruzada, que exige um mecanismo de proteção diferente para proteger o COOP. É aqui que entra em jogo o amortecimento de endpoints COOP.
Para aliviar a pressão sobre COOP em situações de Movimento EP, os switches spine pedem a todos os switches leaf para ignorar as atualizações dos endpoints sinalizados por um período especificado. Quando isso ocorre, o estado de amortecimento de qualquer ponto final é "congelado" e uma falha F3696 é gerada.
Mais detalhes sobre valores de penalidade e limites são mencionados no link do guia de configuração, exemplo 4.2 link do guia de configuração.
Consulte o link do guia de configuração específico da versão para obter informações mais recentes sobre esse recurso.
Observação: os outros recursos agressivos da Proteção de Atualização do EP, como o Controle de EP Invasor e a Proteção de Loop do EP, devem ser explicitamente habilitados. Mais detalhes sobre esses recursos são abordados no white paper de aprendizagem de endpoints de malha da ACI.
Possíveis causas de congelamento de EP
Os dois cenários típicos vistos para causar esse comportamento em campo são:
- Um servidor com 2 conexões de folha separadas usando Ative-Ative, em vez de uma configuração de link lógico único (vPC)
- Um loop em dispositivos de rede downstream
Início rápido para solucionar falha
- Identifique quais endpoints entraram no estado "congelado".
- (Opcional) Se o impacto do Dataplane for notado, limpe o EP congelado para resolução de impacto temporário.
- Identifique e entenda por que o(s) EP(s) mudou(aram) e se isso é ou não esperado e necessário no seu projeto de rede.
- Se não for necessário, tome medidas para resolver a condição subjacente que causou o movimento do EP.
- Se o movimento em questão for necessário e necessário para o projeto de rede, considere desativar a Redução de EP COOP.
Observação: o amortecimento COOP EP é um mecanismo de proteção para o processo COOP. Em geral, é preferível tomar medidas que atenuem, sempre que possível, os movimentos desnecessários do PE.
Etapas detalhadas para solucionar a falha
Identificar pontos de extremidade congelados
Use este procedimento CLI do switch para visualizar todos os pontos finais atenuados em um nó spine ou leaf.
- Faça login na CLI do switch spine ou leaf e insira o comando: switch# show coop internal info repo ep dampening
(Opcional) Limpar pontos de extremidade congelados
Utilizando a GUI
Quando executado usando a GUI, isso limpa todos os EPs congelados no nó selecionado. Essa operação deve ser executada em todos os switches spine, bem como no switch folha de origem do ponto de extremidade congelado.
- Na barra de menus, clique em Fabric > Inventory.
- No painel Navegação, expanda o pod e o nó spine ou leaf.
- Clique com o botão direito do mouse no nó e escolha Limpar pontos finais amortecidos.
- Clique em Sim para confirmar a ação.
Observação: se o(s) EP(s) em questão ainda estiverem na tabela de endpoint no switch leaf, o endpoint será publicado no banco de dados COOP do switch spine. Caso contrário, o ponto final atenuado é excluído do banco de dados COOP do switch spine após dois minutos.
Através da CLI do Switch
Quando executado por meio de uma CLI do switch, este procedimento limpa apenas um único endpoint por vez. Esta operação deve ser executada em todos os switches spine e no switch folha de origem do ponto de extremidade.
- Faça login na CLI do switch spine ou leaf e digite o comando: switch# clear coop internal info repo ep dampening key <bd_vnid> <mac>
Observação: se o(s) EP(s) em questão ainda estiverem na tabela de endpoint no switch leaf, o endpoint será publicado no banco de dados COOP do switch spine. Caso contrário, o ponto final atenuado é excluído do banco de dados COOP do switch spine após dois minutos.
Desabilitar Redução de EP COOP
Em geral, isso não é recomendado. No entanto, se você descobriu que o seu projeto de rede requer o movimento EP em questão, o retardamento EP COOP pode ser desativado.
Um HTTP POST para /api/policymgr/mo/xml com disableEpDampening="true" desabilita o retardamento de EP COOP.
A redução de EP COOP pode ser reativada com a mesma solicitação, mas definindo disableEpDampening="false".
POST api/policymgr/mo/.xml
PAYLOAD:
disableEpDampening="true">
Uso do APIC CLI
Na CLI do APIC, o comando icurl pode facilitar o HTTP POST necessário.
Desabilitar redução de EP COOP:
apic# icurl -X POST -d '
' http://localhost:7777/api/policymgr/mo/.xml
Validar que a redução de COOP EP foi desabilitada:
apic# moquery -c infraSetPol
Total Objects shown: 1
# infra.SetPol
disableEpDampening : yes
dn : uni/infra/settings
Detalhes adicionais
Amortecimento COOP EP - Personalização DampFactor
Nas versões 5.2.4d e posteriores, o dampFactor pode ser modificado para aumentar valores específicos associados ao recurso de amortecimento COOP EP.
Considere modificar o DampFactor para cenários onde um certo nível de movimento EP é esperado fora dos limites padrão, e você não deseja desativar o retardamento COOP EP.
Há 3 valores de limite relacionados à penalidade úmida que funcionam em conjunto. Todos os três valores são modificados ao alterar o DampFactor:
Nome do Limite |
Descrição |
Valor padrão |
dampReuseThresh |
Reutilizar o valor de limite quando o EP voltar ao estado normal de um estado "congelado" |
2500 |
dampSatThresh |
Limiar de saturação úmido. Quando um EP ultrapassa esse valor de penalidade, ele é colocado em um estado de "congelamento" |
10000 |
dampThresh |
Limite de estado crítico. Se o EP ficar acima do limite por 10 minutos, ele será colocado em um estado de "congelamento" |
4000 |
O DampFactor padrão é definido como 1. O dampFactor pode ser modificado para valores entre 1 e 5.
Modificar COOP EP DampFactor
Para alterar o fator de umidade para 4 vezes o valor, você pode usar esta postagem no APIC:
apic# icurl -X POST -d '
dampFactor=4
>
' http://localhost:7777/api/policymgr/mo/.xml
Os limites modificados podem ser validados, por coluna por repositório, verificando a classe coopRepP:
apic# moquery -c coopRepP
# coop.RepP
...
dampReuseThresh : 10000
dampSatThresh : 40000
dampThresh : 16000