Introducción
Este documento describe un problema encontrado en los puertos Fibre Channel (FC) Cisco Multilayer Data Switch (MDS) serie 9000 y proporciona una solución al problema.
Problema
Este registro de eventos de enlace muestra:
*************** Port Config Link Events Log ***************
---- ------ ----- ----- ------
Time PortNo Speed Event Reason
---- ------ ----- ----- ------
...
Jul 28 00:46:39 2012 00670297 fc11/25 --- DOWN LR Rcvd B2B
El mensaje LR Rcvd B2B (o Link Failure Link Reset failed nonvvoid queue) indica que el dispositivo conectado al puerto transmite un Link Reset (LR) al MDS, pero el MDS no responde con una Link Reset Response (LRR) debido a la congestión interna en el puerto. El puerto tiene paquetes en cola que se reciben del dispositivo conectado, pero el MDS no puede enviarlos al puerto de salida apropiado. Dado que todavía están en cola en el puerto de ingreso, el MDS no puede enviar un LRR y el link falla.
Estos mensajes de error acompañan al registro de eventos anterior:
%PORT-2-IF_DOWN_LINK_FAILURE: %$VSAN 93%$
Interface fc11/25 is down (Link failure)
%PORT-5-IF_DOWN_LINK_FAILURE: %$VSAN 100%$
Interface fc5/32 is down (Link failure Link Reset
failed nonempty recv queue)
Nota: Este escenario se da bajo las suposiciones de que el número de créditos del búfer que el MDS otorga al dispositivo FC es tres y que los paquetes del dispositivo FC se conmutan al puerto FC de salida.
MDS
FC Port FC Port
(Egress) Arbiter (Ingress) FC device
-------- ------- --------- ---------
1) <------- FC packet 1
2) <--- Grant Request
3) Grant------------>
4) <---------------FC packet 1
5) R_Rdy--------> Tx B2B=3
6) <------- FC packet 2 Tx B2B=2
7) <---- Grant Request
8) <------- FC packet 3 Tx B2B=1
9) <---- Grant Request
10) <------- FC packet 4 Tx B2B=0
11) <---- Grant Request
12) Time lapses - Variable depending on attached HBA type
13) <--------Link Reset(LR)
14) Start 90ms "LR Rcvd B2B" timer
15) "LR Rcvd B2B" timer expires
16) <--------NOS-------->
Explicación
Esta sección explica el resultado anterior:
- El dispositivo FC transmite en un paquete FC al puerto de ingreso, destinado al puerto de egreso.
- El puerto de tarjeta de línea de ingreso (LC) de MDS determina el índice de destino (DI) y transmite la solicitud de concesión al árbitro (Bellagio2) en el supervisor activo.
- El árbitro envía de vuelta una concesión al puerto de ingreso, que le da permiso para transmitir el paquete FC 1 al puerto de salida a través de XBAR.
- La LC de ingreso transmite el paquete FC 1 a través de XBAR al puerto de egreso. Esto hace que el búfer de ingreso esté disponible.
- El puerto de ingreso transmite un R_RDY de vuelta al dispositivo FC, que repone el crédito.
Nota: Los primeros cinco pasos son típicos cuando no hay congestión. Suponga en este punto que las colas de puerto de egreso están llenas y no pueden recibir más paquetes.
- El dispositivo FC transmite el paquete FC 2 al puerto de ingreso, destinado al puerto de egreso.
- El puerto LC de ingreso MDS determina el DI y transmite la solicitud de otorgamiento al árbitro (Bellagio2) en el Supervisor activo.
- El dispositivo FC transmite el paquete FC 3 al puerto de ingreso, destinado al puerto de egreso.
- El puerto LC de ingreso MDS determina el DI y transmite la solicitud de otorgamiento al árbitro (Bellagio2) en el Supervisor activo.
- El dispositivo FC transmite el paquete FC 4 al puerto de ingreso, destinado al puerto de egreso.
- El puerto LC de ingreso MDS determina el DI y transmite la solicitud de otorgamiento al árbitro (Bellagio2) en el Supervisor activo.
- El tiempo caduca, lo que varía en función del tipo de HBA conectado.
- Después de algún tiempo en Tx B2B=0, el dispositivo FC inicia Recuperación de Pérdida de Crédito y transmite un reinicio de link (LR).
- Cuando el puerto de ingreso recibe la LR, verifica sus memorias intermedias de ingreso y determina que hay al menos un paquete en cola. Luego inicia un temporizador LR Rcvd B2B de 90 ms.
- Si se reciben las concesiones y los tres paquetes FC se transmiten al puerto de salida, el temporizador LR Rcvd B2B se cancela y se devuelve una respuesta de reinicio de link (LRR) al dispositivo FC. En este caso, sin embargo, el puerto de salida permanece congestionado y los tres paquetes FC permanecen en cola en el puerto de ingreso. El temporizador LR Rcvd B2B caduca y un LRR no se transmite nuevamente al dispositivo FC.
- Tanto el puerto de ingreso como el dispositivo FC inician una falla de link a través de la transmisión de una secuencia no operativa.
Solución
Si el link falló con un mensaje LR Rcvd B2B o un Link Failure Link Reset falló en la cola recv no vacía, entonces el puerto que falló no es la causa de la fuga lenta y sólo se vio afectado por el puerto lento/atascado. Para identificar el puerto lento/atascado que causó la falla del link, complete estos pasos:
- Determine si hay más de un link que falla debido al problema mencionado anteriormente. Si más de un link falla aproximadamente al mismo tiempo, entonces el problema podría surgir porque todos los puertos intentan transmitir paquetes a un puerto de salida común.
- Verifique la base de datos de zonificación de VSAN para ver con qué dispositivos se divide en zonas el dispositivo FC adyacente. Asigne estos datos a los puertos E o F locales. Para mapear a la salida E, los puertos utilizan el comando show fspf internal route vsan <vsan> domain <dom>. Para mapear a los puertos F locales, utilice el comando show flogi database vsan <vsan>. Si hay más de un link que falla con el mensaje LR Rcvd B2B, combine los puertos E de salida o F locales encontrados y verifique si hay solapamientos. Los desbordamientos son probablemente las causas de los puertos lentos/atascados.
- Verifique los puertos que se encuentran en el Paso 2 para ver las indicaciones de la fuga lenta. Pueden citarse como ejemplo:
- Pérdida de crédito (AK_FCP_CNTR_CREDIT_LOSS / FCP_SW_CNTR_CREDIT_LOSS)
- 100 ms Tx B2B Zero (AK_FCP_CNTR_TX_WT_AVG_B2B_ZERO / FCP_SW_CNTR_TX_WT_AVG_B2B_ZERO)
- Descartes de tiempo de espera (AK_FCP_CNTR_LAF_TOTAL_TIMEOUT_FRAMES / THB_TMM_TOLB_TIMEOUT_DROP_CNT / F16_TMM_TOLB_TIMEOUT_DROP_CNT)
- Si determina que el puerto lento es un puerto E de salida, continúe con la resolución de problemas de drenaje lento en el switch adyacente indicado por la interfaz de salto siguiente FSPF.
- Si determina que el puerto lento/atascado es un link FCIP o un canal de puerto, entonces verifique los links FCIP para ver signos de retransmisiones IP u otros problemas, como fallas de link. Ingrese el comando show ips stats all para verificar si hay problemas.
Opciones de Configuración
Estas son dos opciones posibles de configuración del sistema:
Información Relacionada