En este documento se describe un caso práctico de migración compleja a gran escala de una red inalámbrica fija de Cisco CNC 4.1 a 7.1 mediante ascensor y cambio.
En este documento se presenta un caso práctico detallado de la migración de una red inalámbrica fija a gran escala de Cisco Crosswork Network Controller (CNC) versión 4.1 a la versión 7.1. Debido a la ausencia de un mecanismo de actualización in situ, la transición requirió una implementación completa de "lift-and-shift", lo que introdujo una importante complejidad arquitectónica, operativa y de integración en más de 2000 dispositivos de red y varios sistemas interdependientes. El estudio examina los desafíos encontrados en múltiples áreas.
Un resultado clave destaca el papel esencial de la automatización a la hora de garantizar la escalabilidad, la precisión y el determinismo operativo, especialmente para flujos de trabajo de gran volumen. Los resultados también demuestran que los entornos de producción difieren considerablemente de las condiciones de laboratorio controladas, lo que requiere una resolución de problemas adaptativa, validación iterativa y un compromiso sostenido con los equipos de ingeniería del TAC y de la Unidad de Negocio. Este trabajo aporta información práctica, metodologías validadas y prácticas recomendadas que sirven como modelo de referencia para futuras actualizaciones de CNC y transiciones de plataformas de orquestación a gran escala.
La proliferación de las redes 5G, la rápida adopción de dispositivos conectados y la digitalización de los entornos empresariales y de consumo han dado lugar a un aumento significativo del volumen de tráfico y a la diversidad de servicios que deben prestarse de forma segura y fiable a escala. Los proveedores de servicios de comunicaciones (CSP) utilizan ahora redes muy dinámicas en las que las herramientas operativas tradicionales, organizadas en silos, a menudo crean complejidad, degradan la experiencia del usuario y generan mayores gastos operativos (OpEx).
Para seguir siendo competitivos, los operadores están adoptando cada vez más modelos operativos modernizados basados en la automatización, la virtualización, los principios de SDN y las redes de optimización automática basadas en análisis.
Cisco Crosswork Network Controller (CNC) se ha diseñado para respaldar esta transformación mediante la simplificación de los flujos de trabajo operativos, la reducción del coste total de propiedad (TCO) y la habilitación de la automatización basada en objetivos en redes de transporte de varios proveedores. CNC proporciona una plataforma unificada para el aprovisionamiento de servicios, la supervisión del estado de la red y la optimización en tiempo real, lo que ofrece a los operadores un único panel de acceso para gestionar redes IP de gran escala de forma más proactiva y eficiente.
La infraestructura de Crosswork subyacente ofrece un marco de clúster flexible y escalable en el que se ejecutan todas las aplicaciones CNC. Para CNC 7.1, esto incluye módulos como Optimization Engine, Active Topology, Change Automation, Health Insights, Element Management Functions (EMF), Service Health y Crosswork Workflow Manager (CWM), cada uno de los cuales contribuye a la orquestación y garantía de extremo a extremo.
Sin embargo, actualizar el CNC presenta desafíos únicos. CNC no admite actualizaciones in situ, por lo que se requiere una implementación completa en la que el nuevo entorno se crea en paralelo con el existente y todos los datos y servicios se migran a la nueva versión. En este caso práctico se examina una actualización a gran escala de CNC 4.1 a CNC 7.1 para un importante agregador de servicios australiano que presta servicios de red troncal a todos los demás proveedores de servicios.
La migración fue especialmente compleja debido a los diversos cuadernos de campaña personalizados de automatización de cambios, los KPI de Health Insight personalizados, los requisitos de reconciliación de servicios de VPN L2/L3 y la necesidad de un ZTP seguro.
El gran salto de versión introdujo una incertidumbre adicional, dados los cambios internos en la arquitectura y el comportamiento que dificultaban la predicción del comportamiento de los casos prácticos existentes en la nueva versión. Esto requería una validación y una alineación completas en todos los casos prácticos.
Se invirtió una planificación significativa en la determinación de la asignación óptima de recursos, incluidos los recuentos de nodos híbridos/de trabajo, la distribución CDG y el dimensionamiento de PCE, así como en la determinación de si se podía conservar el espacio de recursos existente.
La implementación y validación iniciales de CNC 7.1 se llevaron a cabo en un laboratorio CALO interno, proporcionando un entorno seguro para experimentar, refinar las configuraciones y generar confianza. A esto le siguió la implementación en el entorno de prueba interno, que refleja estrechamente la producción. La fase final implicó la implementación de CNC 7.1 en producción, la aplicación de cambios en la configuración de los dispositivos y la ejecución de una migración por fases de todos los dispositivos y servicios asociados al nuevo controlador.
La red de producción con brechas de aire se extiende por amplias partes de Australia. Con la presencia de más de 2000 dispositivos, desde NCS a ASR9K, CNC gestionó todos estos dispositivos proporcionando una vista topológica en directo. Aproximadamente 2000 dispositivos eran NCS540 conocidos localmente como SWR (Small Wireless Router) con IOS-XR 24.3.2 y 30 eran ASR-9K (Version 7.5.2) conocidos localmente como LWR (Large Wireless Router).
La configuración de Crosswork constaba de 3 nodos híbridos y 2 nodos de trabajo. Hubo un total de 5 CDG para los dispositivos, 4 de los cuales estaban activos y 1 era el nodo en espera. Esto ofrecía una protección limitada, ya que el grupo solo tenía 1 CDG en espera. Pero teniendo en cuenta sus requisitos, esto se le dio el visto bueno. El hecho de que todas las VM se encontraran en un único Data Center también facilitó la decisión de continuar con solo 1 servidor en espera.
El CDG es el componente que maneja la recolección de datos de los dispositivos a través de diversos protocolos como SNMP, CLI y GNMI. Los datos recogidos por CDG se exponen a Crosswork a través de la kafka interna. Un dispositivo incorporado a Crosswork debe estar conectado a un CDG, que permite que el gateway de datos se conecte al dispositivo y obtenga los datos del dispositivo.
La distribución de dispositivos para los CDG también fue objeto de mucha reflexión. La implementación anterior había distribuido aleatoriamente los dispositivos entre los CDG. Esto dio lugar a una distribución muy sesgada con algunos CDG que transportaban más dispositivos, mientras que había 1-2 CDG con muy menos dispositivos. Esto dio lugar a un consumo excesivo y a una carga excesiva para algunos CDG, mientras que otros estaban subaprovisionados.
El proceso de pensamiento aquí en la actualización fue distribuir 700 SWR cada uno a los 4 CDG activos. Esto representó 2100 cables de acero alojados en los tres primeros CDG. Los LWRs que eran muy pesados en la interfaz frontal estaban reservados para el cuarto CDG. Aunque eran un número muy pequeño con un conteo de 30, esta asignación aseguraba que incluso si se realizaban más recolecciones desde estos dispositivos, no habría una carga pesada en el CDG. Cualquier incorporación posterior de los cables de acero también iría al 4º CDG. Esto garantizó una distribución uniforme en los tres primeros CDG con más espacio disponible en el 4º para incorporar nuevos dispositivos.
SR-PCE se implementó en 2 pares, es decir, 4 VM distribuidas en diferentes máquinas host. Un par gestiona 7 sitios POI y el otro gestiona los 8 sitios POI restantes. Las actualizaciones de topología en la GUI de CNC se realizan mediante el uso de SR-PCE. Aprende la topología de la red a través del peering BGP-LS con otros routers LWR. Este componente también se utiliza para todos los casos prácticos de ingeniería de tráfico en los que desempeña la función del controlador para dirigir el tráfico a diferentes rutas.
Para gestionar todos los casos prácticos de aprovisionamiento de servicios y configuración de dispositivos, NSO debe utilizarse junto con el CNC. Para la red de producción, se implementaron dos NSO con la versión 6.4.1.1 para trabajar en tándem en modo de alta disponibilidad. SR-PCE (elemento de cálculo de ruta de routing de segmentos) es el componente necesario para proporcionar las actualizaciones de topología al CNC y también para gestionar los casos prácticos de ingeniería de tráfico en tiempo real. Aquí se implementaron cuatro SR-PCE con la versión 25.2.1 y cada PCE se vinculó a dos LWR diferentes.


Para la implementación de CNC, la opción preferida era seguir adelante con la basada en docker. Sin embargo, como el cliente no aprobó la instalación de docker en sus instalaciones, no había otra opción que continuar con la implementación manual mediante vCenter. La implementación tarda más tiempo que la basada en scripts, ya que nos obliga a proporcionar entradas varias veces en la GUI del vCenter.
Una vez que se realizó la implementación CNC, todas las aplicaciones requeridas se implementaron con el archivo de instalación de acción automática proporcionado por la BU que carga y activa las aplicaciones todas a la vez, reduciendo así el tiempo que se tarda en hacerlo manualmente. Se implementó el nivel principal que incluye Crosswork Optimization Engine, Active Topology, Service Health, Element Management Functions, Crosswork Workflow Manager. Junto con esto, también se configuraron los paquetes complementarios, que incluyen Change Automation y Health Insight.
CWM y SH no tenían ningún caso práctico. Sin embargo, se implementaron porque estaban interesados en algunos de los casos prácticos que ofrecían estas aplicaciones en la siguiente versión.
Una vez configuradas las aplicaciones, el siguiente paso consistió en migrar los datos de la versión anterior de CNC. Se compone principalmente de perfiles de credenciales, proveedores, etiquetas, cuadernos personalizados, KPI personalizados, roles, vales sZTP y cualquier otro dato. CNC proporciona la opción de exportación para todos estos que se pueden aprovechar y luego importar al nuevo CNC.
Una vez configurados, es aconsejable iniciar la migración de dispositivos. En caso de actualizaciones, si el nuevo CNC se implementa en una nueva subred en comparación con la anterior, existe el requisito de realizar cambios de ACL en los dispositivos para proporcionar accesibilidad con el nuevo CNC. Este es un proceso que consume mucho tiempo, ya que requiere iniciar sesión manualmente en cada dispositivo y cambiar la configuración.
Una vez realizados estos cambios de ACL, el siguiente paso es importar los dispositivos al nuevo CNC y conectarlos a los CDG. Si el alcance es correcto y las credenciales SSH y SNMP son correctas, los dispositivos se muestran como accesibles en CNC y también se incorporan a NSO (Network Services Orchestrator).
En la parte frontal de NSO, todos los paquetes necesarios deben estar en su lugar y operativos para garantizar que CNC pueda hablar con NSO y viceversa. Por ejemplo, para incorporar automáticamente los dispositivos a NSO desde CNC, el paquete de funciones DLM es obligatorio. De manera similar, si existe algún requisito para que NSO configure las trayectorias del sensor MDT en el dispositivo, el paquete TM-TC debe implementarse en NSO. La esencia es que, en función del caso práctico, el paquete relevante debe implementarse en NSO.
En lugar de adoptar el enfoque manual para implementar estos paquetes necesarios, especialmente los de SDN de transporte, se desarrolló un script automatizado para el aprovisionamiento. Con la actualización de CNC 7.1, se han introducido actualizaciones en los paquetes TSDN. Estos paquetes actualizados están pensados para su implementación en el servidor NSO con el fin de garantizar un soporte continuo para el aprovisionamiento de L2/L3 en el entorno actualizado. La secuencia de comandos automatiza la instalación de los paquetes TSDN actualizados y carga los metadatos necesarios en NSO, lo que le permite aprovisionar servicios según sea necesario.
Una instancia del servidor de licencias Cisco Smart Software Manager (SSM) y tres instancias de Cisco Prime Network Registrar (CPNR) también se implementarán en hosts diferentes.
CNC proporciona una única plataforma para el aprovisionamiento, la optimización y la visualización de los servicios implementados a través de una interfaz de usuario unificada. A continuación se presenta un breve resumen de los componentes internos del CNC que residen en el conjunto de plataformas del CNC y los casos prácticos.


Migración por fases de extremo a extremo de CNC 4.1 heredado a CNC 7.1 (el mismo flujo se puede seguir para cualquier actualización de CNC independientemente de las versiones)
| Planear |
› |
Laboratorio |
› |
Laboratorio del cliente |
› |
Preparado para producción |
› |
Lanzamiento de producción |
› |
Período de remojo |
› |
Entrega |
› |
Retirada |
| FASE 1 1 Planificación y preparación
|
|||||
| ▼ |
|||||
| FASE 2 2 Validación de laboratorio interna
|
|||||
| ▼ |
|||||
| FASE 3 3 Validación de laboratorio del cliente
|
|||||
| ✓ Realizar ATP en Lab y obtener la aprobación |
|||||
| ▼ |
|||||
| FASE 4 4 Preparación para la producción
|
|||||
| ▼ |
|||||
| FASE 5 5 Transición de producción ↻ Repite todos los pasos de la Fase 3 en el entorno de producción
|
|||||
| ✓ Lanzamiento de producción |
|||||
| ▼ |
|||||
| FASE 6 6 Período de estabilización
|
|||||
| ▼ |
|||||
| FASE 7 7 Documentación y entrega
|
|||||
| ▼ |
|||||
| FASE 8 8 CNC heredado 4.1
|
|||||
El servicio L2VPN proporciona conectividad Ethernet de capa 2 a través de varios SWR, con algunos servicios anclados en LWR. La topología activa de CNC se utiliza para el aprovisionamiento de servicios, mientras que toda la lógica específica del entorno se implementa a través de plantillas personalizadas de NSO.
El aprovisionamiento de L2VPN se trata como una actividad de configuración de día 2 y requiere atributos de servicio proporcionados por el operador.
Se han creado varias plantillas personalizadas para alinear las convenciones de nomenclatura y los comportamientos de interfaz específicos del entorno:
Estas plantillas garantizan una configuración EVPN uniforme en toda la red y abstraen las diferencias de nivel de hardware de ausencia.
El caso práctico de L3VPN permite la prestación de servicios de capa 3 a través de varios SWR como terminal. El aprovisionamiento se realiza a través de la topología activa CNC, con requisitos específicos del entorno implementados mediante una plantilla NSO personalizada.
Al igual que con L2VPN, esta es una acción de configuración de día 2, que requiere entradas de operador.
La aplicación Crosswork Optimization Engine (COE) del conjunto de aplicaciones CNC ayuda a controlar los flujos de tráfico en la red según la intención deseada.
Existen dos tipos de tráfico que requieren diferentes intentos (métricas de SLA):
Para garantizar que el tráfico TC1 siempre se lleva a cabo en la trayectoria de latencia más baja, se debe tener una política de Segment Routing (SR) creada en el SWR de cabecera con criterios de cálculo de trayectoria como latencia.
Esto se logra definiendo la configuración de Next Hop (ODN) a demanda en cada SWR de cabecera para colores específicos 1001 utilizando CNC para facilitar la creación de políticas de SR.
Para garantizar que el tráfico TC4 siempre se toma en el trayecto con ancho de banda dedicado, se debe tener una política de SR creada en el SWR de cabecera con criterios de cálculo de trayecto como ancho de banda.
Esto se logra mediante:
El paquete de funciones de BoD se utiliza para calcular la ruta de las políticas de SR que tienen el ancho de banda como criterio para calcular la ruta. Realiza un seguimiento del ancho de banda comprometido con una política y mantiene la supervisión de la ruta actual de la política durante su ciclo de vida.
En cualquier momento, si el parche actual de la política BWOD no tiene suficiente capacidad disponible para satisfacer el ancho de banda comprometido, vuelve a calcular la trayectoria de la política BWOD y redirige la política a la nueva trayectoria. Esta política de redireccionamiento de BWOD es un proceso continuo y no necesita intervención manual.
En cierto modo, BWOD lleva a cabo la optimización sobre la marcha para el ancho de banda de la misma manera que SR-PCE para la latencia.
En el pasado modelo tradicional de instalación y soporte, el proceso de traer un nuevo dispositivo requería un cierto nivel de experiencia por parte del instalador para instalar, configurar y resolver problemas de la implementación de un nuevo componente. También es posible que se deba realizar un largo proceso de preparación del equipo en una ubicación externa, con el apoyo de muchas personas que trabajan en diferentes partes de la solución.
En el caso de los nuevos dispositivos SWR que se vayan a implementar en su entorno, este proceso de activación de dispositivos se automatiza con la aplicación ZTP (aprovisionamiento sin intervención) segura de CNC.
El flujo de trabajo de ZTP se activa al arrancar el dispositivo por primera vez y descargaría la imagen de plataforma planificada y la configuración inicial que debe aplicarse sin ninguna intervención manual.
El dispositivo también se incorpora automáticamente en CNC para una mayor orquestación.
Este diagrama muestra el flujo de trabajo del proceso ZTP seguro al encender el dispositivo:

Una automatización de Python en el host de la utilidad organiza y audita el proceso de extremo a extremo mediante una entrada de Excel estructurada (por cadena):
El SWR puede recibir BNM desde el switch MiniLink co-ubicado, que corresponde al ancho de banda de los puertos WAN. Estos mensajes de notificación son mensajes CFM basados en estándares que incluirían el ancho de banda actual registrado en ejecución (RBW) y el ancho de banda máximo configurado, también conocido como ancho de banda nominal (NBW).
El ancho de banda actual es el ancho de banda en ejecución real del enlace WAN de microondas, según los anchos de banda agregados de los enlaces de microondas individuales y sus niveles de QAM en ejecución. El ancho de banda nominal es el ancho de banda WAN máximo posible configurado, según los anchos de banda agregados del QAM máximo configurado en cada uno de los enlaces de microondas individuales.
La optimización del ancho de banda se lleva a cabo en función de esta situación:
Cuando se habilita un SWR con BNM KPI en CNC como parte de las actividades post-sZTP, CNC inserta las configuraciones de telemetría en SWR.
basado en modelos de telemetría
destination-group <DGName>
vrf VRF-OMSWR-<AreaCode>1
address-family ipv4 <CDG IPv4Address> port 9010
codificación autodescriptiva-gpb
protocolo tcp
!
!
sensor-group <GroupName>
sensor-path Cisco-IOS-XR-ethernet-cfm-oper:cfm/nodes/node/bandwidth-notifications/bandwidth-notification
!
El CNC procesa estos mensajes BNM recibidos a través de la telemetría y toma medidas correctivas si es necesario. Aquí están los 2 componentes involucrados en el CNC:
Se desarrolla un script Python personalizado para ejecutar una lógica personalizada y ejecutar los cuadernos de CA automáticamente cuando se infringen los KPI de HI.
La secuencia de comandos de desencadenado de cuaderno funciona según este algoritmo:

Esta tabla explica los niveles de alerta personalizados que se han establecido en los grados de degradación del ancho de banda:
Ancho de banda notificado = RBW
Ancho de banda nominal = NBW
| Valor de intervalos de alerta |
Nivel de notificación |
| (RBW/NBW)*100 >=70 |
INFO |
| (RBW/NBW)*100 <70 y >60 |
Advertencia |
| (RBW/NBW)*100 <=60 |
Crítico |
Este trayecto del sensor es monitoreado por CNC:
Cisco-IOS-XR-ethernet-cfm-oper:cfm/nodes/node/bandwidth-notifications/bandwidth-notification
Se crea un KPI personalizado en CNC para supervisar la ruta del sensor BNM. Este KPI se agrega a un perfil de KPI configurado con una cadencia de 120 segundos y umbrales de alerta. Al adjuntar cables de acero a este perfil, se transfiere automáticamente la configuración de telemetría necesaria a los dispositivos a través de NSO.
Una vez habilitada, los dispositivos transmiten datos RBW/NBW a los CDG asignados en el intervalo configurado. Health Insight (HI) calcula la proporción RBW÷NBW y genera alertas cuando se superan los umbrales; los operadores pueden supervisar estos eventos en HI y a través de los paneles de Grafana.
Un proveedor de alertas en CNC reenvía estas alertas al nodo híbrido que aloja la automatización de Python. La secuencia de comandos analiza los detalles del dispositivo/interfaz/RBW/NBW y activa los cuadernos de campaña de automatización de cambios adecuados: ajuste del modelador, actualización del ancho de banda o ambos en función de la lógica de decisión definida.
Estos son los dos cuadernos de campaña que se utilizan en el flujo de trabajo:
1. Cuaderno de campaña para cambiar el valor del modelador
2. Cuaderno para cambiar el ancho de banda de la interfaz
Como ya se mencionó, el script hace girar un servidor web para actuar como proveedor para comunicarse con el CNC mediante la API REST. Cualquier respuesta que obtengamos para una solicitud POST se captura aquí. Las alertas se capturan en el formulario en JSON y luego se convierten en diccionario para extraer los parámetros necesarios.
Se desarrollaron campañas personalizadas de automatización de cambios (CA) para optimizar y estandarizar las operaciones críticas de día 2 en todo el ciclo de vida de la red. Entre estas se incluyen el aprovisionamiento de Bundle-Ether, las actualizaciones de la descripción de la interfaz de gestión, la orquestación de la cadena de margarita CFM, la expansión de la capacidad de enlace sin problemas, la retirada del servicio de eNodeB y la incorporación eficiente de Mini-Link. Al integrar las mejores prácticas operativas en flujos de trabajo reutilizables, estas estrategias mejoran significativamente la coherencia de la ejecución, minimizan el riesgo de errores humanos y reducen la dependencia de las intervenciones manuales. En el contexto de una actualización de Cisco CNC, este marco de automatización desempeña un papel fundamental a la hora de acelerar el retorno de la actividad operativa, garantizar la continuidad del servicio y permitir procesos escalables y repetibles alineados con los objetivos modernos de transformación de la red.
Como parte de la actualización de Cisco CNC 4.1 a 7.1, la integración TACACS+ existente se conservó cuidadosamente para garantizar la continuidad de la autenticación y autorización centralizadas. El proceso de actualización validó y replicó la configuración de TACACS+ en Cisco CNC 7.1, manteniendo la alineación con las políticas de seguridad empresariales establecidas y los mecanismos de control de acceso basado en roles (RBAC).
Se configura un reenvío de syslog para reenviar las alarmas/eventos/syslogs a un servidor Splunk. Para ello, se utilizó la capacidad de configuración inmediata del CNC para configurar el servidor syslog.
Las alarmas CNC también se reenvían a un sistema ascendente como OneFM utilizando la API orientada a la conexión CNC restconf:
curl -L --request GET \
--url https://{server_ip}:30603/crosswork/notification/restconf/streams/v2/alarm.json \
--header 'Accept: application/txt'). This API must be used over a websocket connection config.
Una secuencia de comandos automatizada hace uso de la API de copia de seguridad CNC para realizar la copia de seguridad completa de CNC y almacena el archivo de copia de seguridad en el host de la utilidad. Esta operación se realiza diariamente.
La actualización del trabajo cruzado 4.4 a 7.1 representó un salto de versión significativo en lugar de una actualización incremental rutinaria. Este salto de gran tamaño introdujo numerosas funciones nuevas en varias aplicaciones, junto con mejoras sustanciales y cambios arquitectónicos. Debido a esto, la actualización de CNC no era solo una sustitución de versión sencilla, sino que requería una validación exhaustiva para garantizar la compatibilidad, la estabilidad y la funcionalidad adecuada de todos los componentes integrados. El conjunto ampliado de funciones y las mejoras subyacentes implicaban que los flujos de trabajo, las configuraciones y las integraciones existentes requerían una verificación minuciosa, lo que hacía que las pruebas y la validación exhaustivas fueran fundamentales para el éxito de la actualización.
CNC no admite un modelo de actualización in situ. En lugar de ello, las actualizaciones deben seguir un enfoque integral, en el que se conserve la implementación existente y se cree un entorno completamente nuevo desde el principio con la versión final. Una vez instalado el nuevo sistema, las configuraciones, los datos y las integraciones deben migrarse y validarse cuidadosamente antes de que se pueda retirar el entorno anterior.
Este enfoque presenta varios retos operativos:
Debido a estos factores, el modelo de elevación y desplazamiento hace que las actualizaciones de CNC requieran más recursos y sean más complejas desde el punto de vista operativo que una actualización in situ estándar.
Ciertos errores de configuración de implementación y posteriores a la implementación en CNC no tienen ninguna ruta de solución y requieren un desmontaje y una reimplementación completos del clúster. Por ejemplo, un FQDN incorrecto configurado para el VIP de datos de Crosswork , obligatorio para el caso de uso de sZTP, hizo que sZTP no funcionara. Dado que este valor no puede corregirse después de la implementación, se requería una reimplementación completa.
Del mismo modo, la configuración incorrecta de las credenciales de invalidación de dispositivos en la automatización de cambios no se pudo rectificar después de la implementación, lo que provocó otra reconstrucción del clúster. Otros errores, como direcciones IP de gateway mal configuradas o definiciones de subred, también se identifican como no recuperables.
Estos escenarios resaltan la importancia crítica de validar todos los parámetros inmutables durante la implementación inicial. La planificación meticulosa y la verificación de los insumos son esenciales para evitar las costosas modificaciones y el impacto de los programas.
CNC proporciona una utilidad de diagnóstico para evaluar los parámetros de estado en el nivel de VM, como la latencia de lectura/escritura del disco, IOPS, la latencia de sincronización, la velocidad de la interfaz de red y la frecuencia del reloj de la CPU. La utilidad informa de los valores medidos con respecto a los umbrales esperados y marca cada comprobación como superada o errónea. Sin embargo, estos diagnósticos sólo se pueden ejecutar después de que se haya implementado el clúster, por lo que no queda ningún mecanismo para validar la preparación de la infraestructura antes de la implementación.
Durante la instalación, el indicador "Ignorar comprobaciones de diagnóstico" se establece en false de forma predeterminada. En la práctica, si se produce un error en una única comprobación, el instalador se detiene, lo que impide que continúe la implementación. Como resultado, los ingenieros de campo a menudo se ven obligados a habilitar este indicador y a omitir los diagnósticos por completo, ya que incluso los entornos de nivel de producción a menudo no superan una o más comprobaciones. Esto crea un dilema operativo: los equipos deben elegir entre aplicar una validación estricta que bloquee la implementación o continuar sin la garantía de que la infraestructura subyacente cumple los parámetros de rendimiento recomendados.
En Health Insight 4.1, la creación de KPI personalizados se basaba en la lógica de secuencia de comandos Tick, donde las definiciones de KPI y la lógica de procesamiento se implementaban mediante secuencias de comandos dentro del marco Tick. Sin embargo, en la versión 7.1, este enfoque se sustituyó por un marco basado en archivos de seguimiento para definir y administrar KPI.
Debido a este cambio en la arquitectura, los KPI personalizados existentes no se pudieron reutilizar directamente y fue necesario volver a trabajar para alinearlos con el nuevo formato de archivo de seguimiento. Esto requirió una cantidad sustancial de tiempo y esfuerzo para:
Este cambio en el mecanismo de creación de KPI aumentó significativamente el esfuerzo necesario durante la actualización, ya que implicaba tanto el aprendizaje de un nuevo sistema como la reimplementación de la lógica de supervisión personalizada existente para garantizar la continuidad de las perspectivas operativas.
Los cuadernos BNM se activan a través de un script personalizado que interactúa con las API CNC. Durante el proceso de actualización y validación, se identificaron y abordaron varios problemas relacionados con la autenticación de API y la gestión de respuestas.
El token de la API CNC tiene una validez de 8 horas, pero el script original no incluía la lógica adecuada para actualizar el token una vez que caducó. Como resultado, aunque las alertas KPI en CNC 4.4 funcionaban correctamente, el script de activación del cuaderno dejó de ejecutarse después de que caducara el token. Este problema pasó desapercibido durante un largo período, lo que significa que el script de automatización no se había ejecutado de forma fiable durante más de un año. El problema solo se hizo visible durante las actividades de migración y validación en CNC 7.1.
Por consiguiente, se necesitaban varias mejoras y mejoras:
Estas mejoras no solo resolvieron los problemas descubiertos durante la actualización, sino que también mejoraron significativamente la fiabilidad, la resistencia y la capacidad de mantenimiento del marco de automatización del cuaderno de campaña de BNM.
La lógica de automatización de BNM está impulsada por eventos y se basa en alertas generadas por KPI en la aplicación Health Insight dentro de CNC. El flujo de trabajo general funciona de la siguiente manera:
Los umbrales de alerta configurados fueron:
Este diseño funcionó bien para identificar la degradación del ancho de banda, pero creó una brecha funcional durante los escenarios de recuperación del ancho de banda. En concreto, el intervalo del 70-90% no tenía definido ningún nivel de alerta.
Esto llevó a este comportamiento:
Esta limitación se hizo visible en la red de producción, donde los links que previamente habían sufrido una reducción del ancho de banda permanecieron en un estado restringido incluso después de que las condiciones mejoraran.
El problema se vio agravado por el cambio de marco introducido en CNC 7.1. En Health Insight 4.1, la implementación de KPI basada en marcas admitía hasta cinco niveles de alerta, lo que permitía un control más preciso de las bandas de umbral y facilitaba la implementación de la lógica de restauración.
Sin embargo, en CNC 7.1, el marco de KPI basado en archivos de seguimiento admite solo tres niveles de alerta, lo que reduce la flexibilidad a la hora de definir varios umbrales de recuperación y requiere el rediseño de la lógica de alerta para ajustarse a estas restricciones.
Otro problema identificado en la implementación original fue la frecuencia extremadamente alta de las ejecuciones de los cuadernos de campaña. La lógica de automatización no incluía ningún tiempo de espera ni ventana de estabilización. Tan pronto como CNC lea un valor del dispositivo que cumplió la condición de alerta:
Debido a que los valores de telemetría fluctúan con frecuencia en las redes activas, esto provocó que se activaran cientos de cuadernos de campaña cada hora, lo que no era ideal desde la perspectiva de la estabilidad de la red y del rendimiento de las aplicaciones.
Para hacer frente a estas limitaciones, el diseño de automatización de BNM se ha rediseñado con varias mejoras:
Con estos cambios de diseño, combinados con las mejoras anteriores en el manejo de API, la administración de tokens y la robustez de scripts, el marco de automatización de BNM ahora funciona de una manera mucho más estable, eficiente y predecible. El sistema puede responder correctamente a las condiciones de congestión y recuperación, a la vez que evita ejecuciones excesivas del cuaderno de campaña y garantiza una optimización fiable del ancho de banda de la red.
En CNC 4.1, las alarmas fueron reenviadas a un sistema ascendente llamado OneFM a través de una API RESTCONF. Dado que la pila CNC 4.1 no incluía la funcionalidad EMF, la plataforma solo generaba alarmas a nivel del sistema. Estas alarmas se reenviaron en sentido ascendente sin ninguna complejidad relacionada con la categorización de alarmas.
Con la implementación de CNC 7.1, se introdujo la aplicación EMF, ampliando significativamente el modelo de alarma. Las alarmas se clasificaban ahora en tres tipos:
Sin embargo, ya existía un EPNM responsable de recopilar y administrar las alarmas de nivel de dispositivo. Si CNC también envió estas alarmas a OneFM, se recibieron alarmas duplicadas de ambos sistemas. Por lo tanto, el requisito era excluir las alarmas de dispositivos del CNC mientras se seguían reenviando las alarmas del sistema y de la red.
El principal desafío fue una limitación de la API ascendente RESTCONF utilizada para reenviar alarmas a OneFM. La API no admitía el filtrado de alarmas en función de la categoría de alarma. Si dicho filtrado hubiera estado disponible, la solución habría sido sencilla: simplemente excluya las alarmas de dispositivos en el nivel de API antes de reenviarlas al sistema ascendente.
Se evaluaron y discutieron varias posibles soluciones:
La detención de trampas en el nivel del dispositivo no se consideró viable porque el CNC confía en esas trampas para detectar eventos del dispositivo y mantener el reconocimiento operativo de las condiciones de la red. La desactivación de las trampas reduciría significativamente la capacidad del CNC para responder a los problemas de la red.
La solución implementada en última instancia aprovechó una función CNC integrada llamada Supresión de alarma de dispositivos. Esta función permite a los administradores suprimir tipos específicos de alarmas de dispositivos en función de los grupos de dispositivos, lo que evita que se procesen o se reenvíen más arriba.
Al configurar las políticas de supresión de alarmas de dispositivos, el sistema pudo:
Este enfoque proporcionaba una solución limpia y escalable sin interrumpir la capacidad del CNC para recibir trampas de los dispositivos. Como resultado, se agilizó el flujo de alarmas a OneFM, lo que garantiza que solo se reenvíen las alarmas relevantes del sistema y la red, a la vez que se evita la duplicación con la gestión de alarmas de dispositivos de EPNM.
En la instalación existente, el equipo de operaciones recurría con frecuencia a scripts directos basados en CLI para enviar las actualizaciones de configuración a los dispositivos de red, especialmente para tareas como modificaciones de ACL y actividades de depuración. Aunque este enfoque es eficaz a corto plazo, ha dado lugar a una variabilidad de la configuración, ya que los cambios realizados fuera de NSO no se han seguido dentro del sistema. Como resultado, los flujos de trabajo de aprovisionamiento de NSO se vieron afectados debido a las incoherencias entre el estado previsto (modelado) y las configuraciones de dispositivos reales, lo que provocó fallos e ineficiencias operativas.
Debido a cambios en la configuración fuera de banda: el equipo de redes había actualizado la configuración relacionada con VPN en dispositivos fuera de CNC/NSO y del flujo de trabajo de TSDN. Como resultado, el estado almacenado en NSO (desde la era CNC 4.1) no siempre coincidía con el estado de los dispositivos.
Estas discrepancias causaron varios errores e incoherencias en la reconciliación. En varios casos, NSO contenía datos del servicio VPN que ya no existían en los dispositivos (o que se habían modificado de un modo que NSO no reflejaba). Para alinear NSO con la red, era necesario eliminar las entradas de servicio VPN que existían solo en NSO y no en los dispositivos, y corregir otros desajustes causados por cambios fuera de banda.
Para resolver estas cuestiones se necesitaron aproximadamente dos semanas más después del plan de reconciliación original. El tiempo adicional se dedicó a identificar discrepancias, validar el estado del dispositivo y limpiar o corregir de forma segura los datos de NSO CDB.
El mecanismo de copia de seguridad CNC exige que la plataforma se ponga en modo de mantenimiento antes de que se pueda iniciar una operación de copia de seguridad. Por diseño, la API de respaldo hace cumplir este requisito previo; si el CNC no puede pasar al modo de mantenimiento, el proceso de copia de seguridad se aborta automáticamente.
En la práctica, al entrar en el modo de mantenimiento se producen errores frecuentes debido a las actividades continuas del sistema, entre las que se incluyen:
La presencia de cualquier actividad de este tipo impide que CNC entre en modo de mantenimiento, haciendo que la operación de copia de seguridad falle antes de la ejecución.
Las copias de seguridad CNC diarias necesarias para garantizar el cumplimiento y el funcionamiento. Sin embargo, la actividad de automatización frecuente, en particular las campañas activadas por BNM, impedía que el sistema entrara en modo de mantenimiento. Como resultado, los fallos de copia de seguridad se produjeron de forma repetida, lo que generó un riesgo operativo significativo y requirió la intervención manual.
1. Optimización de programación de respaldo: Se identificó una ventana de mantenimiento con actividad mínima del sistema. Según el análisis del tráfico y la automatización, el trabajo de copia de seguridad se programó para las 5:00 a.m. (AEST), cuando era menos probable que la orquestación y la ejecución del cuaderno estuvieran activas.
2. Validación de actividad previa a la copia de seguridad: se introdujo una comprobación previa automatizada antes de invocar la API de copia de seguridad:
Esto evitó intentos de copia de seguridad innecesarios mientras el sistema se encontraba en un estado operativo ocupado.
3. Mecanismos de reintento y resiliencia: Para dar cabida a los estados transitorios del sistema, se añadieron salvaguardias adicionales:
La mitigación combinada mejoró significativamente la fiabilidad de las copias de seguridad:
El destino de syslog se configuró en CNC para reenviar registros a Splunk sobre TLS. Sin embargo, una vez recibidos, los registros eran ilegibles en el lado Splunk. Debido a este problema que se origina en el entorno Splunk, se eligió la opción para volver al transporte UDP, después de lo cual los registros se procesaron correctamente.
El usuario creó previamente 18 grupos de dispositivos en CNC 4.1; sin embargo, esa versión no proporcionaba ningún mecanismo basado en la interfaz de usuario o en la API para exportar o importar grupos de dispositivos. Como resultado, la migración de estos grupos a CNC 7.1 requería un enfoque no estándar. Se identificaron dos API CNC internas: una que expone la jerarquía de grupos de dispositivos y otra que enumera los dispositivos asignados a cada nodo de jerarquía. Mediante estas API, todos los grupos de dispositivos y sus dispositivos asociados se extrajeron y almacenaron como salidas JSON. A continuación, se desarrolló un script personalizado para analizar las respuestas y extraer solo los nombres de host de los dispositivos de cada grupo.
CNC 7.1 introdujo capacidades nativas de importación/exportación para grupos de dispositivos, incluida una plantilla de importación basada en CSV. Después de extraer los nombres de host del sistema heredado, se creó un segundo script de automatización para rellenar las plantillas CSV en el formato requerido, asegurándose de que cada grupo de dispositivos se pudiera importar de forma precisa e independiente. Esta automatización era esencial; sin ella, la migración de los grupos de dispositivos a CNC 7.1 habría sido mucho más lenta y compleja desde el punto de vista operativo.
A pesar de la implementación del caso práctico de BNM para remediar automáticamente las bajas ratios de RBW/NBW, un subconjunto de dispositivos continuó en estados severamente degradados durante periodos prolongados. Aunque las estrategias de modelado y ajuste del ancho de banda solían restaurar los dispositivos poco después de los eventos de degradación, varios dispositivos permanecieron en un estado Crítico durante más de una semana y necesitaron intervención manual. Sin embargo, la identificación de estos dispositivos presentaba un reto. Aunque la interfaz de usuario de CNC proporciona visualizaciones claras de alertas y métricas de ancho de banda, no revela fácilmente los dispositivos que han permanecido exclusivamente en estado crítico durante un intervalo prolongado.
Para abordar esta brecha operativa, se desarrolló una solución impulsada por API. CNC ofrece una API que recupera una lista de los principales dispositivos generadores de alertas en ventanas de tiempo configurables (por ejemplo, 7 días, un mes). Al obtener estos datos y filtrar por dispositivos que solo generaban alertas críticas durante el período seleccionado, el equipo pudo aislar rápidamente los dispositivos que requerían una remediación manual. Este enfoque automatizado mejoró significativamente la eficacia de la resolución de problemas y redujo el tiempo necesario para identificar los casos de degradación persistentes.
En CNC 4.1, las configuraciones de telemetría suministradas por NSO mediante el paquete them-tcfunction se aplicaban automáticamente cuando un dispositivo se asociaba a un perfil KPI de Health Insight (HI). Sin embargo, estas configuraciones (incluidas las referencias VIP de CDG) no se quitaron cuando se desasoció el perfil KPI. Como resultado, los dispositivos fueron acumulando entradas de telemetría obsoletas y redundantes a lo largo del tiempo.
Este problema se hizo más pronunciado durante la actualización a CNC 7.1. Los dispositivos a menudo conservaban configuraciones de telemetría CDG VIP heredadas de CNC 4.1 junto con las nuevas entradas generadas por CNC 7.1, lo que llevó a múltiples configuraciones de telemetría en conflicto en más de 2,000 dispositivos. Se plantearon preocupaciones sobre el impacto operativo y la higiene de la configuración, ya que solo la configuración VIP CNC 7.1 CDG debe haber permanecido activa.
Para solucionar este problema, se desarrolló un script automatizado para identificar y eliminar referencias CDG VIP obsoletas de la configuración de telemetría de cada dispositivo. Esta solución eliminó las incoherencias en la configuración, restableció la alineación con el modelo de telemetría 7.1 esperado e impidió lo que habrían sido varios días de esfuerzo manual de limpieza en toda la flota de dispositivos de gran tamaño.
En CNC 7.1, la mayoría de las colecciones de KPI de Health Insight (HI) se basan en la telemetría basada en modelos (MDT). Cuando se habilita un perfil KPI en un dispositivo, NSO programa automáticamente las rutas de sensor necesarias y configura el CDG VIP como destino de telemetría. Una vez aplicada esta configuración, se crea un trabajo de recopilación CDG correspondiente para realizar un seguimiento del estado de telemetría del dispositivo.
Durante la validación, se informó de que a más de 100 dispositivos les faltaban configuraciones de telemetría. La identificación de estos dispositivos a través de la interfaz de usuario de CNC no resultó práctica, ya que la interfaz de usuario solo admite el filtrado por dispositivo y no se amplía de forma eficaz para una flota que supere los 2000 dispositivos. Esto requería un método automatizado para determinar qué dispositivos carecían de configuración de telemetría y necesitaban volver a habilitar los KPI.
Para solucionar este problema, utilizamos la etiqueta BNM asignada a los dispositivos cada vez que se activa un perfil KPI. En primer lugar, se generó una exportación de todos los dispositivos con la etiqueta BNM. A continuación, se desarrolló un script Python para interactuar con la API de recopilación CNC, incorporando la lógica de paginación para recuperar el conjunto completo de trabajos de recopilación (cada llamada de API devuelve un máximo de 100 entradas). El script extrajo los nombres de host de los datos del trabajo de recopilación y los comparó con la lista de dispositivos etiquetados BNM exportados.
Esta comparación dio como resultado la lista de dispositivos etiquetados pero que no aparecieron en el trabajo de recopilación BNM, lo que indica que la configuración de telemetría MDT no se había aplicado. El perfil KPI se volvió a habilitar en estos dispositivos y la validación confirmó que todos los trabajos de recopilación correspondientes se crearon correctamente.
Esta automatización simplificó significativamente el proceso de solución de problemas, lo que permitió al equipo identificar y remediar todos los dispositivos afectados en un solo día, un esfuerzo que no habría sido factible a través de la inspección manual.
Durante la actualización de Cisco NSO 5.7.5.1 a 6.4.1.1 como parte de la transición a Cisco CNC 7.1, se observó un cambio notable en el comportamiento de alta disponibilidad (HA) debido a la habilitación implícita del algoritmo de consenso en la versión más reciente de NSO. Este no fue el comportamiento predeterminado en NSO 5.7.5.1, lo que llevó a un cambio en las características de failover después de la actualización. Específicamente, cuando el nodo principal se desactivó, el nodo secundario pasó a un estado de solo lectura, lo que le impidió gestionar las actividades de aprovisionamiento. De forma similar, cuando el nodo secundario se desactivó, el nodo principal pasó de un estado principal activo a un estado "ninguno", lo que afectó a la continuidad del servicio.
Para restaurar el comportamiento esperado de HA alineado con la implementación anterior, el algoritmo de consenso se deshabilitó explícitamente en NSO 6.4.1.1. Este ajuste garantizó que los nodos primarios y secundarios reanudaran sus funciones previstas durante los escenarios de conmutación por fallo, lo que permitió un aprovisionamiento ininterrumpido y mantuvo la estabilidad operativa coherente con la versión anterior de NSO.
Como parte de la transición de Cisco CNC 4.1 a 7.1, la versión de Cisco NSO subyacente se actualizó de 5.7.5.1 a 6.4.1.1. Esta actualización de la versión introdujo cambios en las estructuras de plantillas XML dentro de los paquetes de NSO existentes, lo que provocó fallos en algunos casos de pruebas de regresión que dependían del comportamiento de las plantillas heredadas.
Para subsanar estas lagunas de compatibilidad, se analizaron y actualizaron las plantillas de paquetes NSO afectadas para ajustarlas al esquema y los requisitos de procesamiento revisados de NSO 6.4.1.1. Estas mejoras garantizaron que todos los flujos de trabajo de automatización y los modelos de servicio siguieran funcionando según lo previsto, restableciendo la estabilidad de regresión y manteniendo la coherencia en el entorno CNC actualizado.
CNC proporciona un mecanismo de interfaz de usuario listo para usar para habilitar perfiles KPI en dispositivos. Si bien este enfoque funciona bien para las flotas pequeñas, se vuelve ineficiente y poco confiable a gran escala. En esta implementación, más de 2000 dispositivos SWR requerían la habilitación de KPI y la interfaz de usuario no ofrecía una forma eficaz de seleccionar o procesar dispositivos de forma masiva.
Inicialmente, se intentó un enfoque basado en etiquetas: a todos los dispositivos SWR se les asignó una etiqueta SWR y la habilitación de KPI se ejecutó mediante la selección de etiquetas en lugar de la selección manual de dispositivos. Sin embargo, el procesamiento de más de 2000 dispositivos en un único flujo de trabajo suponía importantes retos operativos. El trabajo duró más de tres horas y se completó con cientos de fracasos. Aunque todos los dispositivos se incluyeron en la intent, solo unos 750 recibieron correctamente la habilitación de KPI, y los intentos repetidos solo produjeron un progreso incremental. Este enfoque no resultó ni escalable ni repetible. Mostró problemas significativos con la carga.
Un segundo desafío surgió a raíz de los problemas de sincronización de dispositivos de NSO. Muchos errores indicaron que NSO no estaba sincronizado con los dispositivos correspondientes. Intentar realizar la sincronización manual desde las operaciones seguidas de la rehabilitación de KPI no era práctico y habría requerido un gran esfuerzo por parte del operador.
Para abordar estas limitaciones, se desarrolló un flujo de trabajo automatizado y dirigido por lotes:
La automatización también incluía la capacidad de deshabilitar los perfiles de KPI, lo que permitía una gestión completa del ciclo de vida.
Esta solución ofrecía un proceso optimizado, predecible y altamente escalable para el aprovisionamiento de KPI. Eliminó la intervención manual, garantizó resultados uniformes y ahorró varios días de esfuerzo operativo. La misma automatización resultó inestimable cuando los perfiles KPI tuvieron que desactivarse y volver a activarse tras el cambio de diseño de BNM, lo que permitió una reconfiguración rápida y sin errores en toda la flota de 2000 dispositivos.
La API ascendente basada en RESTCONF que se usa para reenviar alarmas y eventos desde CNC tiene una limitación por la cual se puede invocar solamente usando la cuenta admin. Los intentos de acceder a la API a través de cuentas de servicio no tuvieron éxito, a pesar de que estas cuentas tenían las funciones operativas necesarias. Como solución alternativa, se requería que el usuario usara las credenciales de administrador para el reenvío de alarmas al sistema ascendente, lo que introducía una restricción operativa y limitaba la adhesión a los principios de acceso con menos privilegios.
Dada la escala y complejidad del programa de migración y actualización del CNC, la ejecución manual de las tareas operativas demostró rápidamente ser insostenible. Actividades como la incorporación de dispositivos, el aprovisionamiento de KPI, la alineación de la configuración, la reconciliación y la validación de telemetría implican miles de elementos de red y flujos de trabajo repetidos que son muy propensos a errores humanos cuando se realizan manualmente. Por lo tanto, la automatización era esencial no solo para acelerar la ejecución, sino también para garantizar la coherencia, reducir el riesgo operativo y liberar a los equipos de entrega de tareas repetitivas y que requerían mucho tiempo.
Al sistematizar estos procesos a través de flujos de trabajo guiados y operaciones impulsadas por API, el programa de actualización logró importantes ganancias de eficiencia. La automatización permitió una finalización más rápida de las tareas, una mayor precisión y resultados predecibles en todas las secciones. Los ahorros resultantes no solo redujeron el plazo de implementación general, sino que también permitieron a los ingenieros centrarse en los esfuerzos de diseño y validación de mayor valor en lugar de en las tareas operativas rutinarias.
Algunas de las actividades de automatización se identificaron antes de que comenzara el proyecto de actualización, mientras que otras evolucionaron cuando surgieron los retos. También hubo algunos que fueron necesarios por las cuestiones que se desarrollaron durante el curso del proyecto.
Esta tabla ilustra las áreas en las que la automatización tuvo un impacto sustancial en todo el programa.
| Descripción de tarea |
Esfuerzo manual (días) |
Esfuerzo de automatización (días) |
Ahorro estimado (días) |
| Actualizaciones de ACL (SWR/LWR)(más de 2000) |
30.0 |
2.0 |
28.0 |
| Migración de dispositivos y conexión a CDG(2K+) |
5 |
1.0 |
4.0 |
| Conexión KPI BNM a dispositivos (más de 2K) |
4.0 |
1,5 (promedio) |
2.5 |
| Reconciliación de servicios |
7 |
2.5 |
4.5 |
| Migración de grupos de dispositivos |
4 |
0,5 |
3.5 |
| Aísle los dispositivos con degradación grave del ancho de banda |
3 |
0,5 |
2.5 |
| Troubleshooting de Colección MDT |
3 |
0,5 |
2.5 |
| Totales |
56 días |
8,5 días |
47,5 días |
CNC no admite actualizaciones in situ, y el modelo de elevación y desplazamiento introduce una complejidad operativa significativa. El proceso nunca debe ser asumido como simple, especialmente cuando el salto de versión es grande. Surgen problemas inesperados en las aplicaciones, las integraciones y los flujos de trabajo, y cada uno de ellos requiere tiempo, análisis y una mitigación cuidadosa. Un salto de versión importante amplía este desafío, por lo que resulta esencial llevar a cabo una planificación, validación y ejecución por fases exhaustivas. Tuvimos que pasar mucho tiempo extra en casos del TAC y en esfuerzos de resolución de problemas. Como no hemos mantenido el tiempo en el búfer para esto, se convirtió en un reto.
Se espera un importante esfuerzo de CX en la implementación, las integraciones, la migración y la validación integral del caso práctico. No asuma que los flujos de trabajo probados en la versión anterior se comporta de manera idéntica en la nueva.- Mucho de la resolución de problemas y análisis sería necesario para hacer que las cosas funcionen.
El proceso de actualización demostró que la automatización no es una comodidad opcional, sino un requisito básico para las implementaciones de CNC a gran escala. Planificamos la automatización de los candidatos necesarios desde el principio, pero nunca se puede suponer que vaya a ser suficiente. En mitad del proyecto, podrían identificarse problemas en casos prácticos en los que la automatización añadiría valor, como se ha demostrado en las secciones anteriores.
Durante la actualización, es fundamental asegurarse de que los entornos CNC antiguos y nuevos no estén activos simultáneamente. Aunque es necesario un breve período de estabilización para la validación, su ampliación significativa, como ocurrió en este proyecto durante más de 2 meses, crea riesgos operativos. Con ambos CNC activos durante más de 15-20 días, las funciones de automatización de bucle cerrado, como Bandwidth On Demand, generaban acciones incoherentes y conflictivas en toda la red, ya que la lógica de automatización se ejecutaba desde dos controladores a la vez.
Una lección clave es implementar barandillas claras durante la migración. Medidas como la desactivación administrativa de dispositivos en el antiguo CNC, la pausa de los flujos de trabajo de automatización o la restricción de las suscripciones de telemetría habrían evitado estos conflictos. Las actualizaciones futuras deben planificar explícitamente el aislamiento estricto del controlador para evitar interferencias de dos controladores y garantizar un comportamiento de red predecible.
Aunque los documentos del método de procedimiento (MOP) se crean para cada implementación, integración y caso práctico, no es realista suponer que un MOP validado en condiciones de laboratorio se comporta de manera idéntica en producción. El entorno de producción reveló constantemente desviaciones, algunas leves, otras significativas, lo que puso de relieve lagunas que no eran visibles durante los ensayos controlados. Las redes reales, los comportamientos heredados, las dependencias externas y las condiciones de tráfico real introducen variables que las simulaciones de laboratorio no siempre pueden replicar.
El aprendizaje clave es que los equipos deben abordar la implementación de la producción con la expectativa de encontrar comportamientos inesperados, casos límite y nuevos descubrimientos. La flexibilidad, la capacidad de resolución de problemas rápida y la preparación para adaptar los procedimientos sobre la marcha son esenciales para una ejecución correcta a escala.
Los problemas de postproducción son inevitables, y aunque la resolución de problemas inicial por parte del equipo de entrega es valiosa, confiar únicamente en el esfuerzo interno puede conducir a retrasos innecesarios. Es prudente abrir un caso TAC en paralelo como red de seguridad, especialmente para problemas relacionados con el producto o comportamientos complejos que no se pueden diagnosticar inmediatamente. Las investigaciones del TAC a menudo requieren tiempo, y el retraso de varios días en la creación de casos puede dar lugar a una pérdida significativa del impulso del proyecto. La participación temprana del TAC garantiza la disponibilidad de la asistencia de expertos cuando es necesario, acelera la identificación de las causas principales y evita el retraso evitable de la programación.
El fuerte apoyo de la unidad de negocio CNC es muy valioso durante cualquier proyecto CNC. Los usuarios a menudo requieren información detallada sobre los productos y aclaraciones que no están disponibles con el equipo de entrega solo. Disponer de un contacto de la unidad de negocio accesible durante todo el proceso de compromiso acelera la resolución de problemas, refuerza la precisión técnica y ayuda a crear una mayor confianza y un mejor entendimiento entre los usuarios.
CNC no admite actualizaciones in situ, por lo que la implementación en paralelo es inevitable. Considere el nuevo entorno como una instalación nueva y asigne suficiente capacidad informática, de almacenamiento y administrativa para ejecutar dos entornos simultáneamente. Planifique las fases de validación, la secuencia de la migración y las actividades de transición con mucha antelación.
Muchas experiencias subrayan la importancia crítica de la diligencia durante la implementación inicial. La validación inicial de todas las entradas clave, especialmente los parámetros de configuración inmutables, es esencial para evitar las costosas reimplementaciones y el impacto de la programación. Por lo tanto, se recomienda encarecidamente el uso de listas de comprobación estructuradas previas a la implementación, revisiones inter pares y validaciones de simulación para minimizar el riesgo de errores de configuración irreversibles.
El establecimiento de un entorno interno de CALO/pruebas en las fases tempranas del proyecto permite a los equipos experimentar, validar flujos de trabajo, descubrir cambios específicos de la versión y generar confianza antes de tocar la producción. Esto reduce significativamente las incógnitas durante la implementación final.
Al diseñar clústeres, distribuciones CDG y asignaciones PCE, las decisiones se basan en los tipos de dispositivos, la escala de la interfaz, la complejidad de la topología y la intensidad de la recopilación, en lugar de en simples recuentos de dispositivos. Las distribuciones equilibradas evitan la sobrecarga y garantizan un rendimiento predecible en todo el clúster.
Establecer una acumulación de automatización en las tareas iniciales que son repetitivas, de gran volumen o críticas desde el punto de vista operativo e invertir donde la automatización es obligatoria. Valide y perfeccione su automatización en el entorno SIT en primer lugar, asegurándose de que la producción no se base en correcciones de última hora. La escalabilidad aumenta el coste del trabajo manual; la automatización estandarizada mejora la calidad, velocidad y control. Resultados del paquete como recursos reutilizables (interfaces documentadas, trabajos parametrizados, bibliotecas compartidas) para que los equipos puedan aprovechar la misma automatización para futuras actualizaciones de Crosswork y proyectos adyacentes, reduciendo el tiempo de reprocesamiento e incorporación.
Durante la coexistencia, considere la automatización de bucle cerrado como una capacidad de un solo escritor: solo una ruta de orquestación puede impulsar de forma activa la remediación o la configuración basada en políticas. El CLA simultáneo en pilas antiguas y nuevas puede provocar disparadores duplicados e intentos divergentes, lo que puede desestabilizar el estado del dispositivo. Planifique la puesta en marcha de CLA como un hito de fase tardía, después de la validación funcional y la transición definitiva al nuevo controlador.
Los saltos de las principales versiones introducen nuevas capacidades al tiempo que desaprueban o cambian las más antiguas. Es extremadamente importante tener en cuenta estos cambios. Muchas veces, el cambio no se documentará en las notas de la versión actualizada y aparecerá cuando lleguemos al campo. Realizar evaluaciones estructuradas de:
CNC interactúa con varios sistemas externos como NSO, SSM, CPNR, EPNM, OneFM, Splunk y marcos de orquestación.
Antes de la migración:
Los fallos de integración detectados tras la migración crean puntos ciegos operativos.
Exporte todo antes de comenzar la migración:
Al migrar miles de dispositivos, realice la migración en lotes controlados:
Esto evita cargas altas en CDG y CNC en un corto intervalo de tiempo.
Para hacer frente al desafío fuera de banda como parte de la actualización de CNC 4.1 a 7.1, se implementó un cambio estructurado hacia las operaciones impulsadas por NSO. Se proporcionó al equipo de operaciones acceso controlado y basado en usuarios a la CLI de NSO, mientras que se restringió el acceso administrativo directo a la CLI del dispositivo para evitar cambios fuera de banda. Además, las secuencias de comandos CLI heredadas se convirtieron sistemáticamente en automatización basada en RESTCONF integrada con NSO, lo que habilitó funciones como la validación a seco y la reversión transaccional. Este enfoque garantizó que todos los cambios de configuración se gestionaran de forma centralizada, fueran auditables y coherentes con los modelos de servicio de NSO, lo que eliminó de forma eficaz la variabilidad de la configuración y restableció la fiabilidad del aprovisionamiento.
Durante las ventanas de migración críticas:
Esto reduce el ruido y garantiza que el estado de la red permanezca estable durante toda la actualización
La migración de CNC 4.1 a CNC 7.1 constituye un caso práctico significativo de las complejidades inherentes a las actualizaciones de las plataformas de orquestación de redes a gran escala. Este proyecto demuestra que estas transiciones no son solo avances de versiones, sino transformaciones completas en capas de arquitectura, flujos de trabajo operativos y ecosistemas de automatización. La ausencia de una ruta de actualización in situ requería una implementación completa de cambios y levantamientos, lo que introducía retos de entorno paralelos y requería una coordinación meticulosa entre CNC, NSO, SR-PCE, CDG e integraciones de sistemas externos. El panorama operativo resultante puso de relieve la importancia de contar con metodologías de migración sólidas, ciclos de validación exhaustivos y procesos de transición estrechamente controlados para mitigar los riesgos en los entornos de producción.
La actualización reveló además la importancia de la automatización como pilar indispensable para la escalabilidad y la precisión. Con más de 2.000 dispositivos, amplias configuraciones de telemetría, múltiples componentes dependientes y flujos de trabajo dinámicos de automatización de bucle cerrado, el proyecto destacó las limitaciones de los procedimientos manuales en entornos de esta magnitud. La automatización creada específicamente que abarca las actualizaciones de ACL, la incorporación de dispositivos, el aprovisionamiento de KPI, la limpieza de telemetría y el aislamiento de fallos resultó esencial para garantizar el determinismo, reducir los errores humanos y lograr unas ganancias de eficacia significativas. El marco de automatización no solo permitió la continuidad operativa durante la migración, sino que también estableció una base sostenible para la optimización continua de la red.
Igualmente importante fue el reconocimiento de que el comportamiento de la producción se desvía notablemente de las condiciones de laboratorio controladas. Los cambios en el marco de trabajo, como la transición de la lógica KPI basada en marcas a las definiciones basadas en rastreadores, introdujeron cambios de comportamiento imprevistos que requerían reingeniería, nuevas pruebas y perfeccionamiento iterativo. Del mismo modo, los retos operativos relacionados con la automatización de bucle cerrado, la fiabilidad de la telemetría y el comportamiento de la API pusieron de manifiesto la necesidad de una resolución de problemas adaptable, una evaluación proactiva de los riesgos y un compromiso continuo con los expertos en las materias del TAC y de la unidad de negocio. Estos factores ilustran colectivamente que las transiciones de las principales versiones exigen profundidad técnica y preparación organizativa. Quedan pocos problemas pendientes que se espera que se resuelvan en la próxima versión 7.2 del trabajo cruzado.
En general, esta actualización demuestra que las migraciones CNC a gran escala que se realizan con éxito se basan en cuatro pilares fundamentales: validación rigurosa previa a la implementación, automatización sistemática y resistente, sólida coordinación entre funciones y una postura operativa adaptable que anticipa las divergencias entre los entornos de laboratorio y de producción. La información obtenida de este compromiso no solo contribuyó a una implementación estable de CNC 7.1, sino que también ofrece un anteproyecto para futuras transiciones, que informa las mejores prácticas, refuerza las barreras arquitectónicas y fortalece el conocimiento institucional para la posterior evolución de su ecosistema de automatización de la red.
| Término |
Definición |
| BNM |
Mensaje de notificación de ancho de banda. |
| GATO |
Topología activa de Crosswork |
| CCA |
Automatización del cambio de Crosswork |
| CDG |
Gateway de datos de Crosswork |
| CHI |
Crosswork Health Insight |
| CNC |
Controlador de red Cisco Crosswork |
| COE |
Motor de optimización de Crosswork |
| CPNR |
Cisco Prime Network Registrar |
| CWM |
Crosswork Workflow Manager |
| EMF |
Funciones de administración de elementos |
| KPI |
Indicador clave de rendimiento |
| LWR |
Router inalámbrico grande |
| MDT |
Telemetría basada en modelos |
| FREGAR |
Método de procedimiento |
| NBW |
Ancho de banda nominal |
| NSO |
Network Services Orchestrator |
| RBW |
Ancho de banda grabado |
| SR-PCE |
Elemento de Cálculo de Ruta de Ruteo de Segmentos |
| SSM |
Cisco Smart Software Manager |
| SWR |
Router inalámbrico pequeño |
| TAC |
Centro de asistencia técnica |
| TSDN |
Transporte de redes definidas por software |
| ZTP |
Aprovisionamiento sin intervención |
| RR |
Reflector de ruta |
| RP |
Perfil de ruta |
| POI |
Punto De Interconexión |
| EVPN |
Red privada virtual Ethernet. |
| Revisión | Fecha de publicación | Comentarios |
|---|---|---|
2.0 |
04-May-2026
|
Versión inicial, formato, encabezados, vínculos, gramática, ortografía. |
1.0 |
30-Apr-2026
|
Versión inicial |