Dit document beschrijft een casestudy van een complexe, grootschalige migratie van een vast draadloos netwerk van Cisco CNC 4.1 naar 7.1 via lift-and-shift.
In dit artikel wordt een gedetailleerde casestudy gepresenteerd van de migratie van een grootschalig vast draadloos netwerk van Cisco Crosswork Network Controller (CNC) versie 4.1 naar versie 7.1. Vanwege het ontbreken van een in-place upgrademechanisme vereiste de overgang een volledige implementatie van lift-and-shift, waardoor een aanzienlijke architecturale, operationele en integratiecomplexiteit werd geïntroduceerd op meer dan 2.000 netwerkapparaten en meerdere onderling afhankelijke systemen. In de studie worden de uitdagingen onderzocht die op meerdere gebieden zijn ondervonden.
Een belangrijk resultaat benadrukt de essentiële rol van automatisering bij het waarborgen van schaalbaarheid, nauwkeurigheid en operationeel determinisme, met name voor workflows met een hoog volume. De resultaten tonen verder aan dat productieomgevingen aanzienlijk afwijken van gecontroleerde laboratoriumomstandigheden, waardoor adaptieve probleemoplossing, iteratieve validatie en aanhoudende betrokkenheid met TAC- en Business Unit-engineeringteams noodzakelijk zijn. Dit werk draagt praktische inzichten, gevalideerde methodologieën en aanbevolen best practices bij die dienen als referentieblauwdruk voor toekomstige CNC-upgrades en grootschalige orkestratieplatformovergangen.
De proliferatie van 5G-netwerken, de snelle adoptie van verbonden apparaten en de digitalisering van bedrijfs- en consumentenomgevingen hebben geleid tot een aanzienlijke toename van het verkeersvolume en de diversiteit aan diensten die veilig en betrouwbaar op schaal moeten worden geleverd. Communications Service Providers (CSP's) exploiteren nu zeer dynamische netwerken waar traditionele, geïsoleerde operationele tools vaak complexiteit creëren, de gebruikerservaring verslechteren en hogere operationele kosten (OpEx) veroorzaken.
Om concurrerend te blijven, nemen operators steeds meer gemoderniseerde operationele modellen over die zijn gebaseerd op automatisering, virtualisatie, SDN-principes en analysegestuurde, zelfoptimaliserende netwerken.
Cisco Crosswork Network Controller (CNC) is ontworpen om deze transformatie te ondersteunen door operationele workflows te vereenvoudigen, de totale eigendomskosten te verlagen en op opzet gebaseerde automatisering mogelijk te maken in transportnetwerken van meerdere leveranciers. CNC biedt een uniform platform voor service provisioning, monitoring van de netwerkgezondheid en realtime optimalisatie, en biedt operators één venster om grootschalige IP-netwerken proactiever en efficiënter te beheren.
De onderliggende kruiswerkinfrastructuur biedt een veerkrachtig, schaalbaar clusterframework waarop alle CNC-toepassingen worden uitgevoerd. Voor CNC 7.1 omvat dit modules zoals Optimization Engine, Active Topology, Change Automation, Health Insights, Element Management Functions (EMF), Service Health en Crosswork Workflow Manager (CWM), die elk bijdragen aan end-to-end orkestratie en zekerheid.
Het upgraden van CNC biedt echter unieke uitdagingen. CNC ondersteunt geen in-place upgrades, waardoor een volledige lift-and-shift-implementatie nodig is waarbij de nieuwe omgeving parallel aan de bestaande wordt gebouwd en alle gegevens en services naar de nieuwe versie worden gemigreerd. Deze case study onderzoekt een grootschalige upgrade van CNC 4.1 naar CNC 7.1 voor een belangrijke Australische service aggregator die backbone-service voor alle andere serviceproviders ondersteunt.
De migratie was vooral complex vanwege meerdere aangepaste Change Automation-playbooks, aangepaste Health Insight-KPI's, L2/L3 VPN-serviceverzoeningsvereisten en de behoefte aan veilige ZTP.
De grote versiesprong zorgde voor extra onzekerheid, gezien interne architecturale en gedragsveranderingen die het moeilijk maakten om te voorspellen hoe bestaande use cases zich zouden gedragen in de nieuwe release. Dit vereiste uitgebreide validatie en afstemming tussen alle use cases.
Er is veel planning geïnvesteerd in het bepalen van de optimale toewijzing van middelen, waaronder het aantal hybride/werknemersknooppunten, CDG-distributie en PCE-dimensionering, en of uw bestaande grondstofvoetafdruk kan worden behouden.
De eerste CNC 7.1-implementatie en -validatie werden uitgevoerd in een intern CALO-lab en boden een veilige omgeving om te experimenteren, configuraties te verfijnen en vertrouwen op te bouwen. Dit werd gevolgd door implementatie in de interne testomgeving, die de productie nauw weerspiegelt. De laatste fase betrof het implementeren van CNC 7.1 in de productie, het toepassen van configuratiewijzigingen op apparaatniveau en het uitvoeren van een gefaseerde migratie van alle apparaten en bijbehorende services naar de nieuwe controller.
Het air-gapped productienetwerk is verspreid over grote delen van Australië. Met de aanwezigheid van 2K + -apparaten, variërend van NCS tot ASR9Ks, beheerde CNC al deze apparaten door een live topologische weergave te bieden. Ongeveer 2K-apparaten waren NCS540s lokaal bekend als SWR (Small Wireless Router) met IOS-XR 24.3.2 en 30 waren ASR-9Ks (versie 7.5.2) lokaal bekend als LWR's (Large Wireless Router).
De Crosswork-opstelling bestond uit 3 hybride knooppunten en 2 werkknooppunten. Er waren in totaal 5 CDG's voor de apparaten met 4 actief en 1 de standby-node. Dit bood beperkte bescherming omdat de pool slechts 1 standby-CDG had. Maar gezien uw eisen, werd dit gegeven het groene licht. Het feit dat alle VM's op één datacenter zouden staan, maakte het ook gemakkelijker om met slechts 1 standby te werken.
De CDG is het onderdeel dat de gegevensverzameling van apparaten afhandelt via verschillende protocollen zoals SNMP, CLI en GNMI. De door CDG verzamelde gegevens worden via de interne kafka blootgesteld aan kruiswerk. Een apparaat aan boord van Crosswork moet worden aangesloten op een CDG, waarmee de datagateway verbinding kan maken met het apparaat en de apparaatgegevens kan ophalen.
Ook over de apparaatverdeling voor de CDG’s is veel nagedacht. De eerdere inzet had de apparaten willekeurig verdeeld over de CDG's. Dit leidde tot een zeer scheve verdeling waarbij sommige CDG's meer apparaten vervoerden terwijl er 1-2 CDG's waren met zeer minder apparaten. Dit leidde tot overconsumptie en overbelasting van sommige CDG's, terwijl andere te weinig voorzieningen hadden.
Het denkproces hier in de upgrade was om 700 SWR's elk te distribueren naar de 4 actieve CDG's. Dit was goed voor 2100 SWR's die werden ondergebracht in de eerste drie CDG's. LWRs die zeer zwaar waren op de interface voorzijde waren allemaal gereserveerd voor de vierde CDG. Hoewel ze een zeer klein aantal waren met een telling van 30, zorgde deze toewijzing ervoor dat, zelfs als er meer inzamelingen werden gedaan van deze apparaten, er geen zware belasting op de CDG zou zijn. Elke daaropvolgende onboarding van SWR's zou ook naar de 4e CDG gaan. Dit zorgde voor een uniforme verdeling in de eerste drie CDG's met meer ruimte beschikbaar in de 4e om nieuwe apparaten in te nemen.
SR-PCE werd geïmplementeerd in 2 paren, wat betekent dat 4 VM's op verschillende hostmachines werden gedistribueerd. Het ene paar beheert 7 POI-sites en het andere beheert de resterende 8 POI-sites. De topologie updates op CNC GUI worden gedaan door het gebruik van SR-PCE. Het leert de topologie van het netwerk door middel van BGP-LS peering met andere LWR routers. Deze component wordt ook gebruikt voor alle verkeerskundige use cases waarbij het de rol van de controller speelt om het verkeer naar verschillende paden te sturen.
Om alle serviceprovisioning en apparaatconfiguratieuse-cases te verwerken, moet NSO worden gebruikt in combinatie met de CNC. Voor het productienetwerk werden twee NSO's met versie 6.4.1.1 ingezet om samen te werken in de hoge beschikbaarheidsmodus. SR-PCE (Segment Routing Path Computation Element) is het onderdeel dat nodig is voor het leveren van de topologie-updates aan CNC en ook voor het afhandelen van de real-time verkeerskunde use cases. Vier SR-PCE's met versie 25.2.1 werden hier ingezet waarbij elke PCE werd vergeleken met twee verschillende LWR's.


Voor de CNC-implementatie was de voorkeurskeuze om door te gaan met de docker-gebaseerde. Maar omdat de client de installatie van de docker op hun locatie niet goedkeurde, was er geen andere optie dan door te gaan met handmatige implementatie met vCenter. Dit kost meer tijd om te implementeren in vergelijking met het script dat is gebaseerd op een omdat het ons vereist om meerdere keren invoer in de vCenter GUI te leveren.
Nadat de CNC-implementatie was voltooid, werden alle vereiste toepassingen geïmplementeerd met het BU-meegeleverde automatische actie-installatiebestand dat de toepassingen in één keer uploadt en activeert, waardoor de tijd die nodig is om het handmatig te doen, wordt verminderd. De belangrijkste laag is geïmplementeerd met Crosswork Optimization Engine, Active Topology, Service Health, Element Management Functions en Crosswork Workflow Manager. Samen met dit, de add-on pakketten werden ook ingesteld die Change Automation en Health Insight omvat.
CWM en SH hadden geen use cases. Maar ze werden toch ingezet omdat ze geïnteresseerd waren in enkele van de use cases die deze applicaties in de volgende versie boden.
Toen de applicaties eenmaal waren ingesteld, was de volgende stap het migreren van de gegevens van de oude versie van CNC. Dit omvat voornamelijk de aanmeldingsprofielen, providers, tags, aangepaste playbooks, aangepaste KPI's, rollen, sZTP-vouchers en andere gegevens. CNC biedt de exportoptie voor al deze die kunnen worden gebruikt en vervolgens kunnen worden geïmporteerd naar de nieuwe CNC.
Zodra deze zijn ingesteld, is het verstandig om de apparaatmigratie te starten. In het geval van upgrades, als de nieuwe CNC wordt geïmplementeerd in een nieuw subnet in vergelijking met de oudere, is er een vereiste om ACL-wijzigingen op apparaten uit te voeren om bereikbaarheid met de nieuwe CNC te bieden. Dit is een tijdrovend proces, omdat het vereist dat men handmatig inlogt op elk apparaat en de configuratie wijzigt.
Zodra deze ACL-wijzigingen zijn voltooid, is de volgende stap om de apparaten te importeren naar nieuwe CNC en ze aan de CDG's te koppelen. Als de bereikbaarheid goed is en de SSH- en SNMP-referenties correct zijn, worden de apparaten weergegeven als bereikbaar op CNC en worden ze ook aan boord van de NSO (Network Services Orchestrator).
Op het NSO-front moeten alle vereiste pakketten operationeel aanwezig zijn om ervoor te zorgen dat CNC met NSO kan praten en vice versa. Om bijvoorbeeld de apparaten automatisch van CNC naar NSO te sturen, is het DLM-functiepakket verplicht. Evenzo, als er een vereiste is voor NSO om MDT-sensorpaden op het apparaat te configureren, moet het TM-TC-pakket op NSO worden geïmplementeerd. De kern is dat, afhankelijk van de use case, het relevante pakket moet worden ingezet op NSO.
In plaats van de handmatige aanpak om deze vereiste pakketten te implementeren, met name de Transport-SDN-pakketten, werd een geautomatiseerd script ontwikkeld voor provisioning. Met de CNC 7.1-upgrade zijn updates geïntroduceerd in de TSDN-pakketten. Deze bijgewerkte pakketten zijn bedoeld voor implementatie op de NSO-server om continue ondersteuning voor L2/L3-provisioning in de geüpgradede omgeving te garanderen. Het script automatiseert de installatie van de bijgewerkte TSDN-pakketten en laadt de nodige metagegevens in NSO, waardoor het de vereiste services kan leveren.
Eén exemplaar van Cisco Smart Software Manager (SSM)-licentieserver en drie exemplaren van Cisco Prime Network Registrar (CPNR) kunnen ook op verschillende hosts worden geïmplementeerd.
CNC biedt één platform voor provisioning, optimalisatie en visualisatie van geïmplementeerde services via een uniforme gebruikersinterface. Hier is een korte samenvatting van de interne CNC-componenten die zich in de CNC-platformsuite bevinden en de use-cases.


End-to-end gefaseerde migratie van bestaande CNC 4.1 naar CNC 7.1 (dezelfde stroom kan worden gevolgd voor elke CNC-upgrade, ongeacht de versies)
| plannen |
› |
lab |
› |
Customer Lab |
› |
Gereed voor PROD |
› |
Productiestroom |
› |
weektijd |
› |
overdracht |
› |
uit bedrijf nemen |
| FASE 1 1 Plan en bereid je voor
|
|||||
| ▼ |
|||||
| FASE 2 2 Interne labvalidatie
|
|||||
| ▼ |
|||||
| FASE 3 3 Validatie van Customer Lab
|
|||||
| ✓ ATP uitvoeren in Lab en afmelden |
|||||
| ▼ |
|||||
| FASE 4 4 Gereedheid voor productie
|
|||||
| ▼ |
|||||
| FASE 5 5 Productieomslag ↻ Herhaalt alle stappen uit fase 3 — in de productieomgeving
|
|||||
| ✓ Uitrol van de productie |
|||||
| ▼ |
|||||
| FASE 6 6 Weken
|
|||||
| ▼ |
|||||
| FASE 7 7 Documentatie en overdracht
|
|||||
| ▼ |
|||||
| FASE 8 8 Legacy CNC uit bedrijf nemen 4.1
|
|||||
De L2VPN-service biedt Layer2 Ethernet-connectiviteit voor meerdere SWR's, waarbij sommige services op LWR's zijn verankerd. CNC Active Topology wordt gebruikt voor de levering van services, terwijl alle omgevingsspecifieke logica wordt geïmplementeerd via aangepaste sjablonen voor NSO's.
L2VPN-provisioning wordt behandeld als een Day2-configuratieactiviteit en vereist door de operator geleverde servicekenmerken.
Er zijn verschillende aangepaste sjablonen gemaakt om deze af te stemmen op omgevingsspecifieke naamgevingsconventies en interfacegedrag:
Deze sjablonen zorgen voor een consistente EVPN-configuratie in het netwerk en verwijderen verschillen op hardwareniveau.
De L3VPN-use case maakt Layer‑3-servicelevering via meerdere SWR's als eindpunt mogelijk. Provisioning wordt uitgevoerd via CNC Active Topology, waarbij omgevingsspecifieke vereisten worden geïmplementeerd met behulp van een aangepaste NSO-sjabloon.
Net als bij de L2VPN is dit een configuratieactie op dag 2, waarbij invoer van de operator is vereist.
De toepassing Crosswork Optimization Engine (COE) van de CNC-suite helpt bij het regelen van verkeersstromen in het netwerk op basis van de gewenste intentie.
Er zijn twee soorten verkeer die verschillende intenties vereisen (SLA-statistieken):
Om ervoor te zorgen dat TC1-verkeer altijd op het laagste latentiepad wordt genomen, moet een Segment Routing (SR) -beleid zijn gemaakt op SWR-koptekst met padberekeningscriteria als latentie.
Dit wordt bereikt door de On Demand Next Hop (ODN)-configuratie op elke SWR-headend voor specifieke kleur 1001 te definiëren door CNC te gebruiken om het maken van SR-beleid te vergemakkelijken.
Om ervoor te zorgen dat TC4-verkeer altijd op het pad wordt genomen met toegewezen bandbreedte, moet er een SR-beleid zijn gemaakt op SWR-koptekst met padberekeningscriteria als bandbreedte.
Dit wordt bereikt door:
BoD function pack wordt gebruikt om het pad te berekenen voor SR-beleid dat bandbreedte heeft als criteria voor padberekening. Het houdt de bandbreedte bij die aan een beleid is toegewezen en houdt het huidige pad van het beleid tijdens de levenscyclus ervan in de gaten.
Op elk moment, als de huidige patch van BWOD-beleid is niet over voldoende capaciteit beschikbaar om te voldoen aan de vastgelegde bandbreedte, herberekent het BWOD-beleidspad en herroutering van het beleid naar een nieuw pad. Deze herroutering van het BWOD-beleid is een continu proces en vereist geen handmatige interventie.
In zekere zin doet BWOD optimalisatie on the fly voor bandbreedte op dezelfde manier als SR-PCE doet voor latentie.
In het verleden vereiste het proces van het opzetten van een nieuw apparaat een bepaald niveau van expertise door de installateur om de implementatie van een nieuw onderdeel te installeren, te configureren en problemen op te lossen. Er kan ook een lang proces van pre-staging van de apparatuur op een offsite locatie, ondersteund door veel mensen die werken aan verschillende delen van de oplossing.
Voor nieuwe SWR-apparaten die gepland zijn om in uw omgeving te worden geïmplementeerd, wordt dit proces van het inschakelen van apparaten geautomatiseerd met de beveiligde ZTP-toepassing (Zero Touch Provisioning) van CNC.
De ZTP-workflow wordt geactiveerd wanneer het apparaat voor het eerst wordt opgestart en het zou de geplande platformimage en de initiële configuratie downloaden die moet worden toegepast zonder enige handmatige interventie.
Het apparaat is ook automatisch aan boord van CNC voor verdere orkestratie.
Dit diagram toont de workflow van het beveiligde ZTP-proces bij het inschakelen van het apparaat:

Een Python-automatisering op de Utility Host orkestreert en controleert het end-to-end proces met behulp van een gestructureerde Excel-invoer (per keten):
De SWR kan BNM ontvangen van de co-locatie MiniLink switch die overeenkomt met de bandbreedte van de WAN-poorten. Deze meldingen zijn standaard CFM-berichten die de huidige lopende opgenomen bandbreedte (RBW) en de maximale geconfigureerde bandbreedte, ook wel bekend als nominale bandbreedte (NBW) zou omvatten.
De huidige bandbreedte is de werkelijke bandbreedte van de microgolf WAN-link, gebaseerd op de geaggregeerde bandbreedten van de individuele microgolf-links en hun lopende QAM-niveaus. De nominale bandbreedte is de geconfigureerde maximaal mogelijke WAN-bandbreedte, gebaseerd op de geaggregeerde bandbreedten van de maximaal geconfigureerde QAM op elk van de afzonderlijke microgolfkoppelingen.
Bandbreedte optimalisatie wordt uitgevoerd op basis van dit scenario:
Wanneer een SWR is ingeschakeld met BNM KPI in CNC als onderdeel van post-sZTP-activiteiten, drukt CNC telemetrieconfiguraties in SWR.
door een telemetriemodel aangedreven
bestemmingsgroep <DGName>
vrf VRF-OMSWR-<AreaCode>1
adresfamilie ipv4 <CDG IPv4Address> poort 9010
zelfbeschrijvend coderen-GPB
Protocol TCP
Ja!
Ja!
sensorgroep <GroupName>
sensor-pad Cisco-IOS-XR-ethernet-cfm-oper: cfm/nodes/node/bandbreedte-notificaties/bandbreedte-notificatie
Ja!
CNC verwerkt deze BNM-berichten die via telemetrie worden ontvangen en neemt indien nodig herstelmaatregelen. Hier zijn de 2 componenten die betrokken zijn bij CNC:
Een aangepast Python-script is ontwikkeld om aangepaste logica uit te voeren en de CA-afspeelboeken automatisch uit te voeren wanneer HI KPI's worden geschonden.
Het draaiboek van het draaiboek werkt op basis van dit algoritme:

In deze tabel worden de aangepaste waarschuwingsniveaus uitgelegd die zijn ingesteld op graden van bandbreedtedegradatie:
Gerapporteerde bandbreedte = RBW
Nominale bandbreedte = NBW
| Waarde van waarschuwingsintervallen |
Meldingsniveau |
| (RBW/NBW)*100 >=70 |
info |
| (RBW/NBW)*100 <70 en >60 |
WAARSCHUWING |
| (RBW/NBW)*100 <=60 |
Critical (Kritiek) |
Dit sensorpad wordt bewaakt door CNC:
Cisco-IOS-XR-ethernet-cfm-oper: cfm/nodes/node/bandbreedte-meldingen/bandbreedte-melding
In CNC wordt een aangepaste KPI gemaakt om het pad van de BNM-sensor te bewaken. Deze KPI wordt toegevoegd aan een KPI-profiel dat is geconfigureerd met een cadans van 120 seconden en waarschuwingsdrempels. Als u SWR's aan dit profiel koppelt, wordt de vereiste telemetrieconfiguratie automatisch naar de apparaten doorgestuurd via NSO.
Zodra deze functie is ingeschakeld, streamen apparaten RBW/NBW-gegevens naar de toegewezen CDG's met het geconfigureerde interval. Health Insight (HI) berekent de RBW-NBW-ratio en verhoogt waarschuwingen wanneer drempelwaarden worden overschreden; operators kunnen deze gebeurtenissen in HI en via Grafana-dashboards volgen.
Een alertprovider in CNC stuurt deze alerts door naar het hybride knooppunt dat de Python-automatisering host. Het script ontleden apparaat/interface/RBW/NBW details en triggert de juiste Change Automation playbooks: scherpere aanpassing, bandbreedte update, of beide op basis van de gedefinieerde beslissingslogica.
Dit zijn de 2 playbooks die gebruikt worden in de workflow:
1. Playbook om de vormgevingswaarde te wijzigen
2. Playbook om de interfacebandbreedte te wijzigen
Zoals eerder vermeld, draait het script een webserver om als provider te fungeren om met CNC te communiceren met behulp van REST API. Elke reactie die we krijgen voor een POST-verzoek wordt hier vastgelegd. De waarschuwingen worden vastgelegd in het formulier op JSON en vervolgens geconverteerd naar het woordenboek om de nodige parameters eruit te halen.
Custom Change Automation (CA)-playbooks zijn ontwikkeld om kritieke Day-2-activiteiten in de hele levenscyclus van het netwerk te stroomlijnen en te standaardiseren. Deze omvatten bundel-ether-provisioning, updates van de beschrijving van de beheerinterface, CFM-orkestratie van de daisy-chain, naadloze uitbreiding van de linkcapaciteit, eNodeB-ontmanteling en efficiënte Mini-Link-onboarding. Door operationele best practices te integreren in herbruikbare workflows, verbeteren deze playbooks de consistentie van de uitvoering aanzienlijk, minimaliseren ze het risico op menselijke fouten en verminderen ze de afhankelijkheid van handmatige interventies. In het kader van een Cisco CNC-upgrade speelt dit automatiseringskader een cruciale rol bij het versnellen van de operationele doorlooptijd, het waarborgen van de continuïteit van de service en het mogelijk maken van schaalbare, herhaalbare processen die zijn afgestemd op moderne netwerktransformatiedoelstellingen.
Als onderdeel van de Cisco CNC 4.1 tot 7.1 upgrade, werd de bestaande TACACS+ integratie zorgvuldig bewaard om de continuïteit van gecentraliseerde authenticatie, autorisatie te waarborgen. Het upgradeproces valideerde en repliceerde de TACACS+-configuratie in Cisco CNC 7.1, waarbij de afstemming met het gevestigde bedrijfsbeveiligingsbeleid en op rollen gebaseerde toegangscontrolemechanismen (RBAC) werd gehandhaafd.
Een syslog forwarding is ingesteld om de alarmen/gebeurtenissen/syslogs door te sturen naar een Splunk server. De out-of-the-box mogelijkheid van CNC om de syslog-server in te stellen, werd gebruikt om dit te bereiken.
CNC-alarmen worden ook doorgestuurd naar een noordgebonden systeem zoals OneFM met behulp van de CNC-restconf-verbindingsgeoriënteerde API:
curl -L --request GET \
--url https://{server_ip}:30603/crosswork/notification/restconf/streams/v2/alarm.json \
--header 'Accept: application/txt'). This API must be used over a websocket connection config.
Een geautomatiseerd script maakt gebruik van de CNC-back-up API om de volledige back-up van CNC te maken en slaat het back-upbestand op in de host van het hulpprogramma. Deze operatie wordt dagelijks uitgevoerd.
De upgrade van Cross work 4.4 naar 7.1 betekende een aanzienlijke versiesprong in plaats van een routinematige incrementele update. Zo'n grote sprong introduceerde tal van nieuwe functies in meerdere toepassingen, samen met aanzienlijke verfijningen en architectonische veranderingen. Daarom was de CNC-upgrade niet alleen een eenvoudige versievervanging, maar vereiste het ook een grondige validatie om compatibiliteit, stabiliteit en goede functionaliteit voor alle geïntegreerde componenten te garanderen. De uitgebreide functieset en onderliggende verbeteringen betekenden dat bestaande workflows, configuraties en integraties zorgvuldige verificatie vereisten, waardoor uitgebreide testen en validatie cruciaal zijn voor het succes van de upgrade.
CNC biedt geen ondersteuning voor een in-place upgrademodel. In plaats daarvan moeten upgrades een lift-and-shift-aanpak volgen, waarbij de bestaande implementatie wordt behouden terwijl een volledig nieuwe omgeving vanaf nul wordt opgebouwd met de doelversie. Zodra het nieuwe systeem is geïnstalleerd, moeten configuraties, gegevens en integraties zorgvuldig worden gemigreerd en gevalideerd voordat de oudere omgeving kan worden ontmanteld.
Deze aanpak brengt verschillende operationele uitdagingen met zich mee:
Vanwege deze factoren maakt het lift-and-shift-model CNC-upgrades meer arbeidsintensief en operationeel complex in vergelijking met een standaard in-place upgrade.
Bepaalde implementatiefouten en configuratiefouten na implementatie in CNC hebben geen herstelpad en vereisen een volledige verwijdering en herimplementatie van clusters. Een onjuiste FQDN die is geconfigureerd voor de Crosswork VIP-gegevens, die verplicht is voor de sZTP-use case, maakte sZTP bijvoorbeeld niet-functioneel. Aangezien deze waarde niet kan worden gecorrigeerd na de implementatie, was volledige herschikking vereist.
Evenzo kon een onjuiste configuratie van inloggegevens voor apparaatoverschrijving in Wijzigingsautomatisering niet worden gecorrigeerd na implementatie, wat leidde tot een nieuwe clusterreconstructie. Andere fouten, zoals verkeerd geconfigureerde gateway-IP's of subnetdefinities, worden ook geïdentificeerd als niet-herstelbaar.
Deze scenario's benadrukken het cruciale belang van het valideren van alle onveranderlijke parameters tijdens de initiële implementatie. Nauwgezette planning en controle van de input zijn essentieel om kostbare herwerkzaamheden en planningseffecten te voorkomen.
CNC biedt een diagnostisch hulpprogramma voor het beoordelen van parameters op VM-niveau, zoals lees-/schrijflatentie van schijven, IOPS, synchronisatielatentie, netwerkinterfacesnelheid en CPU-klokfrequentie. Het hulpprogramma rapporteert de gemeten waarden aan de hand van de verwachte drempelwaarden en markeert elke controle als geslaagd of mislukt. Deze diagnoses kunnen echter alleen worden uitgevoerd nadat het cluster is geïmplementeerd, waardoor er geen mechanisme overblijft om de gereedheid van de infrastructuur te valideren voordat deze wordt geïmplementeerd.
Tijdens de installatie is de markering "Diagnostische controles negeren" standaard ingesteld op false. In de praktijk wordt het installatieprogramma stopgezet als een enkele controle mislukt, waardoor de implementatie niet kan worden voortgezet. Als gevolg hiervan worden field engineers vaak gedwongen om deze vlag in te schakelen en diagnostiek volledig te omzeilen, omdat zelfs omgevingen met productiekwaliteit vaak een of meer controles niet uitvoeren. Dit creëert een operationeel dilemma: teams moeten kiezen tussen het afdwingen van strikte validatie die de implementatie blokkeert of doorgaan zonder zekerheid dat de onderliggende infrastructuur voldoet aan de aanbevolen prestatiebenchmarks.
In Health Insight 4.1 was het maken van aangepaste KPI's gebaseerd op de tekenscriptlogica, waarbij KPI-definities en verwerkingslogica werden geïmplementeerd met behulp van scripts binnen het tekenframework. In versie 7.1 werd deze aanpak echter vervangen door een op trackerbestanden gebaseerd kader voor het definiëren en beheren van KPI’s.
Vanwege deze architectuurwijziging konden de bestaande aangepaste KPI's niet direct opnieuw worden gebruikt en moesten ze opnieuw worden bewerkt om af te stemmen op de nieuwe bestandsindeling voor trackers. Dit vergde een aanzienlijke hoeveelheid tijd en moeite om:
Deze verandering in het mechanisme voor het maken van KPI’s verhoogde de vereiste inspanning tijdens de upgrade aanzienlijk, omdat het zowel ging om het leren van een nieuw systeem als om het opnieuw implementeren van de bestaande aangepaste monitoringslogica om de continuïteit van operationele inzichten te waarborgen.
De BNM playbooks worden geactiveerd door middel van een aangepast script dat interageert met CNC API's. Tijdens het upgrade- en validatieproces werden verschillende problemen met betrekking tot API-verificatie en responsafhandeling geïdentificeerd en aangepakt.
De CNC API-token heeft een geldigheid van 8 uur, maar het oorspronkelijke script bevatte geen juiste logica om het token te vernieuwen zodra het verlopen was. Als gevolg hiervan, hoewel de KPI-waarschuwingen in CNC 4.4 correct functioneerden, stopte het playbook-triggerende script met uitvoeren nadat het token was verlopen. Dit probleem bleef lange tijd onopgemerkt, wat betekende dat het automatiseringsscript al meer dan een jaar niet betrouwbaar was. Het probleem werd pas zichtbaar tijdens de migratie- en validatieactiviteiten in CNC 7.1.
Er waren daarom verschillende verbeteringen en verfijningen nodig:
Deze verbeteringen losten niet alleen de problemen op die tijdens de upgrade aan het licht kwamen, maar verbeterden ook de betrouwbaarheid, veerkracht en onderhoudbaarheid van het BNM-automatiseringsframework voor playbooks aanzienlijk.
De BNM automatiseringslogica is event-driven en vertrouwt op waarschuwingen gegenereerd door KPI's in de Health Insight-applicatie binnen CNC. De totale workflow werkt als volgt:
De geconfigureerde drempelwaarden voor waarschuwingen waren:
Dit ontwerp werkte goed voor het identificeren van bandbreedtedegradatie, maar het creëerde een functionele kloof tijdens scenario's voor bandbreedteherstel. Het bereik van 70-90% had geen waarschuwingsniveau gedefinieerd.
Dit leidde tot dit gedrag:
Deze beperking werd zichtbaar in het productienetwerk, waar verbindingen die eerder een bandbreedtevermindering hadden ondergaan, in een beperkte staat bleven, zelfs nadat de omstandigheden waren verbeterd.
Het probleem werd verder verergerd door de kaderwijziging die in CNC 7.1 werd geïntroduceerd. In Health Insight 4.1 ondersteunde de op Tick gebaseerde KPI-implementatie tot vijf waarschuwingsniveaus, waardoor een fijnere controle van drempelbanden mogelijk werd en de herstellogica gemakkelijker te implementeren was.
In CNC 7.1 ondersteunt het op trackerbestanden gebaseerde KPI-framework echter slechts drie waarschuwingsniveaus, waardoor de flexibiliteit bij het definiëren van meerdere hersteldrempels werd verminderd en de waarschuwingslogica opnieuw moest worden ontworpen om binnen deze beperkingen te passen.
Een ander probleem dat in de oorspronkelijke implementatie werd geïdentificeerd, was de extreem hoge frequentie van playbook-executies. De automatiseringslogica bevatte geen wachttijd of stabilisatievenster. Zodra CNC een waarde heeft gelezen van het apparaat dat aan de waarschuwingsvoorwaarde voldeed:
Omdat telemetriewaarden vaak fluctueren in live netwerken, veroorzaakte dit dat honderden playbooks elk uur werden geactiveerd, wat niet ideaal was vanuit zowel een netwerkstabiliteit als een toepassingsprestatieperspectief.
Om deze beperkingen aan te pakken, werd het BNM-automatiseringsontwerp herwerkt met verschillende verbeteringen:
Met deze ontwerpwijzigingen, gecombineerd met de eerdere verbeteringen in API-verwerking, tokenbeheer en scriptrobuustheid, werkt het BNM-automatiseringsframework nu op een veel stabielere, efficiëntere en voorspelbaardere manier. Het systeem kan correct reageren op zowel congestie- als herstelomstandigheden, terwijl overmatige playbook-uitvoeringen worden vermeden en een betrouwbare netwerkbandbreedteoptimalisatie wordt gegarandeerd.
In CNC 4.1 werden alarmen doorgestuurd naar een noordgebonden systeem genaamd OneFM via een RESTCONF API. Omdat de CNC 4.1-stack de EMF-functionaliteit niet bevatte, genereerde het platform alleen alarmsignalen op systeemniveau. Deze alarmen werden stroomopwaarts doorgestuurd zonder enige complexiteit met betrekking tot de indeling van de alarmsystemen.
Met de inzet van CNC 7.1 werd de EMF-toepassing geïntroduceerd, waardoor het alarmmodel aanzienlijk werd uitgebreid. Alarmen zijn nu onderverdeeld in drie typen:
Er was echter al een EPNM die verantwoordelijk was voor het verzamelen en beheren van alarmsystemen op apparaatniveau. Als CNC deze alarmen ook doorstuurde naar OneFM, resulteerde dit in dubbele alarmen die van beide systemen werden ontvangen. Daarom was de vereiste om apparaatalarmen uit te sluiten van CNC terwijl het systeem en netwerkalarmen nog steeds worden doorgestuurd.
De primaire uitdaging was een beperking van de RESTCONF noordgebonden API die werd gebruikt om alarmen door te sturen naar OneFM. De API ondersteunde geen filteralarmen op basis van de alarmcategorie. Als een dergelijke filtering beschikbaar was geweest, zou de oplossing eenvoudig zijn geweest: sluit apparaatalarmen op API-niveau uit voordat u ze doorstuurt naar het noordelijke systeem.
Verschillende mogelijke oplossingen werden geëvalueerd en besproken:
Het stoppen van traps op apparaatniveau werd niet haalbaar geacht omdat CNC afhankelijk is van die traps om apparaatgebeurtenissen te detecteren en operationeel bewustzijn van netwerkomstandigheden te behouden. Het uitschakelen van traps zou het vermogen van CNC om te reageren op netwerkproblemen aanzienlijk verminderen.
De uiteindelijk geïmplementeerde oplossing maakte gebruik van een ingebouwde CNC-functie genaamd Device Alarm Suppression. Met deze functie kunnen beheerders specifieke typen apparaatalarmen onderdrukken op basis van apparaatgroepen, waardoor ze niet worden verwerkt of verder stroomopwaarts worden doorgestuurd.
Door het beleid voor het onderdrukken van apparaatwaarschuwingen te configureren, kon het systeem:
Deze aanpak zorgde voor een schone en schaalbare oplossing zonder het vermogen van CNC om vallen van apparaten te ontvangen te verstoren. Als gevolg hiervan werd de alarmstroom naar OneFM gestroomlijnd, zodat alleen relevante systeem- en netwerkalarmen werden doorgestuurd en duplicatie met het apparaatalarmbeheer van EPNM werd vermeden.
In de bestaande configuratie vertrouwde het operatieteam vaak op directe CLI-gebaseerde scripts om configuratie-updates naar netwerkapparaten te pushen, met name voor taken zoals ACL-wijzigingen en foutopsporingsactiviteiten. Hoewel deze aanpak op korte termijn effectief was, leidde deze tot een drift in de configuratie, omdat wijzigingen die buiten de NSO werden aangebracht, niet werden bijgehouden in het systeem. Als gevolg hiervan werden de provisioningworkflows van de NSO beïnvloed door inconsistenties tussen de beoogde (gemodelleerde) toestand en de daadwerkelijke apparaatconfiguraties, wat leidde tot storingen en operationele inefficiënties.
Vanwege wijzigingen in de out-of-band configuratie: het netwerkteam had de VPN-gerelateerde configuratie bijgewerkt op apparaten buiten CNC / NSO en de TSDN-workflow. Als gevolg hiervan kwam de toestand die was opgeslagen in NSO (uit het CNC 4.1-tijdperk) niet altijd overeen met de toestand op de apparaten.
Deze discrepanties veroorzaakten meervoudige mislukkingen en inconsistenties in de afstemming. In verschillende gevallen bevatte NSO VPN-servicegegevens die niet langer op de apparaten bestonden (of waren gewijzigd op een manier die NSO niet weerspiegelde). Om NSO af te stemmen op het netwerk, was het noodzakelijk om VPN-servicevermeldingen te verwijderen die alleen in NSO bestonden en niet op de apparaten, en om andere mismatches te corrigeren die werden veroorzaakt door out-of-band veranderingen.
Het oplossen van deze problemen kostte ongeveer twee extra weken na het oorspronkelijke verzoeningsplan. De extra tijd werd besteed aan het identificeren van mismatches, het valideren van apparaatstatus en het veilig reinigen of corrigeren van NSO CDB-gegevens.
Het CNC-back-upmechanisme schrijft voor dat het platform in de onderhoudsmodus wordt geplaatst voordat een back-upbewerking kan worden gestart. De back-up-API handhaaft deze voorwaarde door te ontwerpen; als CNC niet overgaat naar de onderhoudsmodus, wordt het back-upproces automatisch afgebroken.
In de praktijk is het invoeren van de onderhoudsmodus vaak mislukt vanwege lopende systeemactiviteiten, waaronder:
De aanwezigheid van een dergelijke activiteit voorkomt dat CNC de onderhoudsmodus ingaat, waardoor de back-upbewerking mislukt voordat deze wordt uitgevoerd.
De vereiste dagelijkse CNC-back-ups voor naleving en operationele zekerheid. Door frequente automatiseringsactiviteiten, met name door BNM getriggerde playbooks, kon het systeem echter vaak niet in de onderhoudsmodus komen. Als gevolg hiervan hebben zich herhaaldelijk back-upfouten voorgedaan, waardoor een aanzienlijk operationeel risico ontstond en handmatige interventie noodzakelijk was.
1. Optimalisering van back-upplanning: er werd een onderhoudsvenster met minimale systeemactiviteit geïdentificeerd. Op basis van de analyse van verkeer en automatisering was de back-uptaak gepland voor 05.00 uur (AEST), wanneer orkestratie en uitvoering van het afspeelboek het minst waarschijnlijk actief waren.
2. Validatie van activiteiten vóór de back-up: er is een geautomatiseerde controle vóór het aanroepen van de back-up-API ingevoerd:
Hierdoor konden geen onnodige back-uppogingen worden uitgevoerd terwijl het systeem in een actieve toestand verkeerde.
3. Herstel- en veerkrachtmechanismen: Om tijdelijke systeemtoestanden op te vangen, zijn aanvullende waarborgen toegevoegd:
De gecombineerde mitigatie verbeterde de betrouwbaarheid van de back-up aanzienlijk:
De syslog-bestemming werd geconfigureerd in CNC om logs door te sturen naar Splunk via TLS. Na ontvangst waren de logs echter onleesbaar aan de kant van Splunk. Vanwege dit probleem afkomstig uit de Splunk-omgeving werd gekozen voor de optie om terug te keren naar UDP-transport, waarna de logs met succes werden verwerkt.
De gebruiker heeft eerder 18 apparaatgroepen gemaakt in CNC 4.1; die release bood echter geen UI-gebaseerd of API-gestuurd mechanisme om apparaatgroepen te exporteren of importeren. Als gevolg hiervan vereiste de migratie van deze groepen naar CNC 7.1 een niet-standaard aanpak. Er werden twee interne CNC-API's geïdentificeerd: een waarin de hiërarchie van de apparaatgroep wordt weergegeven en een andere waarin de apparaten worden vermeld die zijn toegewezen aan elke hiërarchische node. Met behulp van deze API's werden alle apparaatgroepen en de bijbehorende apparaten geëxtraheerd en opgeslagen als JSON-uitgangen. Vervolgens werd een aangepast script ontwikkeld om de antwoorden te ontleden en alleen de hostnamen van het apparaat uit elke groep te extraheren.
CNC 7.1 introduceerde native import-/exportmogelijkheden voor apparaatgroepen, waaronder een op CSV gebaseerde importsjabloon. Na het extraheren van hostnamen uit het oude systeem, werd een tweede automatiseringsscript gemaakt om de CSV-sjablonen in het vereiste formaat te vullen, zodat elke apparaatgroep nauwkeurig en onafhankelijk kon worden geïmporteerd. Deze automatisering was essentieel; zonder deze automatisering zou de migratie van de apparaatgroepen naar CNC 7.1 aanzienlijk tijdrovender en operationeel complexer zijn geweest.
Ondanks de implementatie van de BNM use case om automatisch lage RBW/NBW-verhoudingen te verhelpen, bleef een subset van apparaten gedurende langere perioden in ernstig gedegradeerde toestand. Hoewel de afspeelboeken voor vormgeving en bandbreedteaanpassing doorgaans kort na degradatiegebeurtenissen apparaten herstelden, bleven verschillende apparaten langer dan een week in kritieke toestand en was handmatige interventie vereist. Het identificeren van deze apparaten vormde echter een uitdaging. Hoewel de CNC UI duidelijke visualisaties van waarschuwingen en bandbreedtemetingen biedt, onthult het niet gemakkelijk apparaten die gedurende een langere periode exclusief in kritieke toestand zijn gebleven.
Om deze operationele kloof te dichten, is een API-gestuurde oplossing ontwikkeld. CNC biedt een API die een lijst van de belangrijkste waarschuwingsgenererende apparaten ophaalt over configureerbare tijdvensters (bijvoorbeeld 7 dagen, een maand). Door deze gegevens op te halen en te filteren op apparaten die tijdens de geselecteerde periode alleen kritieke waarschuwingen hebben gegenereerd, kon het team apparaten die handmatig moesten worden hersteld snel isoleren. Deze geautomatiseerde aanpak verbeterde de efficiëntie van het oplossen van problemen aanzienlijk en verkortte de tijd die nodig was om gevallen van aanhoudende degradatie te identificeren.
In CNC 4.1 werden telemetrieconfiguraties die via het NSO werden gepusht via het tcfunction pack automatisch toegepast wanneer een apparaat werd gekoppeld aan een Health Insight (HI) KPI-profiel. Deze configuraties, inclusief CDG VIP-referenties, werden echter niet verwijderd toen het KPI-profiel later werd losgekoppeld. Als gevolg hiervan verzamelden apparaten in de loop van de tijd verouderde en redundante telemetriegegevens.
Dit probleem werd meer uitgesproken tijdens de upgrade naar CNC 7.1. Apparaten behielden vaak bestaande CDG VIP-telemetrieconfiguraties van CNC 4.1 naast de nieuwe vermeldingen gegenereerd door CNC 7.1, wat leidde tot meerdere conflicterende telemetrieconfiguraties op meer dan 2.000 apparaten. Er werden zorgen geuit over de operationele impact en de configuratiehygiëne, omdat alleen de CNC 7.1 CDG VIP-configuratie actief moet zijn gebleven.
Om dit aan te pakken, werd een geautomatiseerd script ontwikkeld om verouderde CDG VIP-referenties te identificeren en te verwijderen uit de telemetrieconfiguratie van elk apparaat. Deze oplossing elimineerde inconsistenties in de configuratie, herstelde de afstemming met het verwachte 7.1-telemetriemodel en voorkwam wat enkele dagen van handmatige reinigingsinspanningen zou zijn geweest in de grote apparaatvloot.
In CNC 7.1 zijn de meeste Health Insight (HI) KPI-collecties gebaseerd op Model-Driven Telemetry (MDT). Wanneer een KPI-profiel is ingeschakeld op een apparaat, programmeert NSO automatisch de vereiste sensorpaden en configureert de CDG VIP als de telemetriebestemming. Zodra deze configuratie is toegepast, wordt een corresponderende CDG-verzamelingstaak gemaakt om de telemetriestatus van het apparaat te volgen.
Tijdens de validatie werd gemeld dat meer dan 100 apparaten telemetrieconfiguraties ontbraken. Het identificeren van deze apparaten via de CNC-gebruikersinterface bleek onpraktisch, omdat de gebruikersinterface alleen filtering per apparaat ondersteunt en niet efficiënt schaalbaar is voor een vloot van meer dan 2.000 apparaten. Hiervoor was een geautomatiseerde methode nodig om te bepalen welke apparaten geen telemetrieconfiguratie hadden en de vereiste KPI-heractivering.
Om dit aan te pakken, hebben we de BNM-tag gebruikt die is toegewezen aan apparaten wanneer een KPI-profiel wordt geactiveerd. Eerst werd een export van alle apparaten met de BNM-tag gegenereerd. Een Python-script werd vervolgens ontwikkeld om te communiceren met de CNC Collection API, met paginatielogica om de volledige set van verzameltaken op te halen (elke API-oproep retourneert maximaal 100 vermeldingen). Het script extraheerde hostnamen uit de verzameltaakgegevens en vergeleek deze met de geëxporteerde apparaatlijst met BNM-tags.
Deze vergelijking leverde de lijst met apparaten op die waren gelabeld, maar niet in de BNM-verzamelingstaak werden weergegeven, wat aangeeft dat de MDT-telemetrieconfiguratie niet was toegepast. Het KPI-profiel werd vervolgens opnieuw ingeschakeld op deze apparaten en validatie bevestigde dat alle bijbehorende verzameltaken correct zijn gemaakt.
Deze automatisering heeft het probleemoplossingsproces aanzienlijk gestroomlijnd, waardoor het team alle getroffen apparaten binnen één dag kon identificeren en verhelpen, een inspanning die niet haalbaar zou zijn geweest door handmatige inspectie.
Tijdens de upgrade van Cisco NSO 5.7.5.1 naar 6.4.1.1 als onderdeel van de Cisco CNC 7.1-overgang werd een opmerkelijke verandering waargenomen in het gedrag van High Availability (HA) vanwege de impliciete inschakeling van het consensusalgoritme in de nieuwere NSO-versie. Dit was niet het standaardgedrag in NSO 5.7.5.1, wat leidde tot een verschuiving in failoverkenmerken na de upgrade. In het bijzonder wanneer het primaire knooppunt werd verwijderd, ging het secundaire knooppunt over naar een alleen-lezen status, waardoor het geen provisioning-activiteiten kon afhandelen. Evenzo, toen het secundaire knooppunt naar beneden ging, verhuisde het primaire knooppunt van een actieve primaire toestand naar een "geen" -toestand, waardoor de continuïteit van de service werd beïnvloed.
Om het verwachte HA-gedrag te herstellen dat was afgestemd op de vorige implementatie, werd het consensusalgoritme expliciet uitgeschakeld in NSO 6.4.1.1. Deze aanpassing zorgde ervoor dat de primaire en secundaire knooppunten hun beoogde rol hervatten tijdens failover-scenario's, waardoor ononderbroken provisioning mogelijk werd en de operationele stabiliteit in overeenstemming met de eerdere versie van de nationale transmissiesysteembeheerder werd gehandhaafd.
Als onderdeel van de overgang van Cisco CNC 4.1 naar 7.1 werd de onderliggende Cisco NSO-versie opgewaardeerd van 5.7.5.1 naar 6.4.1.1. Deze versie-upgrade introduceerde veranderingen in XML-sjabloonstructuren binnen bestaande NSO-pakketten, wat leidde tot fouten in bepaalde regressietestgevallen die afhankelijk waren van het gedrag van oudere sjablonen.
Om deze compatibiliteitsleemten aan te pakken, werden de betrokken NSO-pakkettemplates geanalyseerd en bijgewerkt om ze af te stemmen op het herziene schema en de verwerkingsvereisten van NSO 6.4.1.1. Deze verbeteringen zorgden ervoor dat alle automatiseringsworkflows en servicemodellen bleven functioneren zoals verwacht, waardoor de regressiestabiliteit werd hersteld en de consistentie in de geüpgradede CNC-omgeving werd gehandhaafd.
CNC biedt een kant-en-klaar UI-mechanisme voor het inschakelen van KPI-profielen op apparaten. Hoewel deze aanpak goed werkt voor kleine vloten, wordt deze op grote schaal inefficiënt en onbetrouwbaar. Bij deze implementatie hadden meer dan 2.000 SWR-apparaten KPI-activering nodig en de gebruikersinterface bood geen effectieve manier om apparaten in bulk te selecteren of te verwerken.
Aanvankelijk werd een op tagging gebaseerde benadering geprobeerd: alle SWR-apparaten kregen een SWR-tag toegewezen en KPI-activering werd uitgevoerd met tagselectie in plaats van handmatige apparaatselectie. Het verwerken van meer dan 2.000 apparaten in één workflow leidde echter tot aanzienlijke operationele uitdagingen. De taak duurde meer dan drie uur en werd voltooid met honderden mislukkingen. Hoewel alle apparaten in de opzet waren opgenomen, kregen slechts ~750 met succes KPI-activering en herhaaldelijke pogingen produceerden slechts incrementele vooruitgang. Deze aanpak bleek niet schaalbaar of herhaalbaar. Het toonde aanzienlijke problemen met de lading.
Een tweede uitdaging kwam voort uit problemen met de synchronisatie van NSO-apparaten. Veel storingen gaven aan dat NSO niet was gesynchroniseerd met de bijbehorende apparaten. Poging tot handmatige synchronisatie van bewerkingen gevolgd door KPI-heractivering was onpraktisch en zou uitgebreide inspanning van de operator hebben vereist.
Om deze beperkingen aan te pakken, werd een geautomatiseerde, batchgestuurde workflow ontwikkeld:
De automatisering omvatte ook de mogelijkheid om KPI-profielen uit te schakelen, waardoor volledig levenscyclusbeheer mogelijk werd.
Deze oplossing leverde een gestroomlijnd, deterministisch en zeer schaalbaar proces voor KPI-provisioning. Het elimineerde handmatige interventie, zorgde voor consistente resultaten en bespaarde meerdere dagen operationele inspanning. Dezelfde automatisering bleek van onschatbare waarde toen KPI-profielen moesten worden uitgeschakeld en opnieuw moesten worden ingeschakeld na de ontwerpwijziging van de BNM, waardoor een snelle en foutloze herconfiguratie mogelijk was voor de gehele vloot van 2000 apparaten.
De op RESTCONF gebaseerde northbound API die wordt gebruikt om alarmen en gebeurtenissen van CNC door te sturen, heeft een beperking waardoor deze alleen kan worden aangeroepen met behulp van de admin-account. Pogingen om toegang te krijgen tot de API via serviceaccounts waren niet succesvol, ondanks dat die accounts de vereiste operationele rollen hadden. Als tijdelijke oplossing moest de gebruiker de beheerdersreferenties gebruiken voor het doorsturen van waarschuwingen naar het noordelijke systeem, waardoor een operationele beperking werd ingevoerd en de naleving van de principes voor toegang met de minste privileges werd beperkt.
Gezien de omvang en complexiteit van het CNC-upgrade- en migratieprogramma bleek handmatige uitvoering van operationele taken al snel onhoudbaar. Activiteiten zoals onboarding van apparaten, KPI-provisioning, configuratie-uitlijning, afstemming en telemetrievalidatie omvatten duizenden netwerkelementen en herhaalde workflows die zeer vatbaar zijn voor menselijke fouten wanneer ze handmatig worden uitgevoerd. Automatisering was daarom niet alleen essentieel om de uitvoering te versnellen, maar ook om consistentie te garanderen, operationele risico's te verminderen en leveringsteams vrij te maken van tijdrovende, repetitieve taken.
Door deze processen te systematiseren via gescripte workflows en API-gestuurde bewerkingen, heeft het upgradeprogramma aanzienlijke efficiëntiewinsten behaald. Automatisering maakte snellere taakvoltooiing, verbeterde nauwkeurigheid en voorspelbare resultaten in alle secties mogelijk. De daaruit voortvloeiende besparingen verminderden niet alleen de totale implementatietijdlijn, maar stelden ingenieurs ook in staat zich te richten op validering en ontwerpinspanningen met een hogere waarde in plaats van op routinematige operationele taken.
Sommige automatiseringsactiviteiten werden geïdentificeerd voordat het upgradeproject van start ging, terwijl sommige evolueerden wanneer er uitdagingen ontstonden. Er waren ook een aantal problemen die noodzakelijk waren vanwege de problemen die zich tijdens het project ontwikkelden.
Deze tabel illustreert de gebieden waarop automatisering een aanzienlijke impact had op het hele programma.
| Taakbeschrijving |
Handmatige inspanning (dagen) |
Inspanning voor automatisering (dagen) |
Geschatte besparingen (dagen) |
| ACL-updates (SWR/LWR)(2K+) |
30.0 |
2.0 |
28.0 |
| Apparaatmigratie en aansluiting op CDG(2K+) |
5 |
1.0 |
4.0 |
| BNM KPI-aansluiting op apparaten (2K+) |
4.0 |
1,5 (AVG) |
2.5 |
| serviceconciliatie |
7 |
2.5 |
4.5 |
| Migratie van apparaatgroepen |
4 |
0.5 |
3.5 |
| Apparaten met ernstige bandbreedte isoleren |
3 |
0.5 |
2.5 |
| Problemen met MDT-verzameling oplossen |
3 |
0.5 |
2.5 |
| Totalen |
56 dagen |
8,5 dagen |
47,5 dagen |
CNC ondersteunt geen in-place upgrades en het lift-and-shift-model zorgt voor aanzienlijke operationele complexiteit. Het proces mag nooit worden verondersteld eenvoudig te zijn, vooral wanneer de versiesprong groot is. Onverwachte problemen duiken op in toepassingen, integraties en workflows en vereisen telkens tijd, analyse en zorgvuldige mitigatie. Een grote versiesprong versterkt deze uitdaging en maakt een grondige planning, validatie en gefaseerde uitvoering essentieel. We moesten veel extra tijd besteden aan TAC-gevallen en het oplossen van problemen. Omdat we hier geen buffertijd voor hadden, werd het een uitdaging.
Verwacht aanzienlijke inspanningen op het gebied van CX voor implementatie, integratie, migratie en validatie van end-to-end use-cases. Ga er niet van uit dat workflows die op de oude versie zijn bewezen, zich identiek gedragen op de nieuwe. Veel probleemoplossing en analyse zijn vereist om dingen te laten werken.
Tijdens de upgrade is gebleken dat automatisering geen optioneel gemak is, maar een fundamentele vereiste voor grootschalige CNC-implementaties. We planden al vroeg automatisering voor de nodige kandidaten, maar we kunnen nooit aannemen dat dat genoeg zal zijn. In het midden van het project konden problemen worden vastgesteld in gebruikssituaties waarbij automatisering zeker waarde zou toevoegen, zoals is aangetoond in de eerdere secties.
Tijdens de upgrade is het van cruciaal belang om ervoor te zorgen dat zowel de bestaande als de nieuwe CNC-omgevingen niet tegelijkertijd actief zijn. Hoewel een korte doorweekperiode noodzakelijk is voor de validering, leidt een aanzienlijke verlenging ervan, zoals in dit project met meer dan twee maanden is gebeurd, tot operationele risico's. Aangezien beide CNC's meer dan 15-20 dagen actief waren, leidden closed-loop automatiseringsfuncties zoals Bandwidth On Demand tot inconsistente en conflicterende acties in het netwerk, omdat de automatiseringslogica vanaf twee controllers tegelijk werd uitgevoerd.
Een belangrijke les is het implementeren van duidelijke vangrails tijdens migratie. Maatregelen zoals het administratief uitschakelen van apparaten in de oude CNC, het pauzeren van automatiseringsworkflows of het beperken van telemetrieabonnementen zouden deze conflicten hebben voorkomen. Bij toekomstige upgrades moet expliciet worden gepland dat de controller strikt wordt geïsoleerd om interferentie met twee controllers te voorkomen en voorspelbaar netwerkgedrag te garanderen.
Hoewel Methode van Procedure (MOP)-documenten worden gemaakt voor elke implementatie, integratie en use case, is het onrealistisch om aan te nemen dat een MOP die is gevalideerd in laboratoriumomstandigheden zich identiek gedraagt in de productie. De productieomgeving liet consequent afwijkingen zien, sommige klein, sommige significant, waardoor hiaten werden benadrukt die niet zichtbaar waren tijdens gecontroleerde tests. Real-world netwerken, legacy gedrag, externe afhankelijkheden en live verkeer omstandigheden introduceren variabelen die laboratorium simulaties niet altijd kunnen repliceren.
Het belangrijkste leerpunt is dat teams de uitrol van de productie moeten benaderen met de verwachting dat ze onverwacht gedrag, edge cases en nieuwe ontdekkingen tegenkomen. Flexibiliteit, snel probleemoplossend vermogen en de bereidheid om procedures direct aan te passen zijn essentieel voor een succesvolle uitvoering op grote schaal.
Postproductieproblemen zijn onvermijdelijk, en hoewel de eerste probleemoplossing door het afleveringsteam waardevol is, kan alleen vertrouwen op interne inspanningen leiden tot onnodige vertragingen. Het is verstandig om tegelijkertijd een TAC-zaak te openen als vangnet, met name voor productgerelateerde kwesties of complexe gedragingen die niet onmiddellijk diagnosticeerbaar zijn. TAC-onderzoeken vergen vaak tijd, en het uitstellen van de oprichting van een zaak met meerdere dagen kan leiden tot een aanzienlijk verlies van projectmomentum. Door TAC vroegtijdig in te schakelen, is deskundige hulp beschikbaar wanneer dat nodig is, wordt de identificatie van de onderliggende oorzaak versneld en wordt vermijdbare uitglijders van schema's voorkomen.
Sterke ondersteuning van de CNC Business Unit is zeer waardevol tijdens elk CNC-project. Gebruikers hebben vaak gedetailleerde productinzichten en verduidelijkingen nodig die niet direct beschikbaar zijn met het bezorgteam alleen. Het hebben van een BU-contact dat gedurende de hele service toegankelijk is, versnelt de probleemoplossing, versterkt de technische nauwkeurigheid en helpt bij het opbouwen van meer vertrouwen en een betere gebruikersrelatie.
CNC ondersteunt geen in-place upgrades, waardoor parallelle implementatie onvermijdelijk is. Behandel de nieuwe omgeving als een nieuwe installatie en wijs voldoende computer-, opslag- en beheercapaciteit toe om twee omgevingen tegelijk uit te voeren. Plan validatiefasen, migratiesequencing en cutover-activiteiten ruim van tevoren.
Veel ervaringen onderstrepen het cruciale belang van zorgvuldigheid tijdens de eerste inzet. Het vooraf valideren van alle belangrijke ingangen, met name onveranderlijke configuratieparameters, is essentieel om kostbare herimplementaties en planningseffecten te voorkomen. Het gebruik van gestructureerde controlelijsten voorafgaand aan de implementatie, collegiale toetsingen en validaties tijdens het drooglopen wordt daarom sterk aanbevolen om het risico van onomkeerbare configuratiefouten te minimaliseren.
Door vroeg in het project een interne CALO/testomgeving op te zetten, kunnen teams experimenteren, workflows valideren, versiespecifieke wijzigingen ontdekken en vertrouwen opbouwen voordat ze de productie aanraken. Dit vermindert onbekenden aanzienlijk tijdens de uiteindelijke uitrol.
Bij het ontwerpen van clusters, CDG-distributies en PCE-toewijzingen baseren beslissingen zich op apparaattypen, interfaceschaal, topologiecomplexiteit en verzamelintensiteit in plaats van eenvoudige apparaattellingen. Evenwichtige distributies voorkomen overbelasting en zorgen voor voorspelbare prestaties in het hele cluster.
Stel een automatiseringsachterstand in bij kickoff-taken die repetitief, hoog volume of operationeel kritisch zijn en investeer waar automatisering verplicht is. Valideer en verfijn eerst uw automatisering in een SIT-omgeving, zodat de productie niet afhankelijk is van last-minute oplossingen. Schaal verhoogt de kosten van handmatig werk; gestandaardiseerde automatisering verbetert de kwaliteit, snelheid en controle. Resultaten als herbruikbare assets (gedocumenteerde interfaces, geparametriseerde taken, gedeelde bibliotheken) zodat teams dezelfde automatisering kunnen gebruiken voor toekomstige Crosswork-upgrades en aangrenzende projecten, waardoor herwerk- en onboardingtijd wordt verminderd.
Behandel closed-loop automation tijdens co-existentie als een single-writer-mogelijkheid: slechts één orkestratiepad kan actief probleemoplossing of beleidsgestuurde configuratie aansturen. Gelijktijdige CLA op oude en nieuwe stapels riskeert dubbele triggers en uiteenlopende bedoelingen, die de toestanden van het apparaat kunnen destabiliseren. Plan CLA go-live als een mijlpaal in de late fase, na functionele validatie en definitieve overdracht aan de nieuwe controller.
Grote versiesprongen introduceren nieuwe mogelijkheden terwijl oudere worden afgekeurd of gewijzigd. Het is van groot belang om rekening te houden met deze veranderingen. Vaak wordt de wijziging niet gedocumenteerd in de release-notities van de bijgewerkte versie en verschijnt deze wanneer we het veld bereiken. Het uitvoeren van gestructureerde evaluaties van:
CNC werkt samen met meerdere externe systemen zoals NSO, SSM, CPNR, EPNM, OneFM, Splunk en orkestratiekaders.
Vóór migratie:
Door na de migratie ontdekte integratiefouten ontstaan operationele blinde vlekken.
Exporteer alles voordat u met de migratie begint:
Bij het migreren van duizenden apparaten kunt u migreren in gecontroleerde batches:
Dit voorkomt een hoge belasting op CDG en CNC in een kort tijdsbestek.
Om de out-of-band-uitdaging aan te pakken als onderdeel van de CNC 4.1 tot 7.1-upgrade, werd een gestructureerde verschuiving naar NSO-gestuurde operaties geïmplementeerd. Het operatieteam kreeg gecontroleerde, gebruikersgebaseerde toegang tot de NSO CLI, terwijl directe administratieve toegang tot de CLI van het apparaat werd beperkt om out-of-band veranderingen te voorkomen. Daarnaast werden legacy CLI-scripts systematisch omgezet in op RESTCONF gebaseerde automatisering geïntegreerd met NSO, waardoor mogelijkheden zoals validatie tijdens dry-run en terugdraaien van transacties mogelijk werden. Deze aanpak zorgde ervoor dat alle configuratiewijzigingen centraal werden beheerd, controleerbaar waren en consistent waren met de servicemodellen van NSO, waardoor configuratiedrift effectief werd geëlimineerd en de betrouwbaarheid van de provisioning werd hersteld.
Tijdens kritieke migratievensters:
Dit vermindert ruis en zorgt ervoor dat de netwerkstatus tijdens de upgrade stabiel blijft
De migratie van CNC 4.1 naar CNC 7.1 vormt een belangrijke case study in de complexiteit die inherent is aan grootschalige netwerkorkestratieplatformupgrades. Dit project toont aan dat dergelijke overgangen niet alleen versieverbeteringen zijn, maar uitgebreide transformaties over architecturale lagen, operationele workflows en automatiseringsecosystemen. Het ontbreken van een in-place upgradepad vereiste een volledige implementatie van lift-and-shift, waarbij parallelle milieu-uitdagingen werden geïntroduceerd en zorgvuldige coördinatie tussen CNC, NSO, SR-PCE, CDG en externe systeemintegraties vereist was. Het resulterende operationele landschap onderstreepte het belang van robuuste migratiemethodologieën, uitgebreide validatiecycli en strak gecontroleerde doorvoerprocessen om risico's in productieomgevingen te beperken.
De upgrade onthulde verder de kritische aard van automatisering als een onmisbare pijler voor schaalbaarheid en nauwkeurigheid. Met meer dan 2.000 apparaten, uitgebreide telemetrieconfiguraties, meerdere afhankelijke componenten en dynamische workflows voor automatisering met gesloten kringlopen, benadrukte het project de beperkingen van handmatige procedures in omgevingen van deze omvang. Doelgericht gebouwde automatisering die ACL-updates, apparaatonboarding, KPI-provisioning, telemetrie-opruiming en foutisolatie omvat, bleek essentieel voor het waarborgen van determinisme, het verminderen van menselijke fouten en het bereiken van aanzienlijke efficiëntiewinsten. Het automatiseringskader maakte niet alleen operationele continuïteit tijdens de migratie mogelijk, maar legde ook een duurzame basis voor voortdurende netwerkoptimalisatie.
Even belangrijk was de erkenning dat het productiegedrag duidelijk afwijkt van gecontroleerde laboratoriumomstandigheden. Raamwijzigingen, zoals de overgang van op Tick gebaseerde KPI-logica naar op trackers gebaseerde definities, introduceerden onverwachte gedragsverschuivingen die reengineering, hertesten en iteratieve verfijning vereisten. Op dezelfde manier benadrukten operationele uitdagingen rond closed loop-automatisering, telemetrie-betrouwbaarheid en API-gedrag de noodzaak van adaptieve probleemoplossing, proactieve risicobeoordeling en voortdurende betrokkenheid bij TAC- en Business Unit-materiedeskundigen. Deze factoren illustreren gezamenlijk dat grote versieovergangen zowel technische diepgang als organisatorische gereedheid vereisen. Er zijn nog maar weinig openstaande kwesties die naar verwachting zullen worden opgelost in de volgende kruiswerkversie 7.2.
Over het algemeen toont deze upgrade aan dat succesvolle grootschalige CNC-migraties berusten op vier fundamentele pijlers: rigoureuze validatie vóór implementatie, systematische en veerkrachtige automatisering, sterke cross-functionele coördinatie en een adaptieve operationele houding die anticipeert op divergentie tussen laboratorium- en productieomgevingen. De inzichten die zijn opgedaan met deze betrokkenheid hebben niet alleen bijgedragen aan een stabiele CNC 7.1-implementatie, maar bieden ook een blauwdruk voor toekomstige overgangen, het informeren van best practices, het versterken van architecturale vangrails en het versterken van institutionele kennis voor de daaropvolgende evolutie van uw ecosysteem voor netwerkautomatisering.
| Begrip |
Definitie |
| BNM |
Bericht over bandbreedte. |
| KAT |
Crosswork Active Topology |
| CCA |
Crosswork Change Automation |
| CDG |
Crosswork Data Gateway |
| CHI |
Crosswork Health Insight |
| CNC |
Cisco Crosswork Network Controller |
| COE |
kruiswerkoptimalisatiemotor |
| CPNR |
Cisco Prime Network-registratieserver |
| CWM |
Crosswork Workflow Manager |
| EMF |
Elementbeheerfuncties |
| KPI |
kernprestatie-indicator |
| LWR |
Grote draadloze router |
| MDT |
modelgestuurde telemetrie |
| DWEILEN |
Methode van procedure |
| NBW |
nominale bandbreedte |
| NSO |
Network Services Orchestrator |
| RBW |
opgenomen bandbreedte |
| SR-PCE |
element voor de berekening van het routeringspad van het segment |
| SSM |
Cisco Smart Software Manager |
| SWR |
Kleine draadloze router |
| TAC |
centrum voor technische bijstand |
| TSDN |
Transport Software-Defined Networking |
| ZTP |
Zero Touch Provisioning |
| RR |
routereflector |
| RP |
routeprofiel |
| POI |
verbindingspunt |
| EVPN |
Ethernet Virtual Private Network. |
| Revisie | Publicatiedatum | Opmerkingen |
|---|---|---|
2.0 |
04-May-2026
|
Eerste versie, opmaak, koppen, koppelingen, grammatica, spelling. |
1.0 |
30-Apr-2026
|
Eerste vrijgave |