Pasos para RMA del servidor AIO basado en RCM en la implementación de CNDP

Opciones de descarga

PDF (427.1 KB)
Visualice con Adobe Reader en una variedad de dispositivos
ePub (88.0 KB)
Visualice en diferentes aplicaciones en iPhone, iPad, Android, Sony Reader o Windows Phone
Mobi (Kindle) (81.7 KB)
Visualice en dispositivo Kindle o aplicación Kindle en múltiples dispositivos

Actualizado:20 de julio de 2022

ID del documento:217620

Lenguaje no discriminatorio

El conjunto de documentos para este producto aspira al uso de un lenguaje no discriminatorio. A los fines de esta documentación, "no discriminatorio" se refiere al lenguaje que no implica discriminación por motivos de edad, discapacidad, género, identidad de raza, identidad étnica, orientación sexual, nivel socioeconómico e interseccionalidad. Puede haber excepciones en la documentación debido al lenguaje que se encuentra ya en las interfaces de usuario del software del producto, el lenguaje utilizado en función de la documentación de la RFP o el lenguaje utilizado por un producto de terceros al que se hace referencia. Obtenga más información sobre cómo Cisco utiliza el lenguaje inclusivo.

Acerca de esta traducción

Cisco ha traducido este documento combinando la traducción automática y los recursos humanos a fin de ofrecer a nuestros usuarios en todo el mundo contenido en su propio idioma. Tenga en cuenta que incluso la mejor traducción automática podría no ser tan precisa como la proporcionada por un traductor profesional. Cisco Systems, Inc. no asume ninguna responsabilidad por la precisión de estas traducciones y recomienda remitirse siempre al documento original escrito en inglés (insertar vínculo URL).

Contenido

Introducción

Prerequisites

Requirements

Componentes Utilizados

Conocer el esquema IP del RCM

Procedimiento de backup

Copia de seguridad de la configuración

Procedimiento de comprobación previa

Comprobaciones previas en AIO

Salida de comprobaciones previas de ejemplo

Procedimiento de ejecución

Pasos para ejecutar en el RCM antes de apagar el nodo AIO

Pasos para ejecutar en el nodo de Kubernetes antes de apagar el nodo AIO

Procedimiento de mantenimiento del servidor

Procedimiento de restauración de Kubernetes

Pasos para ejecutar en el nodo de Kubernetes después de encender el nodo AIO

Procedimiento de restauración del RCM

Pasos que se deben ejecutar en los centros de operaciones de CEE y RCM para restaurar la aplicación

Procedimiento de verificación

Introducción

Este documento describe el procedimiento detallado para la autorización de devolución de mercancía (RMA) para el servidor todo en uno (AIO) basado en Redundancy Configuration Manager (RCM) en la implementación de la plataforma de implementación nativa en la nube (CNDP) para cualquier problema de hardware o actividades relacionadas con el mantenimiento.

Prerequisites

Requirements

Cisco recomienda que tenga conocimiento sobre estos temas:

RCM
Kubernetes

Componentes Utilizados

La información de este documento se basa en la versión del RCM: rcm.2021.02.1.i18

La información que contiene este documento se creó a partir de los dispositivos en un ambiente de laboratorio específico. Todos los dispositivos que se utilizan en este documento se pusieron en funcionamiento con una configuración verificada (predeterminada). Si tiene una red en vivo, asegúrese de entender el posible impacto de cualquier comando.

Conocer el esquema IP del RCM

Este documento explica el diseño del RCM que consta de dos nodos AIO con dos RCM Opscenters y un RCM CEE cada uno para el nodo AIO.

En este artículo, el nodo objetivo de RCM AIO para la RMA es AIO-1 (AI0301), que contiene los dos opscenters del RCM en el estado PRIMARY.

POD_NAME	NODE_NAME	IP_ADDRESS	DEVICE_TYPE	OS_TYPE
UP0300	RCE301	10.1.2.9	RCM_CEE_AIO_1	opscenter
UP0300	RCE302	10.1.2.10	RCM_CEE_AIO_2	opscenter
UP0300	AI0301	10.1.2.7	RCM_K8_AIO_1	linux
UP0300	AI0302	10.1.2.8	RCM_K8_AIO_2	linux
UP0300	RM0301	10.1.2.3	RCM1_ACTIVE	opscenter
UP0300	RM0302	10.1.2.4	RCM1_STANDBY	opscenter
UP0300	RM0303	10.1.2.5	RCM2_ACTIVE	opscenter
UP0300	RM0304	10.1.2.6	RCM2_STANDBY	opscenter

Procedimiento de backup

Copia de seguridad de la configuración

Para empezar, recopile la copia de seguridad de la configuración en ejecución de RCM opscenters que se ejecuta en el nodo AIO de destino.

# show running-config | nomore

Recopile la configuración en ejecución de los opscenters RCM CEE que se ejecuta en el nodo AIO de destino.

# show running-config | nomore

Procedimiento de comprobación previa

Comprobaciones previas en AIO

Recopile el resultado del comando de ambos nodos AIO y verifique que todos los grupos de dispositivos se encuentren en el estado En ejecución.

# kubectl get ns
# kubectl get pods -A -o wide

Salida de comprobaciones previas de ejemplo

Observe que los dos RCM opscenters y el RCM CEE opscenter se ejecutan en el nodo AIO-1

cloud-user@up0300-aio-1-master-1:~$ kubectl get ns
NAME              STATUS   AGE
cee-rce301        Active   110d  <--
default           Active   110d
istio-system      Active   110d
kube-node-lease   Active   110d
kube-public       Active   110d
kube-system       Active   110d
nginx-ingress     Active   110d
rcm-rm0301        Active   110d  <--
rcm-rm0303        Active   110d  <--
registry          Active   110d
smi-certs         Active   110d
smi-node-label    Active   110d
smi-vips          Active   110d
cloud-user@up0300-aio-1-master-1:~$

Inicie sesión en el opscenter del RCM de AIO-1 y verifique el estado.

[up0300-aio-1/rm0301] rcm# rcm show-status
message :
{"status":[" Fri Oct 29 07:21:11 UTC 2021 : State is MASTER"]}
[up0300-aio-1/rm0301] rcm#

[up0300-aio-1/rm0303] rcm# rcm show-status
message :
{"status":[" Fri Oct 29 07:22:18 UTC 2021 : State is MASTER"]}
[up0300-aio-1/rm0303] rcm#

Repita los mismos pasos en el nodo AIO-2, donde están presentes los otros dos centros del RCM correspondientes al nodo AIO-1.

cloud-user@up0300-aio-2-master-1:~$ kubectl get ns
NAME              STATUS   AGE
cee-rce302        Active   105d  <--
default           Active   105d
istio-system      Active   105d
kube-node-lease   Active   105d
kube-public       Active   105d
kube-system       Active   105d
nginx-ingress     Active   105d
rcm-rm0302        Active   105d  <--
rcm-rm0304        Active   105d  <--
registry          Active   105d
smi-certs         Active   105d
smi-node-label    Active   105d
smi-vips          Active   105d
cloud-user@up0300-aio-2-master-1:~$

Inicie sesión en el opscenter del RCM del AIO-2 y verifique el estado.

[up0300-aio-2/rm0302] rcm# rcm show-status
message :
{"status":[" Fri Oct 29 09:32:54 UTC 2021 : State is BACKUP"]}
[up0300-aio-2/rm0302] rcm#

[up0300-aio-2/rm0304] rcm# rcm show-status
message :
{"status":[" Fri Oct 29 09:33:51 UTC 2021 : State is BACKUP"]}
[up0300-aio-2/rm0304] rcm#

Procedimiento de ejecución

Pasos para ejecutar en el RCM antes de apagar el nodo AIO

Dado que los dos RCM del AIO-1 son MASTER, puede migrarlos a BACKUP.

a. Para ello, debe ejecutar el comando rcm migrate primary en los RCM activos antes de apagar el servidor AIO-1.

[up0300-aio-1/rm0301] rcm# rcm migrate primary

[up0300-aio-1/rm0303] rcm# rcm migrate primary

b. Verifique que el estado sea ahora BACKUP en AIO-1.

[up0300-aio-1/rm0301] rcm# rcm show-status

[up0300-aio-1/rm0303] rcm# rcm show-status

c. Verifique que el estado sea ahora MASTER en AIO-2 y asegúrese de que sea MASTER.

[up0300-aio-1/rm0302] rcm# rcm show-status

[up0300-aio-1/rm0304] rcm# rcm show-status

d. Apague el RCM tanto en rm0301 como en rm0303.

[up0300-aio-2/rm0301] rcm# config
Entering configuration mode terminal
[up0300-aio-2/rm0301] rcm(config)# system mode shutdown
[up0300-aio-1/rce301] rcm(config)# commit comment <CRNUMBER>

[up0300-aio-2/rm0303] rcm# config
Entering configuration mode terminal
[up0300-aio-2/rm0303] rcm(config)# system mode shutdown
[up0300-aio-1/rce303] rcm(config)# commit comment <CRNUMBER>

2. También tenemos que cerrar las operaciones CEE que se ejecutan en el AIO-1, comandos utilizados.

[up0300-aio-1/rce301] cee# config
Entering configuration mode terminal
[up0300-aio-1/rce301] cee(config)# system mode shutdown
[up0300-aio-1/rce301] cee(config)# commit comment <CRNUMBER>
[up0300-aio-1/rce301] cee(config)# exit

Espere un par de minutos y compruebe que el sistema muestra el 0,0%.

[up0300-aio-1/rce301] cee# show system

3. Verifique que no haya grupos de dispositivos para los espacios de nombres RCM y CEE excepto para los grupos de dispositivos de documentación, smart-agent, ops-center-rcm y ops-center-cee

# kubectl get pods -n rcm-rm0301 -o wide
# kubectl get pods -n rcm-rm0303 -o wide
# kubectl get pods -n cee-rce302 -o wide

Pasos para ejecutar en el nodo de Kubernetes antes de apagar el nodo AIO

Drene el nodo de Kubernetes para que las vainas y los servicios asociados se terminen correctamente. El programador ya no seleccionaría este nodo de Kubernetes ni expulsaría vainas de ese nodo. Drene un solo nodo cada vez.

Inicie sesión en el Administrador de clústeres SMI.

cloud-user@bot-deployer-cm-primary:~$ kubectl get svc -n smi-cm
NAME                                          TYPE        CLUSTER-IP       EXTERNAL-IP      PORT(S)                                                 AGE
cluster-files-offline-smi-cluster-deployer    ClusterIP   10.102.108.177   <none>           8080/TCP                                                78d
iso-host-cluster-files-smi-cluster-deployer   ClusterIP   10.102.255.174   192.168.0.102    80/TCP                                                  78d
iso-host-ops-center-smi-cluster-deployer      ClusterIP   10.102.58.99     192.168.0.100    3001/TCP                                                78d
netconf-ops-center-smi-cluster-deployer       ClusterIP   10.102.108.194   10.244.110.193   3022/TCP,22/TCP                                         78d
ops-center-smi-cluster-deployer               ClusterIP   10.102.156.123   <none>           8008/TCP,2024/TCP,2022/TCP,7681/TCP,3000/TCP,3001/TCP   78d
squid-proxy-node-port                         NodePort    10.102.73.130    <none>           3128:31677/TCP                                          78d
cloud-user@bot-deployer-cm-primary:~$ ssh -p 2024 admin@<Cluster IP of ops-center-smi-cluster-deployer>

      Welcome to the Cisco SMI Cluster Deployer on bot-deployer-cm-primary
      Copyright © 2016-2020, Cisco Systems, Inc.
      All rights reserved.
admin connected from 192.168.0.100 using ssh on ops-center-smi-cluster-deployer-686b66d9cd-nfzx8
[bot-deployer-cm-primary] SMI Cluster Deployer#
[bot-deployer-cm-primary] SMI Cluster Deployer# show clusters
                   LOCK TO 
NAME               VERSION 
----------------------------
cp0100-smf-data  -       
cp0100-smf-ims   -       
cp0200-smf-data  -       
cp0200-smf-ims   -       
up0300-aio-1     -     <--  
up0300-aio-2     -       
up0300-upf-data  -       
up0300-upf-ims   -

Vacíe el nodo maestro:

[bot-deployer-cm-primary] SMI Cluster Deployer# clusters up0300-aio-1 nodes master-1 actions sync drain remove-node true
This would run drain on the node, disrupting pods running on the node.  Are you sure? [no,yes] yes
message accepted

Marque el nodo maestro-1 en modo de mantenimiento:

[bot-deployer-cm-primary] SMI Cluster Deployer# config 
Entering configuration mode terminal
[bot-deployer-cm-primary] SMI Cluster Deployer(config)# clusters up0300-aio-1
[bot-deployer-cm-primary] SMI Cluster Deployer(config-clusters-up0300-aio-1)# nodes master-1
[bot-deployer-cm-primary] SMI Cluster Deployer(config-nodes-master1)# maintenance true 
[bot-deployer-cm-primary] SMI Cluster Deployer(config-nodes-master1)# commit
Commit complete.
[bot-deployer-cm-primary] SMI Cluster Deployer(config-nodes-master1)# end

Ejecute Cluster sync y monitoree los registros para la acción de sincronización:

[bot-deployer-cm-primary] SMI Cluster Deployer# clusters up0300-aio-1 nodes master-1 actions sync
This would run sync.  Are you sure? [no,yes] yes
message accepted
[bot-deployer-cm-primary] SMI Cluster Deployer# clusters up0300-aio-1 nodes master-1 actions sync logs

Ejemplo de salida para los registros de sincronización del clúster:

[installer-master] SMI Cluster Deployer#  clusters kali-stacked nodes cmts-worker1-1 actions sync logs
Example Cluster Name: kali-stacked
Example WorkerNode: cmts-worker1
logs 2020-10-06 20:01:48.023 DEBUG cluster_sync.kali-stacked.cmts-worker1: Cluster name: kali-stacked
2020-10-06 20:01:48.024 DEBUG cluster_sync.kali-stacked.cmts-worker1: Node name: cmts-worker1
2020-10-06 20:01:48.024 DEBUG cluster_sync.kali-stacked.cmts-worker1: debug: false
2020-10-06 20:01:48.024 DEBUG cluster_sync.kali-stacked.cmts-worker1: remove_node: true
PLAY [Check required variables] ************************************************
TASK [Gathering Facts] *********************************************************
Tuesday 06 October 2020  20:01:48 +0000 (0:00:00.017)       0:00:00.017 *******
ok: [master3]
ok: [master1]
ok: [cmts-worker1]
ok: [cmts-worker3]
ok: [cmts-worker2]
ok: [master2]
TASK [Check node_name] *********************************************************
Tuesday 06 October 2020  20:01:50 +0000 (0:00:02.432)       0:00:02.450 *******
skipping: [master1]
skipping: [master2]
skipping: [master3]
skipping: [cmts-worker1]
skipping: [cmts-worker2]
skipping: [cmts-worker3]
PLAY [Wait for ready and ensure uncordoned] ************************************
TASK [Cordon and drain node] ***************************************************
Tuesday 06 October 2020  20:01:51 +0000 (0:00:00.144)       0:00:02.594 *******
skipping: [master1]
skipping: [master2]
skipping: [master3]
skipping: [cmts-worker2]
skipping: [cmts-worker3]
TASK [upgrade/cordon : Cordon/Drain/Delete node] *******************************
Tuesday 06 October 2020  20:01:51 +0000 (0:00:00.205)       0:00:02.800 *******
changed: [cmts-worker1 -> 172.22.18.107]
PLAY RECAP *********************************************************************
cmts-worker1               : ok=2    changed=1    unreachable=0    failed=0    skipped=1    rescued=0    ignored=0  
cmts-worker2               : ok=1    changed=0    unreachable=0    failed=0    skipped=2    rescued=0    ignored=0  
cmts-worker3               : ok=1    changed=0    unreachable=0    failed=0    skipped=2    rescued=0    ignored=0  
master1                    : ok=1    changed=0    unreachable=0    failed=0    skipped=2    rescued=0    ignored=0  
master2                    : ok=1    changed=0    unreachable=0    failed=0    skipped=2    rescued=0    ignored=0  
master3                    : ok=1    changed=0    unreachable=0    failed=0    skipped=2    rescued=0    ignored=0  
Tuesday 06 October 2020  20:02:29 +0000 (0:00:38.679)       0:00:41.479 *******
===============================================================================
2020-10-06 20:02:30.057 DEBUG cluster_sync.kali-stacked.cmts-worker1: Cluster sync successful
2020-10-06 20:02:30.058 DEBUG cluster_sync.kali-stacked.cmts-worker1: Ansible sync done
2020-10-06     0:02:30.058 INFO cluster_sync.kali-stacked.cmts-worker1: _sync finished.  Opening lock

Procedimiento de mantenimiento del servidor

Apague el servidor de CIMC correctamente. Continúe con la actividad de mantenimiento relacionada con el hardware según se define en el MoP de hardware y asegúrese de que todas las comprobaciones de estado se superen después de encender el servidor.

Nota: Este artículo no trata el MoP de actividad de hardware o mantenimiento para el servidor, ya que difieren de la declaración de problemas

Procedimiento de restauración de Kubernetes

Pasos para ejecutar en el nodo de Kubernetes después de encender el nodo AIO

Inicie sesión en el Administrador de clústeres SMI:

cloud-user@bot-deployer-cm-primary:~$ kubectl get svc -n smi-cm
NAME                                          TYPE        CLUSTER-IP       EXTERNAL-IP      PORT(S)                                                 AGE
cluster-files-offline-smi-cluster-deployer    ClusterIP   10.102.108.177   <none>           8080/TCP                                                78d
iso-host-cluster-files-smi-cluster-deployer   ClusterIP   10.102.255.174   192.168.0.102    80/TCP                                                  78d
iso-host-ops-center-smi-cluster-deployer      ClusterIP   10.102.58.99     192.168.0.100    3001/TCP                                                78d
netconf-ops-center-smi-cluster-deployer       ClusterIP   10.102.108.194   10.244.110.193   3022/TCP,22/TCP                                         78d
ops-center-smi-cluster-deployer               ClusterIP   10.102.156.123   <none>           8008/TCP,2024/TCP,2022/TCP,7681/TCP,3000/TCP,3001/TCP   78d
squid-proxy-node-port                         NodePort    10.102.73.130    <none>           3128:31677/TCP                                          78d
cloud-user@bot-deployer-cm-primary:~$ ssh -p 2024 admin@<ClusterIP of ops-center-smi-cluster-deployer>
      Welcome to the Cisco SMI Cluster Deployer on bot-deployer-cm-primary
      Copyright © 2016-2020, Cisco Systems, Inc.
      All rights reserved.
admin connected from 192.168.0.100 using ssh on ops-center-smi-cluster-deployer-686b66d9cd-nfzx8
[bot-deployer-cm-primary] SMI Cluster Deployer#
[bot-deployer-cm-primary] SMI Cluster Deployer# show clusters
                   LOCK TO 
NAME               VERSION 
----------------------------
cp0100-smf-data  -       
cp0100-smf-ims   -       
cp0200-smf-data  -       
cp0200-smf-ims   -       
up0300-aio-1     -     <--  
up0300-aio-2     -       
up0300-upf-data  -       
up0300-upf-ims   -

Desactive el indicador de mantenimiento para que el master-1 se vuelva a agregar al clúster.

[bot-deployer-cm-primary] SMI Cluster Deployer# config
Entering configuration mode terminal
[bot-deployer-cm-primary] SMI Cluster Deployer(config)# clusters up0300-aio-1
[bot-deployer-cm-primary] SMI Cluster Deployer(config-clusters-up0300-aio-1)# nodes master-1
[bot-deployer-cm-primary] SMI Cluster Deployer(config-nodes-master-1)# maintenance false
[bot-deployer-cm-primary] SMI Cluster Deployer(config-nodes-master-1)# commit
Commit complete.
[bot-deployer-cm-primary] SMI Cluster Deployer(config-nodes-master-1)# end

Restaure los grupos de dispositivos y servicios del nodo maestro con la acción de sincronización del clúster.

[bot-deployer-cm-primary] SMI Cluster Deployer# clusters up0100-aio-1 nodes master-1 actions sync run debug true
This would run sync.  Are you sure? [no,yes] yes
message accepted

Supervise los registros para la acción de sincronización.

[bot-deployer-cm-primary] SMI Cluster Deployer# clusters up0100-aio-1 nodes master-1 actions sync logs

Compruebe el estado del clúster del maestro AIO-1.

[bot-deployer-cm-primary] SMI Cluster Deployer# clusters up0300-aio-1 actions k8s cluster-status

Ejemplo de resultado

[installer-] SMI Cluster Deployer# clusters kali-stacked actions k8s cluster-status
pods-desired-count 67
pods-ready-count 67
pods-desired-are-ready true
etcd-healthy true
all-ok true

Procedimiento de restauración del RCM

Pasos que se deben ejecutar en los centros de operaciones de CEE y RCM para restaurar la aplicación

Actualice CEE opscenter y RCM opscenter en modo de ejecución.

Configure el modo de ejecución para rce301.

[up0300-aio-1/rce301] cee# config
Entering configuration mode terminal
[up0300-aio-1/rce301] cee(config)# system mode running
[up0300-aio-1/rce301] cee(config)# commit comment <CRNUMBER>
[up0300-aio-1/rce301] cee(config)# exit

Espere un par de minutos y compruebe que el sistema está al 100%.

[up0300-aio-1/rce301] cee# show system

Configure el modo de ejecución para rm0301.

[up0300-aio-2/rm0301] rcm# config
Entering configuration mode terminal
[up0300-aio-2/rm0301] rcm(config)# system mode running
[up0300-aio-1/rce301] rcm(config)# commit comment <CRNUMBER>

Espere un par de minutos y compruebe que el sistema está al 100%.

[up0300-aio-1/rm0301] cee# show system

Configure el modo de ejecución para rm0303.

[up0300-aio-2/rm0303] rcm# config
Entering configuration mode terminal
[up0300-aio-2/rm0303] rcm(config)# system mode running
[up0300-aio-1/rce303] rcm(config)# commit comment <CRNUMBER>

Espere un par de minutos y compruebe que el sistema está al 100%.

[up0300-aio-1/rm0303] cee# show system

Procedimiento de verificación

Verifique que las vainas estén en los estados UP y Running en ambos nodos AIO con estos comandos.

on AIO nodes:
kubectl get ns
kubectl get pods -A -o wide

on RCM ops-centers:
rcm show-status

Historial de revisiones

Revisión	Fecha de publicación	Comentarios
2.0	20-Jul-2022	Se agregó el comando cluster sync y se alteraron los pasos del procedimiento de Restauración.
1.0	11-Jan-2022	Versión inicial

Con la colaboración de ingenieros de Cisco

Venkata Naga Rajesh Badveti
Cisco TAC Engineer

¿Resultó útil este documento?

Comentarios

Contacte a Cisco

Abrir un caso de soporte
(Requiere un Cisco Service Contract)