Ultra-M UCS 240M4服务器中的主板更换

下载选项

PDF (3.9 MB)
在各种设备上使用 Adobe Reader 查看
ePub (3.7 MB)
在 iPhone、iPad、Android、Sony Reader 或 Windows Phone 上使用各种应用查看
Mobi (Kindle) (2.7 MB)
在 Kindle 设备上查看或在多个设备上使用 Kindle 应用查看

已更新: 2018 年 9 月 10 日

文档 ID:213669

非歧视性语言

此产品的文档集力求使用非歧视性语言。在本文档集中，非歧视性语言是指不隐含针对年龄、残障、性别、种族身份、族群身份、性取向、社会经济地位和交叉性的歧视的语言。由于产品软件的用户界面中使用的硬编码语言、基于 RFP 文档使用的语言或引用的第三方产品使用的语言，文档中可能无法确保完全使用非歧视性语言。深入了解思科如何使用包容性语言。

关于此翻译

思科采用人工翻译与机器翻译相结合的方式将此文档翻译成不同语言，希望全球的用户都能通过各自的语言得到支持性的内容。请注意：即使是最好的机器翻译，其准确度也不及专业翻译人员的水平。 Cisco Systems, Inc. 对于翻译的准确性不承担任何责任，并建议您总是参考英文原始文档（已提供链接）。

简介

本文档介绍在Ultra-M设置中更换有故障的服务器主板所需的步骤。

此过程适用于使用NEWTON版本的Openstack环境，其中ESC不管理CPAR，并且CPAR直接安装在Openstack上部署的VM上。

背景信息

Ultra-M是经过预先打包和验证的虚拟化移动数据包核心解决方案，旨在简化VNF的部署。OpenStack是适用于Ultra-M的虚拟化基础设施管理器(VIM)，由以下节点类型组成：

计算
对象存储磁盘 — 计算（OSD — 计算）
控制器
OpenStack平台 — 导向器(OSPD)

Ultra-M的高级体系结构和涉及的组件如下图所示：

本文档面向熟悉Cisco Ultra-M平台的思科人员，详细介绍在OpenStack和Redhat操作系统上需要执行的步骤。

注意：Ultra M 5.1.x版本用于定义本文档中的过程。

缩写

MOP	程序方法
OSD	对象存储磁盘
OSPD	OpenStack平台导向器
HDD	硬盘驱动器
SSD	固态驱动器
VIM	虚拟基础设施管理器
VM	虚拟机
EM	元素管理器
UAS	超自动化服务
UUID	通用唯一ID标识符

MoP的工作流程

Ultra-M设置中的主板更换

在Ultra-M设置中，在以下服务器类型中可能需要更换主板：计算、OSD计算和控制器。

注意：更换主板后，将更换安装有openstack的引导盘。因此，不需要将节点重新添加到超云中。在更换活动后，一旦服务器通电，它将自行重新注册到重叠云堆栈。

先决条件

在替换计算节点之前，必须检查Red Hat OpenStack平台环境的当前状态。建议您检查当前状态，以避免当启用计算更换过程时并发症。通过这种替换流程可以实现这一点。

在进行恢复时，Cisco建议使用以下步骤备份OSPD数据库：

[root@director ~]# mysqldump --opt --all-databases > /root/undercloud-all-databases.sql
[root@director ~]# tar --xattrs -czf undercloud-backup-`date +%F`.tar.gz /root/undercloud-all-databases.sql 
/etc/my.cnf.d/server.cnf /var/lib/glance/images /srv/node /home/stack
tar: Removing leading `/' from member names

此过程可确保在不影响任何实例可用性的情况下替换节点。

注意：确保您具有实例的快照，以便在需要时恢复虚拟机。按照以下步骤了解如何拍摄虚拟机快照。

计算节点中的主板更换

在练习之前，托管在计算节点中的VM会正常关闭。更换主板后，VM会恢复回来。

确定托管在计算节点中的VM

[stack@al03-pod2-ospd ~]$ nova list --field name,host

+--------------------------------------+---------------------------+----------------------------------+

| ID                                   | Name                      | Host                             |

+--------------------------------------+---------------------------+----------------------------------+

| 46b4b9eb-a1a6-425d-b886-a0ba760e6114 | AAA-CPAR-testing-instance | pod2-stack-compute-4.localdomain |

| 3bc14173-876b-4d56-88e7-b890d67a4122 | aaa2-21                   | pod2-stack-compute-3.localdomain |

| f404f6ad-34c8-4a5f-a757-14c8ed7fa30e | aaa21june                 | pod2-stack-compute-3.localdomain |

+--------------------------------------+---------------------------+----------------------------------+

注意：在此显示的输出中，第一列对应于通用唯一ID标识符(UUID)，第二列是VM名称，第三列是存在VM的主机名。此输出的参数在后续部分中使用。

备份：快照流程

步骤1. CPAR应用关闭。

步骤1.打开连接到网络的任何ssh客户端并连接到CPAR实例。

切勿同时关闭一个站点内的所有4个AAA实例，逐个关闭。

Step 2.使用以下命令关闭CPAR应用程序：

/opt/CSCOar/bin/arserver stop

A Message stating “Cisco Prime Access Registrar Server Agent shutdown complete.” Should show up

如果用户使CLI会话保持打开状态，则arserver stop命令将无法运行，并显示以下消息：

ERROR:    You can not shut down Cisco Prime Access Registrar while the

          CLI is being used.   Current list of running

          CLI with process id is:

 2903 /opt/CSCOar/bin/aregcmd –s

在本例中，需要终止突出显示的进程ID 2903，然后才能停止CPAR。如果出现这种情况，请使用以下命令终止此过程：

kill -9 *process_id*

然后重复步骤1。

第 3 步：发出以下命令，验证CPAR应用确实已关闭：

/opt/CSCOar/bin/arstatus

应显示以下消息：

Cisco Prime Access Registrar Server Agent not running
Cisco Prime Access Registrar GUI not running

VM快照任务

步骤1:输入与当前正在处理的站点（城市）对应的Horizon GUI网站。

访问Horizon时，出现以下屏幕：

Step 2.导航到项目>实例，如图所示。

如果使用的用户是CPAR，则此菜单中仅显示4个AAA实例。

第 3 步：每次仅关闭一个实例，请重复本文档中的整个过程。

要关闭VM，请导航到操作>关闭实例，并确认您的选择。

第 4 步：通过检查Status = Shutoff和Power State = Shut Down验证实例确实已关闭。

此步骤结束CPAR关闭过程。

VM快照

一旦CPAR VM关闭，可以并行拍摄快照，因为它们属于独立计算。

将并行创建四个QCOW2文件。

拍摄每个AAA实例的快照（25分钟–1小时）（使用qcow映像作为源的实例为25分钟，使用原始映像作为源的实例为1小时）

步骤1.登录POD的Openstack的地平线GUI.

步骤2.登录后，进入顶部菜单上的Project > Compute > Instances部分并查找AAA实例。

步骤3.单击Create Snapshot按钮继续快照创建（需要在相应的AAA实例上执行该操作）。

步骤4.运行快照后，导航到IMAGES（映像）菜单并确认所有操作都已完成，并且报告没有问题。

步骤5.下一步是以QCOW2格式下载快照，并将其传输到远程实体，以防OSPD在此过程中丢失。为此，请使用此命令glance image-list在OSPD级别标识快照。

[root@elospd01 stack]# glance image-list

+--------------------------------------+---------------------------+

| ID                                   | Name                      |             +--------------------------------------+---------------------------+

| 80f083cb-66f9-4fcf-8b8a-7d8965e47b1d | AAA-Temporary             |             | 22f8536b-3f3c-4bcc-ae1a-8f2ab0d8b950 | ELP1 cluman 10_09_2017    |

| 70ef5911-208e-4cac-93e2-6fe9033db560 | ELP2 cluman 10_09_2017    |

| e0b57fc9-e5c3-4b51-8b94-56cbccdf5401 | ESC-image                 |

| 92dfe18c-df35-4aa9-8c52-9c663d3f839b | lgnaaa01-sept102017       |

| 1461226b-4362-428b-bc90-0a98cbf33500 | tmobile-pcrf-13.1.1.iso   |

| 98275e15-37cf-4681-9bcc-d6ba18947d7b | tmobile-pcrf-13.1.1.qcow2 |

+--------------------------------------+---------------------------+

步骤6.确定要下载的快照后（本例中为以上绿色标记的快照），使用glance image-download命令以QCOW2格式下载该快照，如下所示。

[root@elospd01 stack]# glance image-download 92dfe18c-df35-4aa9-8c52-9c663d3f839b --file /tmp/AAA-CPAR-LGNoct192017.qcow2 &

“&”将进程发送到后台。完成此操作需要一些时间，完成后，映像可以位于/tmp目录。
将进程发送到后台时，如果连接丢失，则进程也会停止。
执行命令“disown -h”，以便在SSH连接丢失的情况下，该进程仍在OSPD上运行并完成。

步骤7.下载过程完成后，需要执行压缩过程，因为操作系统处理的过程、任务和临时文件可能使快照填满0。用于文件压缩的命令是virt-sparsify。

[root@elospd01 stack]# virt-sparsify AAA-CPAR-LGNoct192017.qcow2 AAA-CPAR-LGNoct192017_compressed.qcow2

此过程需要一些时间（大约10-15分钟）。完成后，生成的文件即为下一步中指定的需要传输到外部实体的文件。

需要验证文件完整性，要达到此目的，请执行下一个命令，并在输出结束时查找“corrupted”属性。

[root@wsospd01 tmp]# qemu-img info AAA-CPAR-LGNoct192017_compressed.qcow2
image: AAA-CPAR-LGNoct192017_compressed.qcow2
file format: qcow2
virtual size: 150G (161061273600 bytes)
disk size: 18G
cluster_size: 65536
Format specific information:

    compat: 1.1

    lazy refcounts: false

    refcount bits: 16

    corrupt: false

为了避免丢失OSPD的问题，需要将最近在QCOW2格式上创建的快照转移到外部实体。在开始文件传输之前，我们必须检查目标是否有足够的可用磁盘空间，使用命令“df -kh”验证内存空间。我们的建议是通过使用SFTP“sftproot@x.x.x.x”将其临时传输到其他站点的OSPD，其中x.x.x.x是远程OSPD的IP。为了加快传输速度，可将目标发送到多个OSPD。同样，我们可以使用以下命令scp *name_of_the_file*.qcow2 root@ x.x.x.x:/tmp（其中x.x.x.x是远程OSPD的IP）将文件传输到另一个OSPD。

正常断电

关闭节点电源

要关闭实例电源，请执行以下操作：nova stop <INSTANCE_NAME>
现在您将看到实例名称的状态为shutoff。

[stack@director ~]$ nova stop  aaa2-21

Request to stop server aaa2-21 has been accepted.

[stack@director ~]$ nova list

+--------------------------------------+---------------------------+---------+------------+-------------+------------------------------------------------------------------------------------------------------------+

| ID                                   | Name                      | Status  | Task State | Power State | Networks                                                                                                   |

+--------------------------------------+---------------------------+---------+------------+-------------+------------------------------------------------------------------------------------------------------------+

| 46b4b9eb-a1a6-425d-b886-a0ba760e6114 | AAA-CPAR-testing-instance | ACTIVE  | -          | Running     | tb1-mgmt=172.16.181.14, 10.225.247.233; radius-routable1=10.160.132.245; diameter-routable1=10.160.132.231 |

| 3bc14173-876b-4d56-88e7-b890d67a4122 | aaa2-21                   | SHUTOFF | -          | Shutdown    | diameter-routable1=10.160.132.230; radius-routable1=10.160.132.248; tb1-mgmt=172.16.181.7, 10.225.247.234  |

| f404f6ad-34c8-4a5f-a757-14c8ed7fa30e | aaa21june                 | ACTIVE  | -          | Running     | diameter-routable1=10.160.132.233; radius-routable1=10.160.132.244; tb1-mgmt=172.16.181.10                 |

+--------------------------------------+---------------------------+---------+------------+-------------+------------------------------------------------------------------------------------------------------------+

更换主板

在UCS C240 M4服务器中更换主板的步骤可以参阅Cisco UCS C240 M4服务器安装和维修指南

使用CIMC IP登录到服务器。
如果固件与之前使用的推荐版本不一致，请执行BIOS升级。BIOS升级步骤如下：Cisco UCS C系列机架式服务器BIOS升级指南

恢复VM

通过快照恢复实例

恢复过程

可以使用之前步骤中拍摄的快照重新部署之前的实例。

第1步[可选]。如果没有之前的VMsnapshot可用，则连接到发送备份的OSPD节点，并将备份转换回其原始OSPD节点。使用“sftproot@x.x.x.x”，其中x.x.x.x是原始OSPD的IP。将快照文件保存在/tmp目录中。

Step 2.连接到重新部署实例的OSPD节点。

使用以下命令获取环境变量：

# source /home/stack/pod1-stackrc-Core-CPAR

第 3 步：要将快照用作图像，必须将其按原样上载到水平面。使用下一个命令执行此操作。

#glance image-create -- AAA-CPAR-Date-snapshot.qcow2 --container-format bare --disk-format qcow2 --name AAA-CPAR-Date-snapshot

这一过程已经初露端倪。

第 4 步：在Horizon中，导航到Project > Instances，然后单击Launch Instance。

第 5 步：填写实例名称并选择可用性区域。

第六步：在源选项卡中，选择要创建实例的映像。在Select Boot Source（选择引导源）菜单中，选择image（映像），此处显示映像列表，选择之前上传的映像，然后单击+sign。

第 7 步：在Flavor选项卡中，点击+符号时选择AAA风格。

第8步：最后，导航到network选项卡，并在点击+sign时选择实例所需的网络。在本例中，选择diameter-soutable1、radius-routable1和tb1-mgmt。

步骤9.最后，点击Launch instance创建实例。可以在Horizon中监控进度：

几分钟后，该实例即完全部署并可供使用。

创建并分配浮动IP地址

浮动IP地址是可路由的地址，这意味着它可从Ultra M/Openstack架构的外部访问，并且能够与网络中的其他节点通信。

步骤1.在Horizon顶部菜单中，导航到Admin > Floating IPs。

步骤2.单击AllocateIP to Project按钮。

步骤3.在Allocate Floating IP窗口中选择新的浮动IP所属的Poolfrom、Projectwhere it to be assigned和newFloating IP地址本身。

例如：

第4步：点击AllocateFloating IPbutton。

步骤5.在“展望期”顶部菜单中，导航至“项目”>“实例”。

第六步：在Actioncolumn中，单击Create Snapshotbutton按钮中向下的箭头，应显示菜单。选择Associate Floating IPoption。

步骤7.选择要在IP地址字段中使用的相应浮动IP地址，然后从要在要关联的端口中分配此浮动IP的新实例中选择相应的管理接口(eth0)。请参考下一幅图像作为此过程的示例。

第8步：最后，单击onAssociatebutton。

启用SSH

步骤1:在“水平”顶部菜单中，导航到“项目”>“实例”。

Step 2.点击在Cunch a new instance部分中创建的实例/VM的名称。

步骤3.单击Console选项卡。这将显示VM的命令行界面。

第 4 步：显示CLI后，输入正确的登录凭证：

用户名：root

密码：cisco123

第 5 步：在CLI中输入命令dvi /etc/ssh/sshd_configto edit ssh configuration。

步骤6.打开ssh配置文件后，按To编辑文件。然后查找下面显示的部分，将fromPasswordAuthentication notoPasswordAuthentication yes的第一行更改。

第 7 步：按ESC并输入：wq!以保存sshd_config文件更改。

步骤8.执行commandservice sshd restart。

步骤9.为了测试已正确应用SSH配置更改，请打开任何SSH客户端，并尝试使用分配给实例的浮动IP（即10.145.0.249）和userroot建立远程安全连接。

建立SSH会话

使用安装应用程序的相应VM/服务器的IP地址打开SSH会话。

CPAR实例开始

一旦完成练习，并且可以在关闭的站点中重新建立CPAR服务，请按照以下步骤操作。

要重新登录到Horizon，请导航到项目>实例>启动实例。
验证实例的状态为活动且电源状态为正在运行：

活动后运行状况检查

步骤1.在操作系统级别执行命令/opt/CSCOar/bin/arstatus。

[root@aaa04 ~]# /opt/CSCOar/bin/arstatus
Cisco Prime AR RADIUS server running       (pid: 24834)
Cisco Prime AR Server Agent running        (pid: 24821)
Cisco Prime AR MCD lock manager running    (pid: 24824)
Cisco Prime AR MCD server running          (pid: 24833)
Cisco Prime AR GUI running                 (pid: 24836)
SNMP Master Agent running                (pid: 24835)
[root@wscaaa04 ~]#

步骤2.在操作系统级别执行命令/opt/CSCOar/bin/aregcmd，并输入管理员凭据。验证CPAR Health（CPAR运行状况）为10（满分10），并退出CPAR CLI。

[root@aaa02 logs]# /opt/CSCOar/bin/aregcmd
Cisco Prime Access Registrar 7.3.0.1 Configuration Utility
Copyright (C) 1995-2017 by Cisco Systems, Inc.  All rights reserved.
Cluster:
User: admin
Passphrase:
Logging in to localhost
[ //localhost ]

    LicenseInfo = PAR-NG-TPS 7.2(100TPS:)

                  PAR-ADD-TPS 7.2(2000TPS:)

                  PAR-RDDR-TRX 7.2()

                  PAR-HSS 7.2()

    Radius/

    Administrators/
Server 'Radius' is Running, its health is 10 out of 10
--> exit

第 3 步：运行命令netstat | grep diameter并验证所有DRA连接均已建立。

下面提到的输出适用于预期存在Diameter链接的环境。如果显示的链路较少，则表示需要分析与DRA的断开连接。

[root@aa02 logs]# netstat | grep diameter
tcp         0            0 aaa02.aaa.epc.:77 mp1.dra01.d:diameter ESTABLISHED
tcp         0            0 aaa02.aaa.epc.:36 tsa6.dra01:diameter ESTABLISHED
tcp         0            0 aaa02.aaa.epc.:47 mp2.dra01.d:diameter ESTABLISHED
tcp         0            0 aaa02.aaa.epc.:07 tsa5.dra01:diameter ESTABLISHED
tcp         0            0 aaa02.aaa.epc.:08 np2.dra01.d:diameter ESTABLISHED

步骤4.检查TPS日志是否显示CPAR正在处理的请求。突出显示的值代表了TPS，这些是需要注意的值。

TPS的值不应超过1500。

[root@wscaaa04 ~]# tail -f /opt/CSCOar/logs/tps-11-21-2017.csv
11-21-2017,23:57:35,263,0
11-21-2017,23:57:50,237,0
11-21-2017,23:58:05,237,0
11-21-2017,23:58:20,257,0
11-21-2017,23:58:35,254,0
11-21-2017,23:58:50,248,0
11-21-2017,23:59:05,272,0
11-21-2017,23:59:20,243,0
11-21-2017,23:59:35,244,0
11-21-2017,23:59:50,233,0

第 5 步：在name_radius_1_log中查找任何“error”或“alarm”消息

[root@aaa02 logs]# grep -E "error|alarm" name_radius_1_log

步骤 6 发出以下命令，验证CPAR进程使用的内存量：

顶部 | grep radius

[root@sfraaa02 ~]# top | grep radius
27008 root      20   0 20.228g 2.413g  11408 S 128.3  7.7   1165:41 radius

此突出显示的值应低于：7Gb，这是应用级别允许的最大值。

OSD计算节点中的主板更换

在练习之前，托管在计算节点中的VM会正常关闭，CEPH将进入维护模式。更换主板后，VM恢复回来，CEPH从维护模式中移出。

确定Osd-Compute节点中托管的虚拟机

确定OSD计算服务器上托管的虚拟机。

[stack@director ~]$ nova list --field name,host | grep osd-compute-0
| 46b4b9eb-a1a6-425d-b886-a0ba760e6114 | AAA-CPAR-testing-instance | pod2-stack-compute-4.localdomain |

备份：快照流程

CPAR应用关闭

步骤1.打开连接到网络的任何ssh客户端并连接到CPAR实例。

切勿同时关闭一个站点内的所有4个AAA实例，逐个关闭。

Step 2.使用以下命令关闭CPAR应用程序：

/opt/CSCOar/bin/arserver stop

A Message stating “Cisco Prime Access Registrar Server Agent shutdown complete.” Should show up

注意：如果用户使CLI会话保持打开状态，则arserver stop命令将无法运行，并显示以下消息：

ERROR:    You can not shut down Cisco Prime Access Registrar while the

          CLI is being used.   Current list of running

          CLI with process id is:

 2903 /opt/CSCOar/bin/aregcmd –s

在本例中，需要终止突出显示的进程ID 2903，然后才能停止CPAR。如果出现这种情况，请使用以下命令终止此过程：

kill -9 *process_id*

然后重复步骤1。

第 3 步：使用以下命令验证CPAR应用确实已关闭：

/opt/CSCOar/bin/arstatus

系统将显示以下消息：

Cisco Prime Access Registrar Server Agent not running
Cisco Prime Access Registrar GUI not running

VM快照任务

步骤1:输入与当前正在处理的站点（城市）对应的Horizon GUI网站。

访问水平线时，观察到的图像如下：

步骤2.导航到项目>实例，如图所示。

如果使用的用户是CPAR，则此菜单中仅显示4个AAA实例。

第 3 步：每次仅关闭一个实例，请重复本文档中的整个过程。

要关闭VM，请导航到操作>关闭实例，并确认您的选择。

第 4 步：通过检查Status = Shutoff和Power State = Shut Down验证实例确实已关闭。

此步骤结束CPAR关闭过程。

VM快照

一旦CPAR VM关闭，可以并行拍摄快照，因为它们属于独立计算。

四个QCOW2文件并行创建。

拍摄每个AAA实例的快照（25分钟–1小时）（使用qcow映像作为源的实例为25分钟，使用原始映像作为源的实例为1小时）

步骤1.登录POD的Openstack的HorizonGUI。

步骤2.登录后，进入顶部菜单上的Project > Compute > Instances部分并查找AAA实例。

步骤3.单击Create Snapshot按钮继续快照创建（需要在相应的AAA实例上执行该操作）。

步骤4.运行快照后，导航到IMAGES（映像）菜单并确认所有操作都已完成，并且报告没有问题。

步骤5.下一步是以QCOW2格式下载快照，并将其传输到远程实体，以防OSPD在此过程中丢失。为此，请使用此命令glance image-list在OSPD级别标识快照。

[root@elospd01 stack]# glance image-list

+--------------------------------------+---------------------------+

| ID                                   | Name                      |             +--------------------------------------+---------------------------+

| 80f083cb-66f9-4fcf-8b8a-7d8965e47b1d | AAA-Temporary             |             | 22f8536b-3f3c-4bcc-ae1a-8f2ab0d8b950 | ELP1 cluman 10_09_2017    |

| 70ef5911-208e-4cac-93e2-6fe9033db560 | ELP2 cluman 10_09_2017    |

| e0b57fc9-e5c3-4b51-8b94-56cbccdf5401 | ESC-image                 |

| 92dfe18c-df35-4aa9-8c52-9c663d3f839b | lgnaaa01-sept102017       |

| 1461226b-4362-428b-bc90-0a98cbf33500 | tmobile-pcrf-13.1.1.iso   |

| 98275e15-37cf-4681-9bcc-d6ba18947d7b | tmobile-pcrf-13.1.1.qcow2 |

+--------------------------------------+---------------------------+

步骤6.确定要下载的快照后（本例中为以上绿色标记的快照），现在使用此命令glance image-download以QCOW2格式下载该快照，如下所示。

[root@elospd01 stack]# glance image-download 92dfe18c-df35-4aa9-8c52-9c663d3f839b --file /tmp/AAA-CPAR-LGNoct192017.qcow2 &

“&”将进程发送到后台。完成此操作需要一些时间，完成后，映像可以位于/tmp目录。
将进程发送到后台时，如果连接丢失，则进程也会停止。
执行命令“disown -h”，以便在SSH连接丢失的情况下，该进程仍在OSPD上运行并完成。

7.下载过程完成后，需要执行压缩过程，因为操作系统处理的过程、任务和临时文件可能用零填充快照。用于文件压缩的命令是virt-sparsify。

[root@elospd01 stack]# virt-sparsify AAA-CPAR-LGNoct192017.qcow2 AAA-CPAR-LGNoct192017_compressed.qcow2

此过程需要一些时间（大约10-15分钟）。完成后，生成的文件即为下一步中指定的需要传输到外部实体的文件。

需要验证文件完整性，为了做到这一点，请运行下一个命令，并在输出末尾查找“corrupted”属性。

[root@wsospd01 tmp]# qemu-img info AAA-CPAR-LGNoct192017_compressed.qcow2
image: AAA-CPAR-LGNoct192017_compressed.qcow2
file format: qcow2
virtual size: 150G (161061273600 bytes)
disk size: 18G
cluster_size: 65536
Format specific information:

    compat: 1.1

    lazy refcounts: false

    refcount bits: 16

    corrupt: false

将CEPH置于维护模式

步骤1.验证服务器中的ceph osd树状态为up

[heat-admin@pod2-stack-osd-compute-0 ~]$ sudo ceph osd tree
ID WEIGHT TYPE NAME UP/DOWN REWEIGHT PRIMARY-AFFINITY 
-1 13.07996 root default 
-2 4.35999 host pod2-stack-osd-compute-0 
 0 1.09000 osd.0 up 1.00000 1.00000 
 3 1.09000 osd.3 up 1.00000 1.00000 
 6 1.09000 osd.6 up 1.00000 1.00000 
 9 1.09000 osd.9 up 1.00000 1.00000 
-3 4.35999 host pod2-stack-osd-compute-1 
 1 1.09000 osd.1 up 1.00000 1.00000 
 4 1.09000 osd.4 up 1.00000 1.00000 
 7 1.09000 osd.7 up 1.00000 1.00000 
10 1.09000 osd.10 up 1.00000 1.00000 
-4 4.35999 host pod2-stack-osd-compute-2 
 2 1.09000 osd.2 up 1.00000 1.00000 
 5 1.09000 osd.5 up 1.00000 1.00000 
 8 1.09000 osd.8 up 1.00000 1.00000 
11 1.09000 osd.11 up 1.00000 1.00000

步骤2.登录OSD计算节点并将CEPH置于维护模式。

[root@pod2-stack-osd-compute-0 ~]# sudo ceph osd set norebalance
[root@pod2-stack-osd-compute-0 ~]# sudo ceph osd set noout

[root@pod2-stack-osd-compute-0 ~]# sudo ceph status

 cluster eb2bb192-b1c9-11e6-9205-525400330666
 health HEALTH_WARN
 noout,norebalance,sortbitwise,require_jewel_osds flag(s) set
 monmap e1: 3 mons at {pod2-stack-controller-0=11.118.0.10:6789/0,pod2-stack-controller-1=11.118.0.11:6789/0,pod2-stack-controller-2=11.118.0.12:6789/0}
 election epoch 10, quorum 0,1,2 pod2-stack-controller-0,pod2-stack-controller-1,pod2-stack-controller-2
 osdmap e79: 12 osds: 12 up, 12 in
 flags noout,norebalance,sortbitwise,require_jewel_osds
 pgmap v22844323: 704 pgs, 6 pools, 804 GB data, 423 kobjects
 2404 GB used, 10989 GB / 13393 GB avail
 704 active+clean
 client io 3858 kB/s wr, 0 op/s rd, 546 op/s wr

注意：删除CEPH后，VNF HD RAID进入“已降级”状态，但hd-disk仍然必须可访问

正常断电

关闭节点电源

要关闭实例电源，请执行以下操作：nova stop <INSTANCE_NAME>
您会看到实例名称的状态为shutoff。

[stack@director ~]$ nova stop  aaa2-21

Request to stop server aaa2-21 has been accepted.

[stack@director ~]$ nova list

+--------------------------------------+---------------------------+---------+------------+-------------+------------------------------------------------------------------------------------------------------------+

| ID                                   | Name                      | Status  | Task State | Power State | Networks                                                                                                   |

+--------------------------------------+---------------------------+---------+------------+-------------+------------------------------------------------------------------------------------------------------------+

| 46b4b9eb-a1a6-425d-b886-a0ba760e6114 | AAA-CPAR-testing-instance | ACTIVE  | -          | Running     | tb1-mgmt=172.16.181.14, 10.225.247.233; radius-routable1=10.160.132.245; diameter-routable1=10.160.132.231 |

| 3bc14173-876b-4d56-88e7-b890d67a4122 | aaa2-21                   | SHUTOFF | -          | Shutdown    | diameter-routable1=10.160.132.230; radius-routable1=10.160.132.248; tb1-mgmt=172.16.181.7, 10.225.247.234  |

| f404f6ad-34c8-4a5f-a757-14c8ed7fa30e | aaa21june                 | ACTIVE  | -          | Running     | diameter-routable1=10.160.132.233; radius-routable1=10.160.132.244; tb1-mgmt=172.16.181.10                 |

+--------------------------------------+---------------------------+---------+------------+-------------+------------------------------------------------------------------------------------------------------------+

更换主板

在UCS C240 M4服务器中更换主板的步骤可以参阅Cisco UCS C240 M4服务器安装和维修指南

使用CIMC IP登录到服务器。
如果固件与之前使用的推荐版本不一致，请执行BIOS升级。BIOS升级步骤如下：Cisco UCS C系列机架式服务器BIOS升级指南

将CEPH移出维护模式

登录OSD计算节点并将CEPH从维护模式中移除。

[root@pod2-stack-osd-compute-0 ~]# sudo ceph osd unset norebalance
[root@pod2-stack-osd-compute-0 ~]# sudo ceph osd unset noout

[root@pod2-stack-osd-compute-0 ~]# sudo ceph status

 cluster eb2bb192-b1c9-11e6-9205-525400330666
 health HEALTH_OK
 monmap e1: 3 mons at {pod2-stack-controller-0=11.118.0.10:6789/0,pod2-stack-controller-1=11.118.0.11:6789/0,pod2-stack-controller-2=11.118.0.12:6789/0}
 election epoch 10, quorum 0,1,2 pod2-stack-controller-0,pod2-stack-controller-1,pod2-stack-controller-2
 osdmap e81: 12 osds: 12 up, 12 in
 flags sortbitwise,require_jewel_osds
 pgmap v22844355: 704 pgs, 6 pools, 804 GB data, 423 kobjects
 2404 GB used, 10989 GB / 13393 GB avail
 704 active+clean
 client io 3658 kB/s wr, 0 op/s rd, 502 op/s wr

恢复VM

通过快照恢复实例

恢复过程：

可以使用之前步骤中拍摄的快照重新部署之前的实例。

Step 2.连接到重新部署实例的OSPD节点。

使用以下命令获取环境变量：

# source /home/stack/pod1-stackrc-Core-CPAR

第 3 步：要将快照用作图像，必须将其按原样上载到水平面。使用下一个命令执行此操作。

#glance image-create -- AAA-CPAR-Date-snapshot.qcow2 --container-format bare --disk-format qcow2 --name AAA-CPAR-Date-snapshot

这一过程已经初露端倪。

第 4 步：在Horizon中，导航到Project > Instances，然后单击Launch Instance。

第 5 步：填写实例名称并选择可用性区域。

第六步：在“源”选项卡中，选择要创建实例的图像。在Select Boot Source（选择引导源）菜单中，选择image（映像），此处显示映像列表，选择之前上传的映像，然后单击+sign。

第 7 步：在Flavor选项卡中，点击+符号时选择AAA调味。

第8步：最后，导航到network选项卡，然后在点击+号时选择实例所需的网络。在本例中，选择diameter-soutable1、radius-routable1和tb1-mgmt。

步骤9.最后，点击Launch instance创建实例。可以在Horizon中监控进度：

几分钟后，该实例即完全部署并可供使用。

创建并分配浮动IP地址

浮动IP地址是可路由的地址，这意味着它可从Ultra M/Openstack架构的外部访问，并且能够与网络中的其他节点通信。

步骤1.在Horizon顶部菜单中，导航到Admin > Floating IPs。

Step 2.单击AllocateIP to Project按钮。

步骤3.在Allocate Floating IP窗口中选择新的浮动IP所属的Poolfrom、Projectwhere it to be assigned和newFloating IP地址本身。

例如：

第4步：点击AllocateFloating IPbutton。

步骤5.在“展望期”顶部菜单中，导航至“项目”>“实例”。

步骤6.在Actioncolumn中，单击Create Snapshotbutton（创建快照）按钮中向下指向的箭头，此时应显示菜单。选择Associate Floating IPoption。

步骤8.最后，单击Associatebutton。

启用SSH

步骤1:在“水平”顶部菜单中，导航到“项目”>“实例”。

Step 2.点击在Cunch a new instance部分中创建的实例/VM的名称。

第 3 步：单击Console选项卡。这将显示VM的CLI。

步骤4.显示CLI后，输入正确的登录凭证：

用户名：root

密码：cisco123

第 5 步：在CLI中输入命令dvi /etc/ssh/sshd_configto edit ssh configuration。

步骤6.打开ssh配置文件后，按To编辑文件。然后查找此处显示的部分，将fromPasswordAuthentication notoPasswordAuthentication yes的第一行更改。

第 7 步：按ESC并输入：wq!以保存sshd_config文件更改。

步骤8.运行命令service sshd restart。

步骤9.为了测试已正确应用SSH配置更改，请打开任何SSH客户端，并尝试使用分配给实例的浮动IP（即10.145.0.249）和userroot建立远程安全连接。

建立SSH会话

使用安装应用程序的相应VM/服务器的IP地址打开SSH会话。

CPAR实例开始

完成练习并在关闭的站点中重新建立CPAR服务后，请遵循以下步骤。

重新登录到Horizon，导航到项目>实例>启动实例。
验证实例的状态为活动且电源状态为正在运行：

活动后运行状况检查

步骤1.在操作系统级别运行命令/opt/CSCOar/bin/arstatus。

[root@aaa04 ~]# /opt/CSCOar/bin/arstatus
Cisco Prime AR RADIUS server running       (pid: 24834)
Cisco Prime AR Server Agent running        (pid: 24821)
Cisco Prime AR MCD lock manager running    (pid: 24824)
Cisco Prime AR MCD server running          (pid: 24833)
Cisco Prime AR GUI running                 (pid: 24836)
SNMP Master Agent running                (pid: 24835)
[root@wscaaa04 ~]#

步骤2.在操作系统级别运行/opt/CSCOar/bin/aregcmd命令并输入管理员凭据。验证CPAR Health（CPAR运行状况）为10（满分10），并退出CPAR CLI。

[root@aaa02 logs]# /opt/CSCOar/bin/aregcmd
Cisco Prime Access Registrar 7.3.0.1 Configuration Utility
Copyright (C) 1995-2017 by Cisco Systems, Inc.  All rights reserved.
Cluster:
User: admin
Passphrase:
Logging in to localhost
[ //localhost ]

    LicenseInfo = PAR-NG-TPS 7.2(100TPS:)

                  PAR-ADD-TPS 7.2(2000TPS:)

                  PAR-RDDR-TRX 7.2()

                  PAR-HSS 7.2()

    Radius/

    Administrators/
Server 'Radius' is Running, its health is 10 out of 10
--> exit

第 3 步：运行命令netstat | grep diameter并验证所有DRA连接均已建立。

此处提到的输出适用于需要Diameter链接的环境。如果显示的链路较少，则表示需要分析与DRA的断开连接。

[root@aa02 logs]# netstat | grep diameter
tcp         0            0 aaa02.aaa.epc.:77 mp1.dra01.d:diameter ESTABLISHED
tcp         0            0 aaa02.aaa.epc.:36 tsa6.dra01:diameter ESTABLISHED
tcp         0            0 aaa02.aaa.epc.:47 mp2.dra01.d:diameter ESTABLISHED
tcp         0            0 aaa02.aaa.epc.:07 tsa5.dra01:diameter ESTABLISHED
tcp         0            0 aaa02.aaa.epc.:08 np2.dra01.d:diameter ESTABLISHED

步骤4.检查TPS日志是否显示CPAR正在处理的请求。突出显示的值代表了TPS，这些是需要注意的值。

TPS的值不应超过1500。

[root@wscaaa04 ~]# tail -f /opt/CSCOar/logs/tps-11-21-2017.csv
11-21-2017,23:57:35,263,0
11-21-2017,23:57:50,237,0
11-21-2017,23:58:05,237,0
11-21-2017,23:58:20,257,0
11-21-2017,23:58:35,254,0
11-21-2017,23:58:50,248,0
11-21-2017,23:59:05,272,0
11-21-2017,23:59:20,243,0
11-21-2017,23:59:35,244,0
11-21-2017,23:59:50,233,0

第 5 步：在name_radius_1_log中查找任何“error”或“alarm”消息

[root@aaa02 logs]# grep -E "error|alarm" name_radius_1_log

步骤 6 使用以下命令验证CPAR进程使用的内存量：

顶部 | grep radius

[root@sfraaa02 ~]# top | grep radius
27008 root      20   0 20.228g 2.413g  11408 S 128.3  7.7   1165:41 radius

此突出显示的值应低于：7Gb，这是应用级别允许的最大值。

控制器节点中的主板更换

验证控制器状态并将集群置于维护模式

从OSPD登录到控制器并验证pc是否处于正常状态 — 所有三个控制器都处于联机状态，且显示全部三个控制器为主控制器的伽辽卡。

[heat-admin@pod2-stack-controller-0 ~]$ sudo pcs status
Cluster name: tripleo_cluster
Stack: corosync
Current DC: pod2-stack-controller-2 (version 1.1.15-11.el7_3.4-e174ec8) - partition with quorum
Last updated: Fri Jul 6 09:02:52 2018Last change: Mon Jul 2 12:49:52 2018 by root via crm_attribute on pod2-stack-controller-0

3 nodes and 19 resources configured

Online: [ pod2-stack-controller-0 pod2-stack-controller-1 pod2-stack-controller-2 ]

Full list of resources:

 ip-11.120.0.49(ocf::heartbeat:IPaddr2):Started pod2-stack-controller-1
 Clone Set: haproxy-clone [haproxy]
 Started: [ pod2-stack-controller-0 pod2-stack-controller-1 pod2-stack-controller-2 ]
 Master/Slave Set: galera-master [galera]
 Masters: [ pod2-stack-controller-0 pod2-stack-controller-1 pod2-stack-controller-2 ]
 ip-192.200.0.110(ocf::heartbeat:IPaddr2):Started pod2-stack-controller-1
 ip-11.120.0.44(ocf::heartbeat:IPaddr2):Started pod2-stack-controller-2
 ip-11.118.0.49(ocf::heartbeat:IPaddr2):Started pod2-stack-controller-2
 Clone Set: rabbitmq-clone [rabbitmq]
 Started: [ pod2-stack-controller-0 pod2-stack-controller-1 pod2-stack-controller-2 ]
 ip-10.225.247.214(ocf::heartbeat:IPaddr2):Started pod2-stack-controller-1
 Master/Slave Set: redis-master [redis]
 Masters: [ pod2-stack-controller-2 ]
 Slaves: [ pod2-stack-controller-0 pod2-stack-controller-1 ]
 ip-11.119.0.49(ocf::heartbeat:IPaddr2):Started pod2-stack-controller-2
 openstack-cinder-volume(systemd:openstack-cinder-volume):Started pod2-stack-controller-1

Daemon Status:
 corosync: active/enabled
 pacemaker: active/enabled
 pcsd: active/enabled

将群集置于维护模式

[heat-admin@pod2-stack-controller-0 ~]$ sudo pcs cluster standby

[heat-admin@pod2-stack-controller-0 ~]$ sudo pcs status
Cluster name: tripleo_cluster
Stack: corosync
Current DC: pod2-stack-controller-2 (version 1.1.15-11.el7_3.4-e174ec8) - partition with quorum
Last updated: Fri Jul 6 09:03:10 2018Last change: Fri Jul 6 09:03:06 2018 by root via crm_attribute on pod2-stack-controller-0

3 nodes and 19 resources configured

Node pod2-stack-controller-0: standby
Online: [ pod2-stack-controller-1 pod2-stack-controller-2 ]

Full list of resources:

 ip-11.120.0.49(ocf::heartbeat:IPaddr2):Started pod2-stack-controller-1
 Clone Set: haproxy-clone [haproxy]
 Started: [ pod2-stack-controller-1 pod2-stack-controller-2 ]
 Stopped: [ pod2-stack-controller-0 ]
 Master/Slave Set: galera-master [galera]
 Masters: [ pod2-stack-controller-0 pod2-stack-controller-1 pod2-stack-controller-2 ]
 ip-192.200.0.110(ocf::heartbeat:IPaddr2):Started pod2-stack-controller-1
 ip-11.120.0.44(ocf::heartbeat:IPaddr2):Started pod2-stack-controller-2
 ip-11.118.0.49(ocf::heartbeat:IPaddr2):Started pod2-stack-controller-2
 Clone Set: rabbitmq-clone [rabbitmq]
 Started: [ pod2-stack-controller-0 pod2-stack-controller-1 pod2-stack-controller-2 ]
 ip-10.225.247.214(ocf::heartbeat:IPaddr2):Started pod2-stack-controller-1
 Master/Slave Set: redis-master [redis]
 Masters: [ pod2-stack-controller-2 ]
 Slaves: [ pod2-stack-controller-1 ]
 Stopped: [ pod2-stack-controller-0 ]
 ip-11.119.0.49(ocf::heartbeat:IPaddr2):Started pod2-stack-controller-2
 openstack-cinder-volume(systemd:openstack-cinder-volume):Started pod2-stack-controller-1

Daemon Status:
 corosync: active/enabled
 pacemaker: active/enabled
 pcsd: active/enabled

更换主板

在UCS C240 M4服务器中更换主板的过程请参阅Cisco UCS C240 M4服务器安装和维修指南

使用CIMC IP登录到服务器。
如果固件与之前使用的推荐版本不一致，请执行BIOS升级。BIOS升级步骤如下：

Cisco UCS C系列机架式服务器BIOS升级指南

恢复集群状态

登录受影响的控制器，通过设置unstandby删除备用模式。验证控制器是否与集群联机，并且伽辽拉将所有三个控制器显示为主控制器。此过程需要几分钟的时间。

[heat-admin@pod2-stack-controller-0 ~]$ sudo pcs cluster unstandby

[heat-admin@pod2-stack-controller-0 ~]$ sudo pcs status
Cluster name: tripleo_cluster
Stack: corosync
Current DC: pod2-stack-controller-2 (version 1.1.15-11.el7_3.4-e174ec8) - partition with quorum
Last updated: Fri Jul 6 09:03:37 2018Last change: Fri Jul 6 09:03:35 2018 by root via crm_attribute on pod2-stack-controller-0

3 nodes and 19 resources configured

Online: [ pod2-stack-controller-0 pod2-stack-controller-1 pod2-stack-controller-2 ]

Full list of resources:

 ip-11.120.0.49(ocf::heartbeat:IPaddr2):Started pod2-stack-controller-1
 Clone Set: haproxy-clone [haproxy]
 Started: [ pod2-stack-controller-0 pod2-stack-controller-1 pod2-stack-controller-2 ]
 Master/Slave Set: galera-master [galera]
 Masters: [ pod2-stack-controller-1 pod2-stack-controller-2 ]
 Slaves: [ pod2-stack-controller-0 ]
 ip-192.200.0.110(ocf::heartbeat:IPaddr2):Started pod2-stack-controller-1
 ip-11.120.0.44(ocf::heartbeat:IPaddr2):Started pod2-stack-controller-2
 ip-11.118.0.49(ocf::heartbeat:IPaddr2):Started pod2-stack-controller-2
 Clone Set: rabbitmq-clone [rabbitmq]
 Started: [ pod2-stack-controller-1 pod2-stack-controller-2 ]
 Stopped: [ pod2-stack-controller-0 ]
 ip-10.225.247.214(ocf::heartbeat:IPaddr2):Started pod2-stack-controller-1
 Master/Slave Set: redis-master [redis]
 Masters: [ pod2-stack-controller-2 ]
 Slaves: [ pod2-stack-controller-0 pod2-stack-controller-1 ]
 ip-11.119.0.49(ocf::heartbeat:IPaddr2):Started pod2-stack-controller-2
 openstack-cinder-volume(systemd:openstack-cinder-volume):Started pod2-stack-controller-1

Daemon Status:
 corosync: active/enabled
 pacemaker: active/enabled
 pcsd: active/enabled

由思科工程师提供

卡尔提克扬·达查纳莫蒂
思科高级服务
哈尔希塔·巴德瓦杰
思科高级服务

此文档是否有帮助?

反馈

联系我们

提交支持案例
(需要思科服务合同)

本文档适用于以下产品

Prime Access Registrar

Ultra-M UCS 240M4服务器中的主板更换 — CPAR

下载选项

非歧视性语言

关于此翻译

目录

简介

背景信息

缩写

MoP的工作流程

Ultra-M设置中的主板更换

先决条件

计算节点中的主板更换

确定托管在计算节点中的VM

备份：快照流程

步骤1. CPAR应用关闭。

VM快照任务

VM快照

正常断电

更换主板

恢复VM

通过快照恢复实例

恢复过程

创建并分配浮动IP地址

启用SSH

建立SSH会话

CPAR实例开始

活动后运行状况检查

OSD计算节点中的主板更换

确定Osd-Compute节点中托管的虚拟机

备份：快照流程

CPAR应用关闭

VM快照任务

VM快照

将CEPH置于维护模式

正常断电

更换主板

将CEPH移出维护模式

恢复VM

通过快照恢复实例

创建并分配浮动IP地址

启用SSH

建立SSH会话

CPAR实例开始

活动后运行状况检查

控制器节点中的主板更换

验证控制器状态并将集群置于维护模式

更换主板

恢复集群状态

由思科工程师提供

此文档是否有帮助?

联系我们

本文档适用于以下产品