简介
本文档介绍在以应用为中心的基础设施 (ACI) 模式中替换因硬件问题而出现故障的 Nexus 9500 主干交换机机箱的流程。
问题
当前工作中的 ACI 交换矩阵和 Nexus 9500 主干发生故障。该故障被确定是硬件故障,并且仅需要替换机箱。所有工作组件(管理引擎、线卡、交换矩阵模块等等)都需要转移到替换件中。
解决方案
如需替换主干,请完成以下步骤:
- 断开所有电源电缆,确保出现故障的主干断电。
- 从应用策略基础设施控制器 (APIC) GUI 中依次选择 Fabric > Inventory > Unreachable Nodes。在主干关闭几分钟后,在此处列出主干。记下其“名称”和“节点 ID”。
- 停止使用故障主干,将它从控制器中移除。
- 在工作窗格中选择主干。从操作下拉列表中选择 Decommission。
- 点击 Remove from controller 单选按钮,然后点击 OK。
提示:使用“Remove from controller”选项将节点从 ACI 交换矩阵中完全删除,且序列号与节点 ID 取消关联。使用“常规”选项可临时从ACI交换矩阵中删除节点,期望同一节点将使用相同的节点ID重新加入交换矩阵。例如,如果需要暂时关闭节点以进行维护。
注意:在节点停止使用后,可能需要 5-10 分钟才能将它移除并从 APIC GUI 中消失。
- 从机架删除故障主干并安装替换机箱。将所有工作组件转移到与故障机箱采用相同布置的新机箱中。转移的组件包括交换矩阵模块、管理引擎、系统控制器、电源、风扇托盘和线卡。
- 使用新机箱中活动管理引擎的控制台来清除其配置。
- 输入 cat /proc/cmdline 命令,以便确定管理引擎中当前运行哪个 ACI 映像。寻找“ksimg”部分。
提示:ACI 交换机映像名称始终以“aci-n9000”开头。
- 使用 ACI 交换机映像名称并输入以下命令:
spine# /bin/prepare-mfg.sh
spine# reload
注意:<aci_image.bin> 是 APIC 中的 ACI 交换机映像的文件名。
- 如果重新加载窗口缺失,并且您无法重新加载设备,请输入 vsh -c reload 命令。
此命令会清除活动管理引擎上的配置。重复步骤 5,以清除备用管理引擎上的配置。在主干加入交换矩阵之后,配置从 APIC 自动向下推送。
- 在 APIC GUI 中,依次选择 Fabric > Inventory > Fabric Membership。主干在工作窗格中被列为一行,不含节点 ID、节点名称和 IP 地址。双击该行并指定与以前一样的“节点 ID”和“节点名称”。
主干会在几分钟内收到 IP 地址,这可在 APIC GUI 中体现。
主干完全重新加入 ACI 交换矩阵,且 APIC 会自动向下推送所有相关策略。在这种情况下,具有节点 ID 201 的主干机箱发生故障。机箱被替换,且其序列号映射到相同节点 ID。然后,APIC 将与节点 201 有关的所有策略推送到主干,无需进一步配置。