简介

     本文档介绍了排除由于服务器电源状态 — MC错误而导致刀片无法发现的问题的步骤。

    先决条件

    要求

    思科建议您了解以下主题的工作知识:

    • 思科统一计算系统(UCS)
    • 思科交换矩阵互联(FI)

    使用的组件

    本文档中的信息基于以下软件和硬件版本:

    • UCS B420-M3
    • UCS B440-M3

    本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您的网络处于活动状态,请确保您了解所有命令的潜在影响。

    背景信息

    • 刀片固件升级,服务器在正常运行时间策略重新启动后关闭。
    • 数据中心的一些电源事件。

    以上可能是问题的触发因素。

    问题

    重新启动或发现期间会出现此错误消息。

    "无法更改刀片电源状态"

    UCSM报告未能通电的刀片的此警报

    刀片在固件升级过程中重新启动,或任何其他维护在FSM中无法发现/打开以下消息:

     "无法更改服务器电源状态 — MC错误(-20):管理控制器无法或无法处理请求(sam:dme:ComputePhysicalTurnup:Execute)"

    SEL日志显示错误条目,如下所示:

    CIMC |平台警报POWER_ON_FAIL #0xde |预测性故障已取消断言 |取消断言

    CIMC |平台警报POWER_ON_FAIL #0xde |预测失败断言 |断言

    故障排除

    从UCSM CLI外壳,连接到刀片的cimc,并使用power命令验证刀片电源状态 

    • SSH FI-IP-ADDR。
    • connect cimc X
    • 电源
    Failure Scenario # 1
    OP:[ status ]
    Power-State:              [ on ]
    VDD-Power-Good:           [ inactive ]  
    Power-On-Fail:            [ active ]       
    Power-Ctrl-Lock:          [ unlocked ]
    Power-System-Status:      [ Good ]
    Front-Panel Power Button: [ Enabled ]
    Front-Panel Reset Button: [ Enabled ]
    OP-CCODE:[ Success ]
    Failure Scenario #2 
    OP:[ status ]
    Power-State:              [ off ]
    VDD-Power-Good: [ inactive ]
    Power-On-Fail:            [ inactive ]
    Power-Ctrl-Lock: [ permanent lock ]  <<<----------------
    Power-System-Status: [ Bad ]                <<<---------------
    Front-Panel Power Button: [ Disabled ]
    Front-Panel Reset Button: [ Disabled ]
    OP-CCODE:[ Success ]

    工作场景的输出#

    [ help ]# power
    OP:[ status ]
    Power-State:              [ on ]
    VDD-Power-Good:           [ active ]   
    Power-On-Fail:            [ inactive ]     
    Power-Ctrl-Lock:          [ unlocked ]
    Power-System-Status:      [ Good ]
    Front-Panel Power Button: [ Enabled ]
    Front-Panel Reset Button: [ Enabled ]
    OP-CCODE:[ Success ]
    [ power ]#

    验证会话值#

    POWER_ON_FAIL    |磁盘 — > |离散     | 0x0200 |不适用      |不适用      |不适用      |不适用      |不适用      |不适用      | >>>不工作

    传感器值#

    POWER_ON_FAIL    |磁盘 — > |离散     | 0x0100 |不适用      |不适用      |不适用      |不适用      |不适用      |不适用      | >>>>工作

    执行sensors命令并检查电源和电压传感器的值。将输出与相同型号的刀片的电源状态进行比较。

    如果“Reading”(读取)或“Status”(状态)列对于某些传感器为“NA”(不适用),则可能并非硬件故障时刻都发生。 

    日志片段#

    Sel.log#

    CIMC |平台警报POWER_ON_FAIL #0xde |预测失败断言 |断言

    tmp/techsupport_pidXXXX/CIMCX_TechSupport-nvram.tar.gz内的power-on-fail.hist)

    如果上述不起作用,则作为下一步,收集UCSM和机箱技术支持日志捆绑。 

    有助于进一步调查问题。

    对于前面提到的症状,请尝试执行以下步骤以恢复问题。

    步骤 1:验证刀片FSM状态为“失败”,说明为“state-MC Error(-20)”。

    导航至Equipment > Chassis X > Server Y > FSM

    步骤 2:记下受影响的刀片序列号并停用刀片。

    <<<IMP:在停用问题刀片之前,请记下“常规”选项卡中的问题刀片序列号。在步骤4 >>>的后期阶段需要

    导航至Equipment > Chassis X > Server Y > General > Server Maintenance > Decommission > Ok

    步骤3. FI-A/B#重置插槽x/y

    例如,#Chassis2-Server 1受到影响。

    FI-A#重置插槽2/1

    运行上述命令后等待30-40秒

    第4步:重新启用已停用的刀片。

    导航至Equipment > Uccemined > Servers > Look for the server we decummented(Find correct bith Serial number with Serial number)> Check Recommission Tick(针对正确的刀片进行验证)> Save Changes

    第5步:解析插槽(如果观察到)。

    导航至设备>机箱X >服务器Y

    如果您收到重新委托的刀片的“解决插槽问题”弹出窗口,请验证其序列号并单击“此处”接受插槽中的服务器。

    刀片发现应立即开始。

    等待服务器发现完成。在服务器FSM选项卡中监控进度。

    步骤6.如果步骤1至5不起作用,FSM再次失败,请停用刀片并尝试以物理方式重新安装刀片。

    如果仍然是服务器无法发现与思科TAC的联系(如果这是硬件问题)。

    NOTE:  If you have B200 M4 blade and notice failure scenario #2 , please refer following bug and Contact TAC

    CSCuv90289
    B200 M4 fails to power on due to POWER_SYS_FLT

    相关信息

    发现机箱的步骤

    UCSM服务器管理指南