アップグレードとダウングレード プロセス中にフォールトのトラブルシューティング

一般的な障害の考慮事項


(注)  


アップグレードの失敗をトラブルシューティングする際は、システムの安定性を確保するために、アップグレードまたは、ダウングレードに関するガイドラインおよび制限事項 で回避するように先に進む前に操作のリストを確認してください。


ACI スイッチ アップグレードの場合、メンテナンス ポリシーごとに 1 つのスケジューラが存在します。デフォルトでアップグレードまたはダウングレードの失敗が検出されると、スケジューラを停止し、そのグループのノードはアップグレードを開始しません。スケジューラは、アップグレード フォールトの場合に手動介入によるデバッグを必要とします。手動介入が完了したら、一時停止されたスケジューラを再開させる必要があります。

スイッチのステータスが「queued」になっている場合は、以下を確認します。

  • コントローラのクラスタが正常かどうか。APIC コントローラ クラスタは、正常な状態にする必要があります。API に「waitingForClusterHealth = yes」と表示されている場合、または GUI で [Waiting for Cluster Convergence] に対して [Yes] が表示されている場合は、コントローラのクラスタが正常ではないことを示しています。正常になるまで、アップグレードを開始していないスイッチのステータスは「queued」のままになります。

  • スイッチのメンテナンス グループが一時停止していないか。スイッチがアップグレードに失敗すると、グループは一時停止状態になります。

  • [管理(Admin)] > [ファームウェア(Firmware)] > [履歴(History)] > [イベント(Events)] > [スケジューラ(Schedulers)] に移動して、各メンテナンス グループのイベントログを確認します。イベント ログは、アップグレードの状態が進行していない理由に関する詳細情報を提供します。

ダウンロード障害の一般的な原因

ダウンロード障害の一般的な原因は、次のようなものがあります。

  • リモート サーバの権限が不十分です

  • リモート サーバでディレクトリまたはファイルが見つかりません

  • APIC のディレクトリがいっぱいです

  • リクエストのタイムアウト/許容可能な時間内にダウンロードが完了できなかった

  • サーバ エラー/不明なサーバ エラー

  • 無効な Ack

  • ユーザー名/パスワード認証の問題

問題が解決したら、ダウンロード タスクを再起動してダウンロードを再トリガーできます。

クラスタの収束の確認

一般的な障害の考慮事項 で説明したように、ACI スイッチ ノードを正常にアップグレードするには、APIC コントローラ クラスタが正常である必要があります。GUI を使用して、クラスタ コンバージェンスを確認できます。

さらに定期メンテナンス後に、クラスタの収束の進行状況をモニタできます。GUI に [コントローラ ファームウェア] 画面が表示され、1 つのクラスタの収束プロセスごとに一連のメッセージが示されます。これらのメッセージは [Status] フィールドに表示されます。

This may take a while. すべてのクラスタが正常に収束されると、[コントローラ ファームウェア] 画面の [クラスタ コンバージェンスの待機] フィールドに「No」と表示されます。

スケジューラ ステータスの確認

コントローラのアップグレードを一時停止することの確認

コントローラのアップグレードまたは、ダウングレードは、GUI または REST API のいずれかを使用して一時停止を確認することができます。

GUI を使用してコントローラのアップグレードまたは、ダウングレード スケジューラ一時停止しているかどうかを確認するには

手順


ステップ 1

メニュー バーで、[ADMIN] > [Firmware] を選択します。

ステップ 2

[Navigation] ペインで、[Fabric Node Firmware] > [Controller Firmware] を展開します。

ステップ 3

スケジュールされたメンテナンス ポリシーが一時停止して かどうかが表示されます アップグレードに失敗しました で、 ステータス 内の列、 作業 ペインで、特定の Cisco APIC

ものが正しく進行していることが表示されます ファームウェア アップグレード queued、クラスタ コンバージェンスを待機中 で [Status] カラムで、 作業 ペインで、特定の Cisco APIC

ステップ 4

問題を特定して、この問題を修正します。

ステップ 5

をクリックします アクション ] タブをクリックします コントローラ ファームウェア ポリシーのアップグレード


REST API を使用してコントローラのアップグレードまたは、ダウングレード スケジューラ一時停止しているかどうかを確認するには

手順


コントローラ メンテナンス ポリシーのためにスケジューラが一時停止されていることを確認するには、次の API を POST 送信します。

例:

https://<ip address>/api/node/class/maintUpgStatus.xml

次のような返品が表示されます。

例:

https://<ip address>/api/node/class/maintUpgStatus.xml

ConstCtrlrMaintP ==> controller group
Nowgrp ===> A switch group

<?xml version="1.0" encoding="UTF-8"?>
<imdata totalCount="2">
    <maintUpgStatus childAction="" dn="maintupgstatuscont/maintupgstatus-ConstCtrlrMaintP" faultDelegateKey="uni/fabric/
maintpol-ConstCtrlrMaintP" lcOwn="local" maxConcurrent="0" modTs="2014-08-28T14:45:24.232-07:00" polName="
ConstCtrlrMaintP" runStatus="paused" status="" uid="0" waitOnClusterHealth="no" windowName=""/>
    <maintUpgStatus childAction="" dn="maintupgstatuscont/maintupgstatus-nowgrp" faultDelegateKey="" lcOwn="local" 
maxConcurrent="0" modTs="2014-08-28T08:05:15.148-07:00" polName="nowgrp" runStatus="running" status="" uid="0" 
waitOnClusterHealth="no" windowName=""/>
</imdata>

スイッチのアップグレードまたは、ダウングレードの一時停止確認

GUI または REST API のいずれかを使用して、スイッチのアップグレードまたは、ダウングレードの一時停止を確認できます。

GUI を使用してスイッチ アップグレード スケジューラの一時停止を確認する

手順


ステップ 1

メニュー バーで、[管理] > [ファームウェア] を選択します。

ステップ 2

[ナビゲーション] ペインで、[ファブリック ノード ファームウェア] > [メンテナンス グループ] を展開します。

ステップ 3

[メンテナンス グループ] を展開して、[すべてのスイッチ] をクリックします。

ステップ 4

[作業] ペインで、[スケジューラのステータス][一時停止] を読み取っているか確認します。

(注)  

 

[スケジューラのステータス][実行中] を読み取り、グループ内のノードがアップグレードを続行または完了している場合、デバイスが実行されアップグレードが続行または完了します。

ステップ 5

デバイスに移動し、手順 1 ~ 4 を繰り返します。

この時点で、[スケジューラのステータス][実行中] を読み取ります。

ステップ 6

右上の [アクション] ドロップダウンリストを使用して、[アップグレード スケジューラの再開] を選択します。

ステップ 7

右上の [アクション] ドロップダウン リストを使用して、[今すぐアップグレード] を選択します。


REST API を使用してスイッチのアップグレード スケジューラが時停止しているか確認する

手順


スイッチ メンテナンス ポリシーのためにスケジューラが一時停止されていることを確認するには、次の API を POST 送信します。

例:

https://<ip address>/api/node/class/maintUpgStatus.xml

次のような返品が表示されます。

例:

https://<ip address>/api/node/class/maintUpgStatus.xml

ConstCtrlrMaintP ==> controller group
Nowgrp ===> A switch group

<?xml version="1.0" encoding="UTF-8"?>
<imdata totalCount="2">
    <maintUpgStatus childAction="" dn="maintupgstatuscont/maintupgstatus-ConstCtrlrMaintP" faultDelegateKey="uni/
fabric/maintpol-ConstCtrlrMaintP" lcOwn="local" maxConcurrent="0" modTs="2014-08-28T14:45:24.232-07:00" 
polName="ConstCtrlrMaintP" runStatus="paused" status="" uid="0" waitOnClusterHealth="no" windowName=""/>
    <maintUpgStatus childAction="" dn="maintupgstatuscont/maintupgstatus-nowgrp" faultDelegateKey="" lcOwn="
local" maxConcurrent="0" modTs="2014-08-28T08:05:15.148-07:00" polName="nowgrp" runStatus="running" status="" 
uid="0" waitOnClusterHealth="no" windowName=""/>
</imdata>

スコントローラのメンテナンス ポリシーのために一時停止したスケジューラの再開

GUI または REST API のいずれかを使用してコントローラ メンテナンス ポリシーの一時停止スケジューラを再開することができます。

コントローラのアップグレード スケジューラ Resume を GUI を使用して一時停止しています

手順


ステップ 1

メニュー バーで、[ADMIN] > [Firmware] を選択します。

ステップ 2

[Navigation] ペインで、[Fabric Node Firmware] > [Controller Firmware] を展開します。

ステップ 3

[Work] ペインで、[Policy] タブをクリックします。

ステップ 4

[Controller Maintenance Policy] 領域で、[Running Status] フィールドの表示が [Paused] であることを確認します。

ステップ 5

[Actions] タブをクリックし、[Resume Upgrade Scheduler] をクリックします。

ステップ 6

をクリックします アクション ] タブを選択します コントローラ ファームウェア ポリシーのアップグレード ドロップダウンリストから。

ステップ 7

[アクション(Actions)] タブをクリックし、ドロップダウン リストから [今すぐ適用(Apply Now)] を選択します。


REST API を使用して一時停止したコントローラのアップグレード スケジューラを再開する

手順


ステップ 1

コントローラ メンテナンス ポリシーのために一時停止されたスケジューラを再開するには、次の API をPOST 送信します。

この例では、メンテナンス ポリシーは ConstCtrlrMaintP です。

例:

URL: https://<ip address>/api/node/mo.xml 
<maintUpgStatusCont>
<maintUpgStatus polName="ConstCtrlrMaintP" status="deleted" />
</maintUpgStatusCont>

ステップ 2

Cisco APIC コントローラ ソフトウェアをアップグレードするために最初に使用される REST API を使用します。


スイッチのメンテナンス ポリシーのために一時停止したスケジューラの再開

一時停止したスイッチのアップグレード スケジューラを再開するために GUI を使用する

手順


ステップ 1

メニュー バーで、[管理] > [ファームウェア] を選択します。

ステップ 2

[ナビゲーション] ペインで、[ファブリック ノード ファームウェア] > [メンテナンス グループ] > [maintenance_group_name] を展開します。

ステップ 3

[Work] ペインで、[Policy] タブをクリックします。

ステップ 4

[Maintenance Policy] 領域で、[Running Status] フィールドの表示が [Paused] であることを確認します。

ステップ 5

[メンテナンス ポリシー] 領域で、[スケジューラのステータス] フィールドに [一時停止] が表示され、[クラスタ コンバージェンスの待機] フィールドに [いいえ] が表示されていることを確認します。

ステップ 6

[Actions] タブをクリックし、[Resume Upgrade Scheduler] をクリックします。

ステップ 7

[アクション] タブをクリックして、ドロップダウン リストから [今すぐアップグレード] を選択します。


REST API を使用して一時停止したスイッチ アップグレード スケジューラを再開する

手順


ステップ 1

スイッチ メンテナンス ポリシーのために一時停止されたスケジューラを再開するには、次の API をPOST 送信します。

この例では、メンテナンス ポリシーは swmaintp です。

例:

URL: https://<ip address>/api/node/mo.xml 			 
<maintUpgStatusCont>
<maintUpgStatus polName="swmaintp" status="deleted" />
</maintUpgStatusCont>

ステップ 2

最初に使用した REST API を使用してスイッチ ソフトウェアをアップグレードします。


ログ ファイルの確認

APIC インストーラ ログ ファイル

ソフトウェア リリース 4.0 以降、APIC のアップグレード ログ(インストーラ ログ)は、ライブ アクセスを可能にするために、ユーザがアクセス可能な場所に移動されました。APIC のアップグレードが期待どおりに進行しているかどうかを判断するために、それらをオープンまたはテールにすることができます。アップグレードに応じて、アップグレード プロセス全体を含む 1 つまたは 2 つのログ ファイルが作成されます。

常に予想されるファイルの名前は insieme_*_installer.log に似ており、4.x 以降のアップグレードでは、atom_installer.log が追加されます。すべてのバージョンのシナリオで、insieme_*_installer.log を最初にチェックする必要があります。このログには、atom_installer.log に記録される atom_installer が呼び出されたことを示すメッセージが含まれます。

ログ ファイルは、各 APIC の /firmware/logs/YYYY-MM-DDTHH-MM-SS-MS ディレクトリに保存されます。フォルダのタイムスタンプは、その特定のアップグレードがトリガーされたタイムスタンプに対応します。

admin@apic1:logs> pwd 
/firmware/logs 
 
admin@apic1:logs> ls -l 
2021-04-15T07:42:57-50 
2021-05-28T10:18:33-50 
 
admin@apic1:logs> ls -l ./2021-05-28T10:18:33-50 
atom_installer.log 
insieme_4x_installer.log 

上記の例では、最近のアップグレードが 2021 年 5 月 28 日 10:18 頃にトリガーされました。対応するログファイルは、そのディレクトリ内に含まれています。個々のログ ファイルは、コンテンツを表示するために選択した Linux ファイル ビューアで開くことができます。代わりに、ログを実際に監視してアップグレードが進行中であることを確認する場合は、tail –f insieme_zx_installer.log を発行して、ログ ファイルに書き込まれている内容をリアルタイムで表示します。

ACI スイッチ インストーラのログ ファイル

すべての ACI スイッチ バージョンで、インストーラ ログ ファイルの表示がサポートされています。ACI スイッチのインストーラ ログは、/mnt/pss ディレクトリにあります。ファイルを開くか、tail –f installer_detail.log を発行して、ログ ファイルに出力されている現在の内容をリアルタイムで確認できます。

leaf101# pwd 
/mnt/pss 

leaf101# ls -asl installer_detail.log 
142 -rw-rw-rw- 1 root root 144722 Apr 29 07:58 installer_detail.log

テクニカル サポート ファイルの収集

テクニカル サポート ファイルを収集するには、「On-Demand TechSupport」機能を使用することを推奨します。次のガイドに記載されているように、最初にこの方法を使用してみてください。『API CUI からの ACI show tech の収集

ただし、APIC のアップグレードが失敗した場合は、クラスタの全体的な状態が低下する可能性があります。つまり、クラスタのステータスが「Data Layer Partially Diverged / Data Layer Partially Degraded Leadership」の状態になる可能性があります。この場合、オンデマンド テクニカル サポート ポリシーを使用してテクニカル サポート ファイルを収集できる可能性は低くなります。この場合、各 APIC ノードでローカルのテクニカル サポート ファイルを個別に収集できます。この方法は、次のガイドに記載されています。『個々の ACI ノードの CLI からの Local show tech の収集

HUU アップグレード後の CIMC / BIOS 設定

通常 APIC は、APIC として適切に機能するために必要な CIMC および BIOS 設定で事前に設定する必要があります。ただし、CIMC と BIOS の設定が期待値から外れるシナリオやアクションがあります。


(注)  


HUU アップグレードを実行すると、BIOS TPM 設定が無効になることがあります。APIC が HUU 後の APIC OS に再起動する問題を示している場合は、APIC をリセットして BIOS 設定を検証します。


予想される CIMC 値

管理 - 専用

デフォルトの管理者パスワード - パスワード

LLDP - 無効

予想される BIOS 値

TPM –有効

TPM 状態-所有

検証

次の一連のコマンドを使用して、APIC の CIMC を ssh してこれらの設定を検証できます。

C220-FCH1838V001# scope bios
 
C220-FCH1838V001 /bios # show main detail
Set-up parameters:
    Power ON Password Support: Disabled
    TPM Support: Enabled <<<<<<<<<<<<
 
C220-FCH1838V001# scope cimc
 
C220-FCH1838V001 /cimc # show network detail
Network Setting:
    ...
    NIC Mode: dedicated <<<<<<<<<<<<
    NIC Redundancy: none
    ...
 
C220-FCH1838V001# scope chassis
 
C220-FCH1838V001 /chassis # show adapter detail
PCI Slot 1:
    Product Name: UCS VIC 1225
    Product ID: UCSC-PCIE-CSC-02
    ...
    VNTAG: Disabled
    FIP: Enabled
    LLDP: Disabled <<<<<<<<<<<<
    PORT CHANNEL: N/A    <<<<<<<<<<<<   Validate for Gen 3 APICs
    Configuration Pending: no
    Cisco IMC Management Enabled: no
    ...