はじめに
このドキュメントでは、Unified Computing System(UCS)Manager(UCSM)の健全性とアップグレード前のチェックツールを実行するプロセスについて説明します。
前提条件
要件
システムにPython 3.6以降をインストールすることをお勧めします。
注:Windows OSを実行している場合は、Pythonをインストールして環境パスを設定できます。
注:Pythonの問題に関するTACケースを開かないでください/スクリプトの実行に失敗しました。問題を手動で特定し、特定された問題ごとにTACケースをオープンするには、「CLIコマンド」セクションを参照してください。
使用するコンポーネント
このドキュメントの内容は、特定のソフトウェアやハードウェアのバージョンに限定されるものではありません。
このドキュメントの情報は、特定のラボ環境にあるデバイスに基づいて作成されました。このドキュメントで使用するすべてのデバイスは、クリアな(デフォルト)設定で作業を開始しています。本稼働中のネットワークでは、各コマンドによって起こる可能性がある影響を十分確認してください。
背景説明
UCSM Check Toolは、UCSMの安定性と復元力を確保するために、UCSMに対してプロアクティブなセルフチェックを実行するユーティリティです。UCSシステムの健全性チェックとアップグレード前のチェックのリストを自動化できるので、UCSインフラストラクチャのアップグレードやメンテナンス作業にかかる時間を節約できます。
注:常に最新バージョンのツールをダウンロードして使用してください。このツールは頻繁に拡張されるため、古いバージョンを使用すると、重要なチェックを見逃す可能性があります。
注:このスクリプトは、ベストエフォートで自由に使用できるスクリプトです。ただし、すべての問題を特定することはできません。
使用するケース
- メンテナンス作業の前後のUCSヘルスチェック
- Cisco TACを使用する場合
- 予防的なヘルスチェックをいつでも
使用方法
Windows OSの場合
ステップ 1:Python Downloadsから最新バージョンのPythonをダウンロードします。
ステップ 2:通常のインストールプロセスを使用し、Install Now(推奨)をクリックしてセットアップをダウンロードします。
注:Add Python to PATHにチェックマークを入れてください。

ステップ 3:システム上でPythonがインストールされているディレクトリに移動します。
ステップ 4:コマンドプロンプトを開き、コマンドPythonを入力してPythonのインストールを確認します。

ステップ 5:ここから最新バージョンのヘルスチェックスクリプトをダウンロードし、フォルダに保存します。次に、図に示すように、圧縮ファイルを抽出します。

手順 6:次の図に示すように、作成したフォルダに最新のUCSMテクニカルサポートログをダウンロードし、保存します。UCSMログバンドルのダウンロード手順については、リンクをクリックしてください:UCSMテクニカルサポートの生成。
手順 7:CMDを開き、UCSMTool.pyがあるフォルダにcdして、図に示すようにUCSMTool.pyを実行します。

ステップ 8:UCSMテクニカルサポートファイルがあるファイルパスを入力し、必要なオプションを選択します。
1. UCSMヘルスチェック
2. アップグレード前のチェック

MacOS
ステップ 1:MacOSには、デフォルトのPythonがインストールされています。次に示すように、インストールされているPythonのバージョンを確認します。

注: Pythonのバージョンが3.6より前の場合は、3.6以降のリリースにアップグレードしてください。
注: Pythonのバージョンが3.6以降の場合はステップ5に進み、それ以外の場合はステップ2に進みます。
ステップ 2:マクロ用のPythonリリースから最新バージョンのPythonをダウンロードします。
ステップ 3:通常のインストールプロセスを使用して、Pythonのインストールを完了/アップグレードします。
ステップ 4:ここから最新バージョンのヘルスチェックスクリプトをダウンロードし、フォルダに保存します。次の図に示すように、圧縮ファイルを抽出します。

ステップ 5:次の図に示すように、作成したフォルダに最新のUCSMテクニカルサポートログをダウンロードし、保存します。リンクをクリックして、UCSMログバンドル(UCSMテクニカルサポートの生成)をダウンロードする手順を探します。

手順 6:ターミナルを開き、ヘルスチェックスクリプトをダウンロードしたディレクトリを参照し、次に示すようにpython UCSMTool.pyまたはpython3UCSMTool.pyを実行します。

手順 7:UCSMテクニカルサポートファイルがあるファイルパスを入力し、スクリプトを実行する必要なオプションを選択します。
1. UCSMヘルスチェック
- アップグレード前の確認

実行された出力/チェックの理解
UCSM HealthCheckによるチェックの実行
これらのチェックは、UCSM-Healthchecktoolで実行されます。
- UCSM HA Cluster State:ファブリックインターコネクトのクラスタ状態を表示します。
- PMON Process State:Cisco UCS Manager内のすべてのプロセスの状態を表示します。
- ファイルシステムマウント:マウントテーブルを表示します。
- /var/ sysmgr sizeの問題を確認します。/var/ sysmgrの使用状況を確認します。
- /var/ tmpサイズの問題のチェック: /var/ tmpが使用されているかどうかをチェックします。
- 6296 FI unresponsive after a power cycle, HW revision update:ファブリックインターコネクトモジュールとそのハードウェアリビジョン番号を確認。
- 重大度がMajorまたはSeverity Criticalの障害:UCS Managerにメジャーまたはクリティカルアラートがあるかどうかを報告します。
- 使用可能なバックアップの確認:UCS Managerでバックアップが使用可能かどうかを確認します。
- キーリング証明書の確認:キーリングが期限切れであるか、有効であるかを確認します。
- Safeshut Healthcare Needed or Not:FIモデルとそのバージョンを確認することにより、safeshutの回避策が必要かどうかをチェックします。
- Cisco UCS Managerリリース4.xの非推奨ハードウェア:Cisco UCS Manager 4.xリリースの非推奨ハードウェアをチェックします。
- 3.1.x以降で非推奨のハードウェアが見つかりました:Cisco UCS Manager 3.xリリースで非推奨のハードウェアがないかどうかを確認します。
- Check for B200M4 reboot due to blank MRAID12G fields:B200M4サーバでMRAID12G RAIDコントローラのS/Nが空白かどうかをチェックします。
- UCSM 3.1最大電力割り当ての変更がブレード検出の障害を引き起こす:UCS Managerで設定されている電力ポリシーを確認します。
- ブートフラッシュ破損の存在フォルトコードF1219:ブートフラッシュ破損の存在を確認します。
- Check for httpd fail to start when the default keyring is deleted:デフォルトのキーリングが削除されているかどうかを確認します。
- 第3世代FIのファイルシステム状態がクリーンでない – 「ファイルシステムの状態:エラーでクリーン」:ファイルシステムエラーをチェックします。
- Check for Server Auto-Install to 4.0(4b) Fails to Activate SAS Controller:ホストファームウェアのバージョンとSASエクスパンダのバージョンを確認します。
- Cシリーズファームウェアアップグレードの確認が長く続く場合、サーバのインベントリを実行する場合、PNU OSインベントリ:サーバモデルとそのバージョンを確認して、この問題が発生しているかどうかを特定します。
- Check UCSM Authentication Domain that using a Period or Hyphen:認証ドメイン名にピリオドまたはハイフンが設定されているかどうかを確認します。
- ローカルまたはフォールバック認証の失敗:特定のFIモデルに設定されている認証方式を確認し、そのバージョンも確認します。
- UCSMとUCS Central間のヘルスチェック:UCS ManagerがUCS Centralに登録されているかどうかを確認します。
- 予約済みVLANのチェック:使用されているVLANが予約済みVLANの範囲にあるかどうかをチェックします。
- LANおよびSANピングループ:クラスタ内のLAN/SANピン接続の設定を確認し、アップグレードまたは任意のMWアクティビティの前に設定を確認するために強調表示します。
- UCSMに存在する保留中のアクティビティの確認:UCS Managerドメインに保留中のアクティビティがあるかどうかを確認します。
- IOMのヘルスチェック: IOモジュールの全体的な健全性をチェックします。
- UCSMで使用可能なコアファイルのチェック:60日以内にコアファイルが見つかるかどうかを確認します。
- 分離L2の潜在的な設定ミス:分離L2が設定されている場合に、設定ミスがないかどうかを確認します。
- VIC 1400および6400のリンクフラップの問題:この不具合に存在する状態をチェックします。
- ファームウェアのアップデート中に2304 IOMが接続解除して再接続することを確認します。Fabric InterconnectとIOモジュールのモデルを確認し、潜在的な問題があるかどうかを特定します。
- DMEヘルスチェック:Data Management Engine(DME)データベースの状態を確認します。
- Number of Interface up and Flogi Matching on FI:インターフェイスとflogiセッションの数を確認します。
- Jumbo or Standard MTU Check:MTU設定を識別します。
サンプルUCSMツールの出力番号
akmalla@ucsm_health_check-master % python3 UCSMTool.py
UCS Health Check Tool 2.0
Enter the UCSM file path: /Users/akmalla/Desktop/UCSM health Script/UCSMlog.tar
Press 1 for UCSM Health Check
Press 2 for PreUpgrade Check
Enter your choice (1/2): 1
Log Extraction: [########################] COMPLETED
UCSM Version: 4.3(2c)
Summary Result:
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| SlNo | Name | Status | Comments |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 1 | UCSM HA Cluster State | PASS | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 2 | PMON Process State | PASS | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 3 | File System Mount | PASS | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 4 | Check for /var/sysmgr size issue | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 5 | Check for /var/tmp size issue | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 6 | 6296 FI unresponsive after power cycle, HW revision update | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 7 | Faults with Severity Major or Severity Critical | Found | Review the faults and Contact TAC, if needed |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 8 | Check Backup Available | Backup Operation Not Found | Backup operation has not been found. Please ensure that the |
| | | | latest backup is captured as a best practice. |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 9 | Keyring Cert Check | PASS | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 10 | Safeshut Workaround Needed or Not | Not Needed | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 11 | Deprecated Hardware in Cisco UCS Manager Release 4.x | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 12 | Deprecated HW found for 3.1.x onwards | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 13 | Check for B200M4 reboot due to blank MRAID12G fields | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 14 | UCSM 3.1 Change in max power allocation causes blade discovery | Not Found | |
| | failure | | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 15 | Existence of bootflash corruption fault code F1219 | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 16 | Check for httpd fail to start when default keyring is deleted | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 17 | 3rd GEN FIs has unclean file system states-"Filesystem state: | Not Found | |
| | clean with errors" | | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 18 | Check for Server Auto-Install to 4.0(4b) Fails to Activate SAS | Not Found | |
| | Controller | | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 19 | Check for C-Series firmware upgrade stays long in process | Not Found | |
| | "perform inventory of server" PNU OS Inventory | | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 20 | Check UCSM Authentication Domain using a Period or Hyphen | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 21 | Local or fallback Authentication failure | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 22 | Health check between UCSM and UCS central | Not Found | UCS Manager is Not Registered |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 23 | Reserved VLAN Check | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 24 | LAN and SAN Pin Groups | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 25 | Checking Pending Activities Present in UCSM | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 26 | Health Check for IOM | PASS | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 27 | Core Files available in UCSM Check | Not Found | No core files were found in last 60 days |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 28 | Disjoint L2 potential misconfiguration | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 29 | VIC 1400 and 6400 Link Flap Issue | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 30 | Check 2304 IOMs disconnect and re-connect during firmware update | Not Found | |
| | step | | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 31 | Number of Interface up and Flogi Matching on FI | --- | Primary: |
| | | | FC Port Trunking Count: 0, |
| | | | Eth up Port: 7, |
| | | | Flogi Count: 0 |
| | | | Secondary: |
| | | | FC Port Trunking Count: 0, |
| | | | Eth up Port: 7, |
| | | | Flogi Count: 0 |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
| 32 | Jumbo or Standard MTU Check | Not Found | |
+------+-------------------------------------------------------------------+----------------------------+-------------------------------------------------------------------+
Faults with Severity Major:
F0331: Service profile DemoSP cannot be accessed
F0831: lan Member 1/2 of Port-Channel XXXX on fabric interconnect B is down, membership: down
F0858: lan port-channel XXXX on fabric interconnect B oper state: failed, reason: port-channel-members-down
F0831: lan Member 1/2 of Port-Channel XXXX on fabric interconnect A is down, membership: down
F0858: lan port-channel XXXX on fabric interconnect A oper state: failed, reason: port-channel-members-down
NOTE:
a. All reports and logs will be saved in the same location from where the script was executed.
b. Please visit the Summary Report/ Main Report to view all the Major and Critical Fault alerts.
分析ツールの出力 – 次のステップ
- このツールは、UCSシステムで手動コマンドを実行するプロセスを自動化します。
- ツールでOKが実行され、すべてのテストでPASS/NOT FOUNDが返される場合。UCSシステムは、スクリプトが実行したすべてのチェックに有効です。
- 一部のチェックでツールFAIL/FOUNDが失敗する、またはツールが正常に実行されない場合、CLIコマンド(ここにリストされています)を使用して、スクリプト「Manually」で実行されるUCSシステム/Fabric Interconnectで同じチェックを実行できます。
- このツールでは古い、新しい、オープンな、または解決された注意事項はチェックされないため、アップグレードやメンテナンスを行う前にUCSリリースノートとアップグレードガイドを確認することを強くお勧めします。
ヒント:UCS環境の一般的なヘルスチェックのために、Cisco TACではこのサービスを提供していません。シスコのCX Customer Delivery Team(旧称Advanced Services)には、バグスクラブ/リスク分析が用意されています。このタイプのサービスが必要な場合は、セールス/アカウントチームにお問い合わせください。
CLI コマンド
両方のファブリックインターコネクトへのSSH:
# show cluster extended-state, verify HA status is ready.
# connect local-mgmt ; # show pmon state, Verify the services are in running status.
# connect nxos ; # show system internal flash, Verify free size in /var/sysmgr and /var/tmp
# connect nxos ; # show module, verify HW revision number for 6296 fabric interconnects.
# show fault detail | include F1219, verify this fault code for bootflash corruption
# scope eth-uplink; # show reserved-vlan
# show iom health status, displays health of IOM
# show server status, verify the status of server.
# scope monitoring; # scope sysdebug; # show cores , verify if there are any core files.
# scope security; # scope keyring default; #show detail, verify details for default keyring, expiry etc.
# connect nxos; # show int br | grep -v down | wc –l, verify the number of active Ethernet interfaces.
# scope security; # show authentication, review the authentication type.
# connect nxos; # show flogi database, review the flogi database.