ファブリック モジュール エラー モニタリング

この章では、ファブリック モジュール エラー モニタリング(XbarErrorMonitor)とその構成方法について説明します。

ファブリック モジュール エラー モニタリングの機能履歴

機能名

リリース

機能情報

ファブリック モジュール エラー モニタリング(XbarErrorMonitor)

9.3(1)

この機能が導入されます。

ファブリック モジュール エラー モニタリングについて

Cisco MDS のファブリック モジュールは、一般に Xbar と呼ばれます。これらのファブリック モジュールには、ファブリック 1 とファブリック 3 の 2 つのバージョンがあります。CRC エラーのある FC ポートが受信したフレームはドロップされ、それ以上転送されません。フレームがコンポーネントからコンポーネントへ、およびモジュールからモジュールへ移動すると、エラーが発生する可能性があります。フレームは、スイッチング パスに沿ったいくつかの場所で CRC チェックされます。フレームがエラーとして検出されると、できるだけ早く破棄されます。

既存の「内部 CRC 検出および分離」機能は、これらの内部 CRC エラーが発生した場合に検出し、修正措置を講じることができます。ただし、ファブリック モジュールでは、厳密には内部 CRC エラーではない他のエラーが発生する可能性があります。Cisco MDS リリース 9.3(1) で導入されたファブリック モジュール エラー モニタリング(XbarErrorMonitor)機能は、「内部 CRC 検出および分離」機能を補完し、これらのエラーの存在を検出して修正アクションを実行するように設計されています。この機能により、ネットワーク セットアップで I/O 問題を引き起こす可能性のあるファブリック 1 およびファブリック 3 モジュールのある特定のハードウェア カウンタをモニタできます。

XbarErrorMonitor は、MDS スケジューラ機能を利用してこれらの内部エラーをチェックする Python スクリプトです。これは、スケジューラに定期的に実行させることで機能します(デフォルトは 120 秒)。実行するたびに、「show hardware internal errors」コマンドを発行し、スイッチに存在する特定のファブリック モジュール タイプに対してモニタされた特定のカウンタを記録します。その後、一定時間(デフォルトは 30 秒)スリープ(一時停止)し、別の「ハードウェア内部エラーの表示」コマンドを発行して、特定の各カウンタを前の値と比較します。モニタ対象のカウンタの 1 つ以上がしきい値(デフォルトは 50)以上である場合、指定されたアクション(デフォルトは「ログのみ」)が実行されます。

ファブリック モジュール エラー モニタリングのガイドラインおよび制限事項

  • この機能は、Cisco MDS 9700 シリーズ スイッチのみをサポートします。

  • この機能は、Cisco MDS リリース 9.3(1) にアップグレードすると自動的に有効になります。この機能にはデフォルト値があります。スケジュール間隔は 120 秒、スリープ時間は 30 秒、カウンタのしきい値は 50、デフォルトのアクションはログのみです。

  • この機能は、スイッチ内の次のエラー カウンタをモニタします。

    • ファブリック 1 モジュール カウンタ

      - INTERNAL_ERROR_CNT

      - HIGH_XT_DROP_CNT

      - SAC_XTIMEOUT_INTR_HI

    • ファブリック 3 モジュール カウンタ

      - ポート宛てにドロップされたパケット

      - 受信ポートでパケットがドロップする

      - ダブルビット ECC エラー


    (注)  


    これらのカウンタは、show hardware internal errors コマンドを使用して表示できます(ゼロ以外の場合)。


  • デフォルトでは、この機能はファブリック モジュール 1 およびファブリック モジュール 3 のカウンタを 2 分ごとにモニタします。カウンタがデフォルトのしきい値である 50 を超えると、それぞれのスパインに障害があることを示す syslog が表示されます。次に例を示します。

    
    2022 Jun 28 14:10:38 sw9706-89 %USER-2-SYSTEM_MSG: 
    xbarErrorMonitor: counter threshold exceeded for xbar 3 for 
    counter packets dropped destined to port. (Before: 0, After: 128, Delta 128).
  • XbarErrorMonitor が特定のパラメータ セットで開始された場合は、パラメータを変更するときに、すべての既定以外のパラメータが指定されていることを確認します。次に例を示します。

    xbarErrorMonitor -si 180 enable
    xbarErrorMonitor -a log-and-out-of-service enable
  • xbarErrorMonitor log-and-out-of-service enable コマンドを使用すると、si パラメータが渡されないため、スケジューリング間隔はデフォルトの 120 秒に戻ります。

  • xbarErrorMonitor を有効にすると、xbarErrorMonitor_job という名前のスケジューラ ジョブと XbarErrorMonitor_Schedule という名前のスケジューラ スケジュールが作成されます。これらは削除しないでください。削除すると、xbarErrorMonitor が機能しなくなります。

ファブリック モジュール エラー モニタリングの構成

手順

  コマンドまたはアクション 目的

ステップ 1

switch# xbarErrorMonitor enable

スイッチの XbarErrorMonitor 機能を有効にします。

ステップ 2

switch# xbarErrorMonitor disable

(オプション)XbarErrorMonitor 機能を無効にします。

ステップ 3

switch# xbarErrorMonitor -h

エラー モニタリング パラメータを変更します。

(注)  

 

ヘルプ オプションには、選択したパラメータに基づいてモニタリングを実行できるように変更できるパラメータのリストが表示されます。このオプションの使用例については、「構成例」セクションを参照してください。

ステップ 4

switch# xbarErrorMonitor show

xbar エラー モニタリングのステータスを確認します。

設定例

次の例は、XbarErrorMonitor 機能のステータスを確認する方法を示しています。

switch# xbarErrorMonitor show
xbarErrorMonitor 1.0

Status: Enabled
Schedular Interval: 120
Sleep Time: 30
Counter Threshold: 50
Action: log-only
Counters Monitored:
  packets dropped destined to port
  packets drop on receive port
  double bit ecc error

次の例は、エラー モニタリング パラメータを変更する方法を示しています。


Switch(config)# xbarErrorMonitor --help
usage: xbarErrorMonitor [-h] [-v] [-si] [-st] [-t] [-a]
                        {enable,disable,show,forScheduler} ...
 
Enable/Disable xbar error monitor on the switch
 
positional arguments:
  {enable,disable,show,forScheduler}
    enable              Enable xbarErrorMonitor feature
    disable             Disable xbarErrorMonitor feature
    show                Show current status of xbarErrorMonitor feature
    forScheduler        This option is for schedular only, DO NOT USE THIS
                        MANUALLY
 
optional arguments: 
  -h, --help            show this help message and exit
  -v, --version         show program's version number and exit
  -si , --schedular-interval 
                        scheduler interval time, value should be between 120s
                        to 3600s. Default value is 120s.
  -st , --sleep-time    sleep time between getting error counters, value
                        should be between 30s to 90s. Default value is 30s.
  -t , --counter-threshold 
                        counter threshold value beyond which action will be
                        taken, value should be between 50 to 500. Default
                        value is 50.
  -a , --action         action that needs to be taken when counter breaches
                  the threshold value. 'log-only': Shows only a syslog,
                        'log-and-out-of-service': Shows a syslog as well as
                        puts the xbar out-of-service. Default action is log-
                        only.