はじめに
このドキュメントでは、アプリケーションセントリックインフラストラクチャ(ACI)スイッチプラットフォームでのソリッドステートドライブ(SSD)の耐用年数の動作について説明します。
Application Policy Infrastructure Controller(APIC)(スイッチノードではない)に対して発生したSSD障害の結果としてこのページが表示される場合は、『FN64329』を参照してください。
APIC SSDの交換APIC SSDの交換手順を文書化します。
背景説明
ACIリーフ/スパイン型ノードは、ストレージとイベントロギングにSSDを活用します。すべてのSSDは、ベンダーのタイプに関係なく、メーカーが定義した特定の属性に基づいて寿命が固定されています。たとえば、書き込み回数や消去回数、一定期間にドライブに転送されるデータ量などがあります。リーフノードとスパインノードのSSDの寿命は、定期的な消耗によって使い果たされることがあります。SSDが使い果たされそうになったスイッチに対してユーザが適切なアクションを実行しないと、SSDが読み取り専用モードに移行するため、スイッチがクラッシュする可能性があります。このため、特定のノードに対してF3073障害が発生した場合は、SSDの交換に優先順位を付けることが不可欠です。SSDは、シスコ認定フィールドエンジニアが現場交換できます。
F3073は、リリース2.1(4)、2.2(4)、2.3(1o)、および3.1(2m)で実装されました。それ以降のソフトウェアバージョンでは、F3073を引き上げる機能があります。
注:SSDモニタリング機能のないバージョンのACIソフトウェアを実行する場合は、モニタリング機能を使用できるバージョンにアップグレードすることを強くお勧めします。
SSDを交換しない場合の一般的な症状
1.スイッチが起動に失敗すると、コンソールに次のエラーが表示されます。
/dev/hd-cfg0: ********** WARNING: Filesystem still has errors **********
e2fsck 1.42.1 (17-Feb-2012)
/dev/hd-cfg1: recovering journal
/sbin/e2fsck: unable to set superblock flags on /dev/hd-cfg1
2.今後のコードリリースで、SSDに関連する障害(SSDの寿命の使用状況に基づいてF3073またはF3074)を予防的に発生させることができます(後のセクションで説明)。
3. SSDの使用率が高い場合にエラーF3525が発生する場合もあります。この障害は、F3073/F3074と混同されることがよくあります。
# fault.Inst
code : F3525
ack : no
annotation :
cause : equipment-flash-warning
changeSet : deltape (New: 21), peCycles (New: 1678), tbw (New: 32.465179), warning (New: yes)
childAction :
created : 2019-08-05T18:22:01.455-07:00
delegated : no
descr : High SSD usage observed. Please check switch activity and contact Cisco Technical Support about high SSD usage.
dn : topology/pod-1/node-206/sys/ch/supslot-1/sup/flash/fault-F3525
domain : infra
extMngdBy : undefined
highestSeverity : warning
lastTransition : 2019-08-05T18:24:02.029-07:00
lc : raised
modTs : never
occur : 1
origSeverity : warning
prevSeverity : warning
rn : fault-F3525
rule : eqpt-flash-flash-warning-alarm
severity : warning
status :
subject : flash-warning-alarm
type : operational
7日間にP/E(プログラム消去)サイクルが21以上増加すると、エラーF3525が発生します。これは、SSDが使い古されたことを意味するわけではありません。単に、SSDが使い古される原因になる可能性のある多数のチャーンが発生するためです。
Technical Assistance Center(TAC)と協力して、この問題の原因を把握し、対処する必要があります。特定のタイプのSSDでF3525が上昇するしきい値を変更するポリシーもあります(アクセスポリシー>ポリシー>スイッチ>機器のフラッシュ設定ポリシーを参照)。
SSDの現在の状態を確認する方法
SSDのライフスパンのステータスを確認するには、次の2つの方法があります。
予防的なシステムアラート
SSDライフタイムモニタリングは、次のバージョンのコードでCisco Bug ID CSCve88634の一部として追加されました。
- 2.1トレインでは2.1(4)以降
- 2.2トレインでは2.2(4)以降
- 2.3トレインでは2.3(1o)以降
- 3.1(2m)および今後のすべてのリリース
ドライブがライフタイムの80%に近づくとマイナー障害が発生し、ライフタイムの90%を超えるとメジャー障害が発生します。
これにより、ネットワークオペレータは、SSDのライフタイムの超過が原因で障害が発生する前に、スイッチを監視して予防的に交換できます。
- F3074: fltEqptFlashFlash-minor-alarm(80 %のライフタイム)
- F3073: fltEqptFlashFlash-worn-out(90 %のライフタイム)
以前のバージョンのコードには、スイッチSSDのSSDライフタイムチェックがありませんでした。したがって、スイッチがSSDの有効期限に近づいていても、エラーは発生しません。
手動データ分析
SSDの使用状況ロギングは、3.2(5d)、3.2(6i)、3.2(7f)、および4.1(1i)の各リリースから導入されています。
a-leaf101# cat /mnt/pss/ssd_log_amp.log (Tested on 4.2.3l)
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Mon Dec 16 19:00:01 EST 2019 16531370 0 29398 12350 100 0 122396965772 3825894828 60841125365 16 0.00 % 0 0
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Tue Dec 17 19:00:01 EST 2019 16531725 0 29422 12355 100 0 122447755358 3827482016 60858831240 16 0.00 % 12355 61606629993
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Wed Dec 18 19:00:01 EST 2019 16532222 0 29446 12359 100 0 122495197374 3828964594 60875667807 16 0.00 % 12359 61636366134
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Thu Dec 19 19:00:01 EST 2019 16533056 0 29470 12364 100 0 122542269672 3830435617 60892533342 16 0.00 % 12364 61666601865
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Fri Dec 20 19:00:01 EST 2019 16534010 0 29494 12367 100 0 122587126224 3831837398 60908759296 16 0.00 % 12367 61694592882
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Sat Dec 21 19:00:01 EST 2019 16535311 0 29518 12372 100 0 122631804318 3833233605 60925205662 16 0.00 % 12372 61723045022
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Sun Dec 22 19:00:01 EST 2019 16536727 0 29542 12376 100 0 122676829388 3834640654 60941741722 16 0.00 % 12376 61751623726
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Mon Dec 23 19:00:01 EST 2019 16538321 0 29566 12380 100 0 122722137414 3836056544 60958504969 16 0.00 % 12380 61780395692
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Tue Dec 24 19:00:01 EST 2019 16539858 0 29591 12384 100 0 122767087802 3837461258 60975050343 16 0.00 % 12384 61808582833
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Wed Dec 25 19:00:01 EST 2019 16541121 0 29615 12388 100 0 122812238580 3838872234 60991578411 16 0.00 % 12388 61837188237
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Thu Dec 26 19:00:01 EST 2019 16542653 0 29639 12393 100 0 122857007868 3840271286 61008101155 16 0.00 % 12393 61865429457
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Fri Dec 27 19:00:01 EST 2019 16544352 0 29663 12397 100 0 122901807026 3841671272 61024757511 16 0.00 % 12397 61893705871
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Sat Dec 28 19:00:01 EST 2019 16546213 0 29687 12401 100 0 122946927200 3843081289 61041459287 16 0.00 % 12401 61922169689
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Sun Dec 29 19:00:01 EST 2019 16549522 0 29711 12405 100 0 122991584018 3844476827 61058889999 16 0.00 % 12405 61950124731
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Mon Dec 30 19:00:01 EST 2019 16551885 0 29735 12410 100 0 123036252528 3845872732 61075846564 16 0.00 % 12410 61977362529
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Tue Dec 31 19:00:01 EST 2019 16553858 0 29759 12414 100 0 123098133082 3847806568 61093085451 16 0.00 % 12414 62022286518
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Wed Jan 1 19:00:01 EST 2020 16555127 0 29783 12418 100 0 123142018610 3849178024 61109758713 16 0.00 % 12418 62048933159
Model SerialNo Software-Version Date RawReadError(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attribute(210) TBW(246) HostPageCount(247) BackgroundPageCount(248) WAF Delta_WAF Delta_PE Delta_TBW
Micron_M600_MTFDDAT064MBF MSA195207V1 Thu Jan 2 19:00:01 EST 2020 16556532 0 29808 12422 100 0 123186637556 3850572390 61126687626 16 0.00 % 12422 62076878843
Model SerialNo SW-Version Date R.Error(1) GBB(5) UpTime(9) PE(173) LifeTime(202) Attr(210) TBW(246) WAF DWAF DPE DTBW
Micron_M600_MTFDDAT064MBF MSA195207V1 14.2(3l) 2020-01-03 16557977 0 29832 12428 100 0 123278298184 16 0.00 % 0 0
Micron_M600_MTFDDAT064MBF MSA195207V1 14.2(3l) 2020-01-04 16558440 0 29856 12433 100 0 123323818606 16 0.00 % 5 45520422
Micron_M600_MTFDDAT064MBF MSA195207V1 14.2(3l) 2020-01-05 16559031 0 29880 12438 100 0 123369348610 16 0.00 % 5 45530004
Micron_M600_MTFDDAT064MBF MSA195207V1 14.2(3l) 2020-01-06 16561567 0 29904 12443 100 0 123415316270 16 0.00 % 5 45967660
Micron_M600_MTFDDAT064MBF MSA195207V1 14.2(3l) 2020-01-07 16564701 0 29928 12448 100 0 123460483898 16 0.00 % 5 45167628
Micron_M600_MTFDDAT064MBF MSA195207V1 14.2(3l) 2020-01-08 16565955 0 29952 12453 100 0 123505550532 16 0.00 % 5 45066634
ssd_log_amp.logファイルは、1of3スイッチのテクニカルサポートページにあります。
その他の製造元関連のコマンドの出力には、TACサービスリクエストを必要とするrootユーザの権限が必要です。
スイッチSSDの寿命が尽きる原因
- サービサビリティを確保し、イベント発生後も長期にわたってイベントの根本原因を提供できるように、ACI APICおよびスイッチには、SSDに対して永続的な各コンポーネントの冗長ロギングがあります。
- これらのロギング機能には、大量のディスク書き込みと上書きが必要です。これを実行するディスクの機能は無限ではありません。したがって、ドライブに関連するライフタイムがあります。ネットワークの不安定さ(膨大な数の移動やポリシーの更新など)が長期間続くと、スイッチSSDの枯渇が早まる可能性があります。
- ディスクに書き込まれるデータの量を減らしながら、書き込みを最適化し、保守性を維持するために、多くの機能拡張が行われています。これらの変更は、さまざまなバージョンで導入されました。「コード最適化」セクションを参照してください。
- コード最適化機能拡張が統合されたバージョンでも、毎日2/3 P/Eサイクルなどの高速SSD消費が発生する場合は、ほとんどのDBがRAMFSに書き込まれるため、ログではなくDB書き込みが原因である可能性が非常に高くなります。ローテーションが必要な場合、ログはZIPの後にのみSSDに移動されます。
コード最適化
ディスクに書き込まれるデータの量を減らしながら、書き込みを最適化して保守性を維持するための多くの機能拡張が行われています。これらの変更は、さまざまなバージョンで導入されました。
- Cisco Bug ID CSCve88634:SSDがライフタイムを超えたときに障害が発生します。
リリース2.1(4)、2.2(4)、2.3(1o)、および3.1(2m)に追加
- Cisco Bug ID CSCvi32353:SSDのF3073リビジョンのライフタイム超過検出ロジック
- Cisco Bug ID CSCvh73803:SSDへのロギングの影響を減らすためにtmp_logs用にramfsパーティションを作成する
- Cisco Bug ID CSCvm97108:SSDオーバープロビジョニングの変更を追跡するバグ
- Cisco Bug ID CSCvt36458:スイッチのSQL DBパーシステントレイヤを削除。
リリース4.2(6d)および5.1(1h)に追加
リリース3.2.4d以降および4.x以降には、SSDの寿命を延ばすために必要なすべての障害モニタリングと最適化の拡張機能が備わっています。もちろん、これらのリリースにアップグレードしても、SSDの寿命の問題を完全に回避できるわけではありません。
リロードタイプの動作の変更
Cisco Bug ID CSCvt36458により、ACIスイッチノードのアングレースフルリロードの予測動作が変更されました。
リロードタイプ |
Cisco Bug ID CSCvt36458以前 |
Cisco Bug ID CSCvt36458以降 (4.2(6d)以降および5.1(1h)以降) |
アップグレード |
ステートレス |
ステートレス |
グレースフルリロード(手動リロード、hap-reset) |
ステートフル |
ステートフル |
アングレースフルリロード(カーネルパニック、電源の再投入) |
ステートフル |
ステートレス |
要約すると、グレースフルスイッチリロードでは、引き続きbringup時にDBが使用されます。通常とは異なるスイッチリロードでは、アップグレードと同様に、すべてのポリシーをAPICから取得する必要があります。
その他のFAQ
現場でSSDを交換できますか。
はい。シスコは現在、認定フィールドエンジニアの支援を受けて、現場でSSDの交換を行っています。モジュラスパインでは、スーパーバイザ全体が交換されます。
スイッチハードウェアの予防的な交換が必要ですか。
TACエンジニアは、smartctlの値をチェックし、どのスイッチのライフタイムがより長いかを評価することで、最も緊急を要するスイッチの交換を即時に行い、その後徐々に緊急を要しないスイッチの交換に移ることができます。
SSD障害の影響を受けやすい特定のハードウェアPIDはありますか。
いいえ。SSDの耐用年数は、同じ環境内の異なるデバイス間で異なる可能性があります。SSDディスクの使用は、デバイスがイベントを保持するためにログを書き込む頻度によって異なります。ネットワークの不安定性に起因する多数のイベントを登録するデバイスは、他のデバイスよりも早くSSDの寿命に達する可能性があります。したがって、シスコでは、SSDの書き込みの制御とSSDの寿命の延長にコード最適化が役立つようにするために、新しいリリースを使用する必要性を提唱しています。