概要
このドキュメントでは、さまざまなタイプのディスクエラー、分類の方法、およびそれらを識別するために使用できるツールについて説明します。
前提条件
要件
このドキュメントに特有の要件はありません。
使用するコンポーネント
このドキュメントの情報は、Unified Computing System(UCS)のハードディスクに基づいています。
このドキュメントの情報は、特定のラボ環境にあるデバイスに基づいて作成されました。このドキュメントで使用するすべてのデバイスは、初期(デフォルト)設定の状態から起動しています。対象のネットワークが実稼働中である場合には、どのようなコマンドについても、その潜在的な影響について確実に理解しておく必要があります。
背景説明
また、ドライブの中エラーを特定する際のハードディスクドライブ(HDD)コントローラと冗長ディスクアレイ(RAID)コントローラの役割についても説明します。
注:メディアエラーは、メディアエラーとも呼ばれます
HDD中程度のエラーの処理
HDDメディアエラーの原因は何ですか。
中程度のエラーの最も一般的な原因は、
- 信頼性の低い論理バスアドレス(LBA)の読み取り場所。複数の再試行で回復可能な場合があります。
- 一時的な状態、ソフトパーティクルによる高いフライ書き込み。
- 一時的な衝撃、振動、または音響的なイベントによって発生し、トラック外への書き込みが発生する一時的な状態。
- HDD製造のエラーマップ機能が不十分なため、現在のプライマリ不具合位置がパディングされます。
HDDはメディアエラーをどのように検出しますか。
ステップ1:HDDは定期的にバックグラウンドメディアスキャンを実行してエラーを検出します。
ステップ2:HDDはメディアから読み取りを試みますが、何らかの理由で書き込まれたデータを取得できません。
ステップ3:書き込まれたデータを取得できない場合、HDDはHDD回復コードを呼び出します。このコードは、さまざまなエラー回復手順を試して、メディアからデータを正常に読み取ります。
ステップ4:すべてのリカバリ手順が失敗すると、ドライブはホストに03/11/0xエラーを返し、LBAは保留中の不具合リストに配置されます。
Raidコントローラは中程度のエラーをどのように検出しますか。
- RAIDコントローラでは、Patrol Reads、Consistency Checks、Normal Reads、Rebuild、およびRead/Modify/Write操作の際に中程度のエラーが発生します。
- RAID構成に基づいて、コントローラはHDDから報告された中程度のエラーを処理できる場合があり、これ以上の操作は必要ありません。
- 場合によっては、コントローラは中程度のエラーを処理できず、エラーを処理するためにホストにエラーを渡します。
オペレーティングシステム(OS)で中程度のエラーが表示されるのはいつですか。
- HDDが中程度のエラーを報告し、RAIDコントローラがリカバリを処理できない場合、ホストにエラーが通知されます。
- この通知は、イベントが発生したことをシステムに通知するアドバイザリメッセージではありません。これは、HDDとRAIDコントローラがメディアエラーから回復できなかったため、OSが動作する要求です。
- OSがメディアエラーを正しく解決するために必要なコンテキストを持っている場合は、OSで処理する必要があります
- ディスクがJust a Bunch Of Disk(JBOD)にある場合、コントローラによって修正されないため、OSにはエラーが表示されます。これは、HyperFlex(HX)/仮想ストレージエリアネットワーク(VSAN)環境で一般的です。
HDDの役割
成長不具合(Gリスト)HDDレベル
ドライブの動作中に、ヘッドが弱められた磁気読み取りレベルのセクタに到達する場合があります。データはまだ読み取り可能ですが、認定された良品セクタの読み取りレベルに対して優先しきい値を下回る場合があります。このディスクドライブは、このデータをセクタが既知の良品の予約リストで利用可能な新しい場所にスペアする可能性があり、またセクタがこのデータを新しい場所にスペアすると考えます。データを移動すると、古いセクタのアドレスがGrown Sectorリストに追加され、再び使用されることはありません。このプロセスは回復可能なメディアエラーです。正常なスペアのセクタの大半が使い果たされると、ドライブはSMARTトリガーを提供します。
RAIDコントローラの役割
パトロール・リード
- Patrol Readは、バックグラウンドでドライブの読み取りを実行し、ドライブの不良エリアをマップするユーザ定義可能なオプションです。
- Patrol Readは、ドライブ障害を引き起こす可能性のある物理ディスクエラーをチェックします。通常、これらのチェックには修正措置の試みが含まれます。Patrol読み取りは、自動または手動によるアクティブ化で有効または無効にできます。
- Patrol Readは、コントローラに接続されている物理ディスクのすべてのセクタ(RAID構成ドライブ内のシステムリザーブ領域を含む)を定期的に検証します。Patrol Readは、すべてのRAIDレベルとすべてのホット・スペア・ドライブで動作します。
- このプロセスは、RAIDコントローラが定義された時間アイドル状態で、他のバックグラウンドタスクがアクティブでない場合にのみ開始されます。ただし、大量の入出力(I/O)プロセスと同時に実行を継続できます。
- JBODで設定されたドライブではパトロール読み取りを実行できません。
注:Resilient Semantic Indexing(LSI)では、パトロールの読み取り頻度やその他のパトロール読み取り設定をデフォルト値のままにして、システムのパフォーマンスを最大限に高めることを推奨しています。値を変更する場合は、元のデフォルト値をここに記録して、後で復元できるようにします。
注: Patrol Readは、実行中の進行状況を報告しません。パトロールの読み取りステータスは、イベントログにのみ報告されます。
Patrol Readオプションを次の図に示します。
MegaCliの例
パトロールの読み取り状態とパトロールの読み取り間隔に関する情報を表示するには:
# MegaCli64 -AdpPR -Info -aALL
現在のパトロールの読み取り率を確認するには、次のコマンドを実行します。
# MegaCli64 -AdpGetProp PatrolReadRate -aALL
自動パトロールを無効にするには:
# MegaCli64 -AdpPR -Dsbl -aALL
自動パトロールを有効にするには:
#MegaCli64 -AdpPR -EnblAuto -aALL
手動パトロール読み取りスキャンを開始するには:
# MegaCli64 -AdpPR -Start -aALL
パトロール読み取りスキャンを停止するには:
# MegaCli64 -AdpPR -Stop -aALL
整合性チェック
- RAIDでは、整合性チェックによって、アレイ内の冗長データの正確性が検証されます。たとえば、パリティ付きシステムでは、整合性をチェックすることは、データドライブのパリティを計算し、その結果をパリティドライブの内容と比較することを意味します。
- JBODは整合性チェックをサポートしていません。
- RAID 0は整合性チェックをサポートしていません。
- RAID 1では、パリティではなくデータ比較が使用されます。
- RAID 6は2つのパリティドライブのパリティを計算し、両方を検証します。
注:少なくとも1ヵ月に1回、整合性チェックを実行することをお勧めします。
Consistency Check(GCHECK;整合性チェック)管理オプションは、次の図に示すとおりです。

Consistency Checkのスケジューリングオプションを次の図に示します。

MegaCliの例
次のスケジュールされた整合性チェック時間を表示するには、次の手順に従います。
#MegaCli64 -AdpCcSched -Info -aALL
スケジュールされた整合性チェック時間を変更するには、次の手順に従います。
#MegaCli64 -AdpCCSched -SetSTartTime 20171028 02 -aALL
整合性チェックを無効にするには:
#MegaCli64 -AdpCcSched -Dsbl -aALL
RAIDコントローラが中程度のエラーを修復できない場合の条件
- RAID 0内
- 冗長性がないため、コントローラはLBAに書き込むデータをHDDに提供できません。
- RAID 1内
- どのミラーコピーに正しいデータが含まれているかわからない場合。これは、両方のLBAを読み取ることができますが、データが一致しない場合にのみ発生します。
- RAID 5
- 同じストライプに2つ以上のエラーがある場合。アレイの再構築が開始された後に発生する可能性が高い。再構築されたドライブは1つのエラーであり、他のドライブの再構築の中のエラーは2番目のエラーです。コントローラは、交換用ドライブのLBAを再構築するために必要なデータを再構築できません。
- RAID 6
- 同じストライプに3つ以上のエラーがある場合。アレイの再構築中に発生する可能性が高い。再構築されたドライブは1つのエラーで、再構築の進行中に他の2つのドライブで発生した中程度のエラーは2番目と3番目のエラー、または中程度のエラーと2番目のドライブの障害です。コントローラは、エラーが発生したドライブ上のLBAの再構築に必要なデータを再構築できません。
関連情報