製品概要Cisco 7500 シリーズ ルータ ハイアベラビリティ イニシアチブ - ダウンタイムを克服要約インターネット ユーザとインターネット ベースのミッション クリティカルなアプリケーションの数が異例の速さで日々増加するのに伴い、サービスプロバイダーおよび企業のお客様から、より高度な信頼性とアベイラビリティが要求されるようになりました。ダウンタイム 1 分で、何百万ドルという収益が失われたり、ばつの悪い見出しで公開されることがあるため、企業ではシステムのアベイラビリティを高めることのできるソリューションが熱心に探し求められています。ネットワーキング製品の シスコの HA(ハイアベイラビリティ)機能は、お客様の動作可能時間を増し、財務面での業績、評判、およびお客様のロイヤリティなどの保護を支援します。 シスコシステムズは、同社製品の HA パフォーマンスを改善するための一連のプログラムを開始しました。この「概要」は、Cisco 7500 シリーズ ルータに特化した、HA イニシアティブを説明しています。 アベイラビリティの基本的要素アベイラビリティとは、単なる概念ではなく、数学的に表すことのできる技術でもあります。アベイラビリティの高いシステムとは、お客様で必要とされるときに使用可能なシステムを言います。稼働時間が午前 8 時から午後 5 時までのシステムであっても、営業上の要件がそうであれば、そのシステムはアベイラビリティが高いことになります。残りの時間は、メンテナンスや修理に充てることができます。アベイラビリティは、「実際のサービス」を「必要とされるサービス」で割ることにより定義されます。今日では多くのシステムに、1 年 365 日 24 時間運転(7 x 24、365 x 24 とも呼ばれます)の難題が課されています。 アベイラビリティはよく、パーセントで表されます。アベイラビリティ 99.9 % の 365 x 24 システムの平均ダウンタイムは、1 年で 8.76 時間(525 分)です。サービス停止時間が 3 分しかないシステムは、アベイラビリティ 99.999 % となります。 アベイラビリティは、すべてのシステム コンポーネント用の統計モデルで計算されています。これは、バイナリのコンポーネントにしては最も簡単なモデルです。コンポーネントはイン サービスであるか、アウト オブ サービスであるかのいずれかになります。アベイラビリティは MTBF(平均障害間隔)で測定される障害率、および MTTR(平均修理時間)で測定される修理時間からも算出されます。 コンポーネントごとの平均ダウンタイムに占める時間は、MTBF 時間内の MTTR 時間を償却すれば計算できます。仮に、プラットフォームの運用にクリティカルな、1 コンポーネントの MTBF が 250,000 時間で、MTTR が 1 時間である場合、システム使用不可時間のうちでこのコンポーネントが占める時間は、1 年で 2.1 分(60 分/ 250,000 時間/ 8760 時間/年)になります。 コンポーネントの信頼性を最大限にし、修理時間を最小限にすれば、99 ~ 99.9 % の範囲でアベイラビリティを達成できます。より高い信頼性の達成、またはより信頼性の低いコンポーネントの補正に、冗長化が利用されます。障害コンポーネントのバックアップがあれば、システムの運用は継続できます。冗長構成のアベイラビリティは、検出してから冗長コンポーネントにスイッチオーバーするまでの時間に基づいて計算されます。 シスコシステムズは、Cisco 7500 シリーズ ルータを、業界で最高のパフォーマンス、ファイブナイン(99.999 %)のアベイラビリティ領域へと進展させるために、懸命に努力を続けています。 Cisco 7500 ハイアベイラビリティ イニシアチブCisco 7500 シリーズ ルータは、計画的/計画外のネットワーク障害時に、より高いアベイラビリティを実現することに焦点を当ててゆきます。このルータは大規模なネットワーク向けのエッジ ルータとして卓越した位置付けをされているため、ハイアベイラビリティはお客様に求められる重要な機能です。エッジルータでは、コア ルータにとっては通常利点のある、冗長ネットワーク アーキテクチャ トポロジからの利点がありません。そのため、ネットワーク内で障害のシングル ポイントになりやすくなります。お客様はダウンタイムを、ビジネス目標と顧客関係を阻む重大な障害として理解しています。しかし、すべての場合において、ネットワーク全域に機器や回路の冗長化を構築できるわけではありません。したがって、エッジ ルータのアベイラビリティ イニシアチブは、次のような機能の提供に重点を置く必要があります。
Cisco 7500 シリーズ ルータの拡張ハイアベイラビリティ機能は、以下のとおりです。
HSA(ハイ システム アベイラビリティ)の概観システムのアベイラビリティを高めるための主要な方法の 1 つが、冗長化です。アクティブな RSP(Route Switch Processor)の障害が発生した場合、スタンバイ RSP がテイクオーバーして、システムで処理と転送が続行できるようにします。Cisco HSA(High System Availability)はこの方法を採用してルート プロセッサの障害に対処すると同時に、システム アベイラビリティを向上させます。しかし、このプロセスにはまだ最適化の余地が残されています。HSA プロセスでは、初期障害から最初のパケット送信までの時間の内訳は、次のようになっています。
このプロセスはコールド スタンバイと呼ばれ、復元中はシステム全体が機能を失うことを示唆します。復元中、ルータを介して流れるすべてのトラフィックが失われます。コールド スタンバイを使用する利点は、デバイスが、手動による介入なしで、ルータの制御権を持つスタンバイ RSP のリブートによって、再起動することです。 RPR(Route Processor Redundancy)Cisco 7500 は RPR 機能を実装しているため、HSA スイッチオーバー プロセスのステップ 2 と 3 がありません。その結果、障害回復時間が短縮されます。スタンバイ RSP がルータの制御権を得る前に、すでに起動プロセスを開始していたことから、回復時間が短縮されたことになります。これはウォーム スタンバイ モードと呼ばれます。 ウォーム スタンバイ モードでは、ルータに電源が投入されると、アクティブおよびスタンバイ RSP が両方ともブートして、初期化が行われます。スタンバイ RSP は、Cisco IOS(R)ソフトウェアの起動プロセスとほとんど同じ手順をたどりますが、最後の数ステップは実行しません。あたかもすべてのラインカード(LC)が OIR(Online-Insertion-and-Removal)によって削除されたかのように、初期化が行われます。 アクティブ RSP の障害が発生した場合、スタンバイ RSP がテイクオーバーします。スタンバイ RSP は、アクティブ RSP になるとき、起動プロセスの最後の数ステップだけを完了すればよいので、復旧時間が短縮されます。ラインカード は、スイッチオーバーの間にスタンバイ RSP(現在はアクティブ RSP)によって OIR 挿入されます。この新しいスイッチオーバーの方法により、スイッチオーバー時間はコールド スタンバイのシナリオに比べ 50 % 短縮されます。(8-10 分 から 4-5 分まで) RPR+(Route Processor Redundancy+)RPR 機能を基にした RPR+ 機能では、HSA スイッチオーバー プロセスのステップ 4 と 5 が不要になります。Cisco 7500 に搭載された RPR+ 機能では、ラインカード はスイッチオーバーの間中 UP 状態に保たれます。これらの ラインカード はリロードしたり、再初期化できません。この機能により、ルート プロセッサのスイッチオーバー時間は、RPR に比べて 90 % 短縮されます。(30 ~ 40 秒にまで下がります。) FSU(Fast Software Upgrade)RPR と RPR+ は、予期できない RSP 障害に対処するために使用されるのに対し、FSU(Fast Software Upgrade)は、たとえばソフトウェアのアップグレードやメンテナンスなど、あらかじめ予定されたダウンタイムにおけるアベイラビリティを向上させる目的で使用されます。 RPR と同じプロセスを使用することにより、予定ダウンタイムは劇的に短縮されます。RPR でアクティブ RSP とスタンバイ RSP の両方に同じ Cisco IOS ソフトウェア イメージが使用されるのとは違い、FSU ではアップグレード済みの Cisco IOS ソフトウェア イメージが、スイッチオーバーよりも前にスタンバイ RSP にロードされます。これによって、ダウンロード時間、圧縮解除時間、IOS イメージをアップグレードするときの初期化時間を含め、RPR シナリオと同等の時間が節約されます。 SLCR(Single Line Card Reload)この機能が使用可能になる以前は、ラインカード の障害が発生した場合、バックプレーン全体が非アクティブにされ、すべての ラインカード がリロードされていました。この間、パケットの転送は行われませんでした。SLCR は、Cisco 7500 シリーズ ルータの HA を向上させるための新しい回復プロセスとして使用されます。1 つの ラインカード でエラーが発生した場合、すべての ラインカード ではなく、その ラインカード だけがリロードされます。この新しいプロセスにより、1 つの ラインカード 障害からの回復時間が 85 % 削減されます。 SSO(Stateful Switchover)RPR+ に基づいたこの機能では、ステップ 6 と 7 の所要時間が短縮できます。このステートフル スイッチオーバー機能を使用すれば、アクティブな RSP は、主要なルーティングとインターフェイス プロトコルに関する必要なステート情報を、スイッチオーバー時にスタンバイ RSP へ渡すことができます。これにより、スタンバイ RSP がルートを学習して集束する時間が短縮できます。この機能は 12.0(22)S で使用可能になる予定です。 NSF(Non-Stop Forwarding)同じく RPR+ に基づくもう 1 つの機能 Non-Stop Forwarding では、冗長 RSP を搭載したルータが、スイッチオーバーの間も継続して、スタンバイ RSP にデータを転送できます。この機能は、スイッチオーバー時点で最新であった FIB(転送情報ベース)を使用しています。ルート プロトコルの集束が完了すると、FIB テーブルは更新され、古くなったルート エントリは削除されます。この機能により、スイッチオーバーによるダウンタイムはなくなります。この機能は 12.0(22)S で使用可能になる予定です。 結論シスコシステムズは、Cisco 7500 シリーズ ルータの HA パフォーマンスを改善し続けることに専念してまいります。サービスプロバイダーは、システム障害を防ぐことで何百万ドルもの運用費の節約が見込まれ、また信頼性の高いイメージと評判が保てます。いずれも、サービスプロバイダーが成功するためには不可欠の要素です。企業のお客様には、クリティカルなビジネス通信およびアプリケーションの処理が継続して行われるので、企業の競争力のみならず生産性の飛躍的な向上が期待できます。つまり、サービスプロバイダーにとっても企業のお客様にとっても、今日の競争市場で成功するためには拡張 HA パフォーマンスが不可欠です。 |
![]() |