Cisco 12000 Series Internet Routers

고가용성 GSR 백본 구축

Downloads
고가용성 GSR 백본 구축
백서

C isco 12000 기가비트 스위치 라우터 제품군 레이어 3 보호 스위칭

개요

IP 기반의 애플리케이션, 연결 및 서비스에 대한 고객 수요가 폭발적으로 늘어남에 따라 IP 기반 네트워크 인프라의 안정성과 가용성에 관심이 집중되고 있습니다. 용량 및 네트워크 확장에 대한 주요 솔루션의 하나로 IP-옵티컬 인터네트워킹이 급부상하면서 나타난 레이어 3 보호 스위칭은 IP 트래픽에서 수 밀리초 이내에 서비스를 복원할 수 있어야 합니다. 서비스 복구를 단순히 비교한다는 것이 무리가 있기는 하지만, 광 전송 업계에서는 SONET/SDH(Synchronous Optical Network/Synchronous Digital Hierarchy)가 링 토폴로지의 SONET/SDH 물리적 계층에서 50밀리초1 이내에 복구하는 것을 기준으로 삼고 있습니다.

시스코는 이러한 수준의 복원력을 고객에 제공하는 동시에 레이어 3의 IP/MPLS(Internet Protocol/Multiprotocol Label Switching)를 통해 복원 기능의 새로운 기준을 제시합니다. IP 트래픽이 6-9개월마다 두 배로 증가하는 상황에서 전자 상거래, 온라인 검색, 데이터베이스 액세스, 전자 메일 및 음악과 같은 네트워크 서비스를 고객에 제공하려면 IP 패킷을 사용해야 합니다. 따라서 지능적인 서비스 계층으로 IP를 사용함으로써 균일하면서도 신속한 복원력을 제공해야 하며, 그 외에는 광 계층인 SONET/SDH에서 복원력을 제공할 것입니다. 하지만 엔드-투-엔드 애플리케이션에서는 이러한 새로운 토폴로지를 수용할 수 없을 수도 있기 때문에 트래픽 블랙홀과 같은 현상이 발생하거나 통합(플래핑)이 불안정한 서비스가 될 수 있습니다. 실제로 이러한 레이어 3(IP/MPLS) 통합 및 복원에는 30-180초가 소요되었습니다. 기술이 발전을 거듭하고 Cisco 12000 기가비트 스위치 라우터(GSR) 제품군을 시스코에서 출시함으로써 연결 보호를 위한 50밀리초* 미만의 기준을 충족하는 레이어 3 보호 스위칭 기능이 등장하게 되었습니다.

서비스 복구를 위한 레이어링 및 아키텍처는 IP-옵티컬 인터네트워킹을 위한 주요 컴포넌트입니다. 하지만 기본 하드웨어와 소프트웨어는 99.99943퍼센트 이상의 통신 사업자급 가용성을 제공해야 합니다. 본 백서에서는 Cisco 12000 GSR 제품군의 설계 및 기능에 대해 Cisco 12016 GSR을 위주로 소개합니다. 오늘날 400개 이상의 고객용 백본에서 Cisco 12000 GSR을 사용하므로 NEBS의 전체 슈트, 1:N 클럭킹이 가능하며 완벽한 복원력을 제공하는 스위치 패브릭, 모듈의 온라인 삽입 및 삭제(OIR), 여러 라인 카드 간의 분산된 정보 포워딩 기능을 통해 Cisco 12000 GSR은 IP 통신 사업자급 운영을 가능하게 합니다. 또한 레이어 3 보호 스위칭은 개별적인 네트워크 요소보다 더욱 높은 안전성을 제공하도록 설계할 수 있습니다. 이 시스템을 사용하면 고가용성, 토폴로지, 피어링, 논리적 서버 배치를 위한 설계 원리를 비롯하여 SONET/SDH APS/MSP(Automatic Protection Switching/MSP), 병렬 네트워크 경로에서의 IP 로드 공유 및 MPLS 네트워크에서의 신속한 복원 기능과 같은 상호 연결을 위한 설계 원리를 활용할 수 있습니다.

새로운 차원의 서비스 도입


패킷 프로토콜 선택 시 IP/MPLS로 통합하는 일이 폭발적으로 증가하는 데 힘입어 데이터 트래픽도 크게 늘어날 것으로 예상됨에 따라 차세대 네트워크 설계를 위한 토대로 데이터 최적화에 관심이 모아지고 있습니다. 제46차 IETF(Internet Engineering Task Force) 회의에서는 현재 웹 트래픽이 측정된 백본 트래픽의 75%를 차지한다는 결과가 발표되었습니다. 웹 인터페이스를 위한 플러그인 및 애플리케이션이 늘어남과 동시에 트래픽의 양과 서비스 성능에 대한 요구도 증가하게 될 것입니다. 엔지니어링과 서비스 설계 기준에 대한 이와 같은 변화로 인해 지난 몇 년 간의 네트워크 설계 규칙을 다시 검토해야 하는 필요성이 대두되었습니다. 실제로 과거 설계에서는 여러 조건에 영향을 받는 서비스에 대해 정적으로 프로비저닝된 시구간과 미리 프로비저닝된 대역폭을 사용했습니다. 예를 들어 일반적인 장거리(LH) 4F BLSR(four-fiber bidirectional line switched ring)은 장애 복구 조건에 해당할 경우 유휴 상태에서는 링 용량의 절반을 유지합니다. DPT(Dynamic Packet Transport)와 같은 새로운 기술을 적용하면 전체 대역폭을 사용할 수 있으므로 인프라 장비의 다중 계층을 발전시킬 수 있으며, 광 전송 계층과 더불어 레이어 3(IP/MPLS) 서비스 복원 기능을 토대로 지능형 네트워크 서비스 프레임워크를 구축할 수 있습니다.

안정성 및 서비스 복원 기능과 관련한 IP의 두 가지 중요한 특징이 있는데, 첫째는 IP가 네트워크와 엔드 스테이션 애플리케이션에 공존하는 통신 프로토콜이라는 사실입니다. 회로 기반의 통신이나 고객 구내(premise)와 제공업체 에지 장비 사이를 구분 짓는 기존 방식과 달리 IP는 프로세서 간 통신 패브릭에 통합됩니다. 둘째 IP는 전송 수단에 무관하므로 직렬 회선, ISDN(Integrated Services Digital Network), SONET/SDH, 무선, 기가비트 이더넷, FDDI(Fiber Distributed Data Interface), ATM, DSL, 케이블 또는 기타 다른 형태의 물리적인 매체를 통해 통신할 수 있습니다. "Alliance for Telecommunications Industry Solution" 보고서(1998년, www.atis.org)에서도 언급했듯이 문제는 서비스 중단의 주요 원인이 통신 설비(45%)에 있다는 것입니다. 이와 같은 설비 고장의 원인은 케이블 굴착(70%), 공중 케이블 절단(10%), 케이블 유실(10%) 및 케이블의 전자적인 현상(5%)에 의한 것이었습니다. 이는 결국 IP/MPLS 네트워크가 대역폭 링크 장애가 발생했을 때 지능적으로 네트워크 서비스를 복원하고 경로를 다시 최적화할 수 있어야 한다는 것을 의미합니다.

서비스 가용성: 다중 계층


현재 트래픽 증가는 TCP(Transmission Control Protocol)/UDP(User Datagram Protocol)/RTP(Real Time Protocol)/IP(Internet Protocol)/HTTP 등의 프로토콜 또는 일반적으로 IP라고 부르는 프로토콜을 기반으로 하는 애플리케이션에서 가장 두드러집니다. 실제로 사용 가능한 장비, 제품 및 기술은 서로의 발전에 영향을 주는 관계에 있습니다. 레이어 2로 인해 처리 성능이 높아졌으며 SONET으로 인해 성능 모니터링이 가능해졌습니다. 설치 시 이러한 장비를 사용할 수 있게 됨에 따라 결과적으로 네트워크 아키텍처에 계층을 이용한 해결 방법을 적용할 수 있게 되었습니다. 현재의 추세로 보면 ASIC(Application-Specific Integrated Circuit)에서 IP 계층을 위한 라우팅과 스위칭 기능을 제공하는 것이 일반적입니다. IP의 QoS(Quality of Service), 멀티캐스트 및 CIDR(Classless Interdomain Routing)과 같은 분야의 지속적인 발전과 더불어 이와 같은 성능 향상으로 인해 IP-옵티컬 인터네트워킹이라는 새로운 흐름이 나타났습니다. 이 문서에서는 IP-옵티컬 인터네트워킹 인프라 성장에 따른 아키텍처 변화에 대해 설명할 것입니다.

IP 서비스 및 애플리케이션의 포트폴리오를 지원하는 기본적인 통신 아키텍처는 일반적으로 서로 계층을 이루고 있습니다. 그림 1에서와 같이 광 네트워크의 물리적인 토폴로지는 4개의 일반적인 장비/프로토콜 계층으로 펼쳐져 있습니다. 라우팅 부분을 아래 방향으로 살펴 보면 먼저, 라우터는 기본적으로 다음을 수행합니다.
  • IP 패킷 또는 MPLS 레이블을 포워딩합니다.
  • 사용 가능한 IP 경로 또는 라우팅 정보(예: 소스에서 수신지로 이동하는 방법)를 유지합니다.
  • 암호화, 압축, 패킷 기반의 QoS, 주소 변환 및 터널링과 같은 기타 서비스 제공합니다.
ATM(Asynchronous Transfer Mode) 계층에서는 다음을 수행합니다.
  • 다양한 길이의 패킷을 분해하고 고정된 크기의 셀(53바이트)로 합성하는 작업을 수행합니다.
  • 지연, 지터 및 손실과 같은 여러 요소를 기반으로 하는 CoS(Class of Service)를 생성합니다.
  • 소스에서 수신지로의 연결(PVC[Permanent Virtual Circuit] 또는 SVC[Switched Virtual Circuit])을 생성합니다.
  • DS3/E3 이상의 대역폭 속도를 통신 사업자급 광 속도로 확장합니다.
SONET/SDH 계층에서는 다음을 수행합니다.
  • 전기적인 계층을 광 계층으로 인터페이스 연결합니다.
  • 매우 안정적인 링 기반의 토폴로지를 제공합니다.
  • 디지털 계층 수준에서 TDM(Time-Division Multiplexing) 시구간(time slot)을 맵핑합니다.
  • 지터의 정확한 범위를 설정합니다.
WDM(Wave-Division Multiplexing) 계층에서는 다음을 수행합니다.
  • 전기적인 신호를 포인트-투-포인트 토폴로지의 특정 파장(색에 따라 구분)으로 멀티플렉싱하여 사용 가능한 광섬유에서 대역폭을 최대화합니다.
  • 전기적인 계층을 광 계층으로 인터페이스 연결합니다.
그림 1. 멀티레이어의 물리적 토폴로지



오늘날의 IP-옵티컬 인터네트워크 구현에서는 장비의 물리적 계층과 데이터 링크 계층이 여러 개 존재합니다. 통신 장비에 존재하는 각각의 계층은 기가비트 및 테라비트 속도를 얻을 수 있도록 IP 라우팅 정보, 가상 회선 구성, 오류 탐지 및 수정, CoS(Class of Service) 특성, 전기적 신호를 광 신호로 프레이밍, 광 증폭, 파장 멀티플렉싱 등과 같이 여러 가지 중요한 기능을 담당합니다. IP 멀티서비스가 가장 빠르게 성장하는 네트워크 프로토콜로 급부상함에 따라 장비에 각각의 계층을 두는 것에 대한 필요성과 비용에 대한 검토가 이루어지고 있습니다. 예를 들어 IP QoS가 제공되고 DWDM 시스템이 점차 견고한 기능을 갖추게 되면서 추가 비용, 복잡성 및 프로비저닝이 필요한지 여부를 검토하는 것입니다. 이와 같은 문제는 여러 가지 변수가 있을 수 있는 복잡한 문제입니다. 하지만 다중 링크 및 세그먼트에서 IP 트래픽 증가 및 IP의 성능에 대한 추세가 소스에서 수신지로 확장해가는 경향을 띠므로 IP-옵티컬 인터네트워크를 사용하여 솔루션의 모든 주요 요소 제공하는 것이 매우 바람직합니다. "IP를 사용하여 50밀리초2의 링크 복원 성능을 지닌 SONET/SDH와 같거나 이보다 월등한 실시간 서비스 복원 기능을 제공하도록 하는 것"이 목적이라면 틀림없이 가장 중요한 목적을 염두에 둔 것입니다.

통신 표준, 운용 절차 및 지침 등을 개발하는 북미 표준 기구인 ATIS(Alliance for Telecommunications Industry Solutions) 산하 위원회 중 하나인 NRSC(Network Reliability Steering Committee)는 통신 서비스 중단의 일반적인 원인과 관련된 좋은 참고 자료를 제공합니다. NRSC는 "설비 고장이 발생하는 빈도뿐만 아니라 이것이 고객에게 미치는 커다란 영향"을 우려하고 있습니다. 그 사례 중 하나로 NRSC는 "보고서를 작성해 온 지난 6년간 2사분기에 발생한 설비 고장 횟수는 평균 42.3건입니다. 1998년 2사분기의 경우 중단이 발생한 주요 원인은 설비(45%), 교환국의 전원 문제(16%), 탠덤 스위치(14%), 로컬 스위치(11%), CCS(Common Channel Signaling)(9%) 등에 있었습니다"라고 지적하고 있습니다. 이는 1998년 Merit Networks, Inc.에서 실시한 인터넷 관련 조사 결과와 매우 연관성이 있습니다. 조사 결과에 따르면 서비스 중단이 발생한 주요 원인은 유지보수(16.2%), 전원 중단(16.0%), 광섬유 절단(15.3%), 도달 불능(12.6%). 하드웨어 문제(9.0%)였음이 밝혀졌습니다. 일반적인 텔레포니 및 인터네트워킹 장애의 공통적인 원인은 전원 공급과 관련된 문제, 사람의 실수 및 설비 고장입니다. 본 백서의 나머지 부분에서는 이와 같은 서비스 중단을 일으키는 문제를 없애기 위해 에지 집선 및 백본 솔루션인 Cisco 12000 GSR 제품군의 설계 원리와 기능에 대해 살펴볼 것입니다.

토폴로지 개요: 장애 분리 및 서비스 복원

프로토콜의 여러 계층마다 서로 다른 옵션과 전략을 사용하여 장애를 탐지하고 분리해 내어 복구할 수 있습니다. 사용 가능한 여러 가지 다양한 메커니즘에 따라 다음과 같이 4개의 범주로 기술을 분류할 수 있습니다.
  • 경로/라우트
  • 노드/프로세서
  • 세그먼트/링크
  • 로컬/인터페이스
서비스 복원 기술 중 경로/라우트는 지난 20년간 인터넷이 발전해 오면서 많이 알려진 분야입니다. 보다 신속한 복구와 서비스 복원이 가능한 네트워크 토폴로지를 설계하려면 다음과 같은 몇 가지 주요 사항을 고려해야 합니다.
  • 장애 분리: 노드/경로/링크/인터페이스
  • 대체 경로의 사용 가능 여부
  • 장애 발생이 통보되어야 하는 노드의 수
  • 장애 정보를 전달하기 위해 선택할 프로토콜
  • 프로토콜에서 장애 정보를 분리해 내는 네트워크의 직경 및 범위
  • 복구 또는 대체 링크/세그먼트/경로 선택 및 라우트/치료
  • 안정적인 상태로 복구한 다음 다시 최적화하는 기능
IP 또는 MPLS 서비스에서 완벽한 복원이 필요한 대상은 고객 데이터입니다. 그림 1에서와 같이 프로토콜 상호 작용에 여러 개의 계층을 두어 네트워크 장애가 발생했을 경우 이를 찾아내고 분리하며 복구 또는 치료할 수 있습니다. 고객이 가장 중점적으로 관심을 두는 사항은 자신의 정보를 사용할 수 있는지 여부를 비롯하여 응답 시간, 처리량, 대기 시간, 지터 및 패킷 손실과 같은 장애로 인해 발생하는 성능상의 특성이므로 99.99943퍼센트 이상의 서비스 가용성을 보장하기 위해서는 광 계층 및 다른 계층과 상호 작용하는 IP 프로토콜 슈트가 필수적입니다.

IP/MPLS 트래픽 엔지니어링: 고속 리라우트(Reroute)

MPLS는 IP 패킷에 레이블을 추가합니다. 레이블의 기능 중 하나는 네트워크 계층과 통합하는 메커니즘을 제공하여 네트워크 내에서 특정 경로를 따라 패킷이 이동하도록 라우팅하는 것입니다. 이러한 과정을 LSP(Label Switched Path)라고 합니다. LSP 터널은 미리 정해진 경로를 따라 설정됩니다. 이러한 기능은 트래픽 엔지니어링을 통해 더욱 확장할 수 있습니다. 트래픽 엔지니어링은 다양한 링크, 라우터 및 스위치에서 트래픽 로드를 밸런싱할 목적으로 관리상 네트워크의 경로를 선택하는 것을 말합니다. 네트워크 운영자는 트래픽 엔지니어링을 통해 전체 네트워크에 수동으로 로드를 분산시켜 사용 가능한 대역폭의 활용도를 높일 수 있습니다.

요즘의 네트워크 라우팅 프로토콜에서는 최단 경로를 고려한 토폴로지 지향적 라우트를 제공하므로 다중 스트림의 최단 경로가 특정 링크 또는 라우터 인터페이스로 집선될 가능성이 매우 높습니다. 이 때 시스템 성능은 대역폭 및 대기 시간과 같은 트래픽 흐름을 집선하기에 충분할 수도 있고 그렇지 않을 수도 있습니다.

네트워크 리소스가 네트워크 로드를 감당하기에 불충분하거나 적당하자 못한 경우 트래픽 흐름은 사용 가능한 리소스에 비효율적으로 맵핑되어 네트워크 리소스의 서브셋별로 로드가 불균등하게 분배되는 경우가 발생합니다. RRR(Routing with Resource Reservation) 또는 제한 조건 기반의 라우팅 방법을 사용하면 서비스에 영향을 주는 이와 같은 비효율적인 문제를 해결하는 데 필요한 트래픽 엔지니어링을 수행할 수 있습니다. 본 백서에서 설명하는 기능은 링크, 노드 및 경로 보호를 위한 신속한 리라우트(reroute) 기능입니다.

시스코 구현에서는 레이블에 계층을 둘 수 있으며 패킷에 적용할 레이블의 수를 다양하게 설정할 수 있습니다. 이를 레이블 스택이라고 하는데, 레이블 스택을 사용하면 "중첩된 터널" 또는 터널 속 터널을 구성할 수 있습니다. 이와 같은 방법은 SONET/SDH APS(Automatic Protection Switching)에서 설정한 기준인 50밀리초3 이내에 IP 서비스를 신속하게 복원하는 메커니즘입니다.

그림 2. 트래픽 엔지니어링을 통한 MPLS 고속 리라우트(reroute)



트래픽 엔지니어링은 다음과 같은 세 가지 주요 요소로 구성됩니다.
  • 경로 설정 - 트래픽 트렁크를 위한 라우트를 (명시적으로) 설정합니다.
  • 경로 유지 - 트래픽 트렁크를 위해 설정한 라우트를 유지합니다.
  • 링크 승인 제어 - 로컬 (링크) 리소스를 사용할 트렁크를 결정합니다.
MPLS 트래픽 엔지니어링을 위한 제어 평면에서는 일시적 상태(soft state) 프로토콜로서 RSVP(Resource Reservation Protocol)를 사용합니다. 경로 설정에서는 RSVP 경로 메시지를 기반으로 트래픽 트렁크의 포워딩 상태(라우트)를 정의합니다. 이를 통해 명시적인 라우트를 설정하며 RSVP Resv 메시지에서는 레이블을 설정합니다. RSVP는 새로 고침 메시지를 보냄으로써 상태를 유지합니다.

링크 보호를 위한 MPLS 고속 리라우트(reroute)의 경우에는 백업 터널/LSP에 첫 번째 수준의 레이블을 사용하며 원래의 next-hop LSP에는 두 번째 수준의 레이블을 사용합니다. 그림 2에서와 같이 첫 번째 수준의 레이블인 링크 보호는 R2에서 시작하여 R6로 이동합니다. 두 번째 수준의 레이블은 R2와 R4 간의 라우트 또는 원래의 LSP를 식별합니다. R2로 아웃바운드되는 물리적인 인터페이스가 다운 상태인 경우에는 대체 경로가 로컬로 선택되며, 이는 헤드엔드 라우터로 다시 통지될 필요가 없다는 것을 의미합니다. 이러한 링크 보호는 20밀리초 이내에 1000개의 LSP에 대해 설정되며, 이것이 바로 레이어 3 보호 스위칭에 대한 하나의 예라고 할 수 있습니다.

레이어 3 로드 공유

그림 3에서와 같이 백본을 서로 연결하는 Cisco 12000 GSR 라우터를 하나 이상 사용하여 POP(Point of Presence)를 구성하는 것이 매우 일반적인 방법입니다. 이러한 듀얼 홈 구성에서는 두 개의 active 링크 간의 레이어 3 로드를 공유할 수 있습니다. 이와 같은 구성에서는 두 개 이상의 서비스 제공업체의 인프라에 여러 가지 다양한 물리적 인터네트워킹과 논리적 인터네트워킹을 모두 설계할 수 있습니다. 한 제공업체가 POP로부터 모든 트래픽을 수용하거나 두 개의 서로 다른 제공업체가 여러 링크에 로드를 분산시키는 경우에는 BGP(Border Gateway Protocol)를 사용하면 인바운드와 아웃바운드 로드 공유를 모두 지원하는 메커니즘을 얻을 수 있습니다. 인접한 링크가 손실되었거나 "네트워크 장애"가 발생하는 경우 레이어 3 로드 공유(예: BGP) 기능으로 인바운드 및 아웃바운드 경로를 모두 활성 상태로 유지하며 로컬 타이머를 설정하여 사용 가능한 링크로 트래픽을 리라우팅합니다. 레이어 3 라우팅 프로토콜의 설계 원리를 기술한 참고 서적이 몇 권 있는데, 이 중에서 CCIE™ Professional Development: Advanced IP Network Design(Alvaro Retana, Don Slice, Russ White 공저, Cisco Press 출간)은 www.ciscopress.com에서 구입할 수 있습니다.

SONET/SDH 링 아키텍처

SONET/SDH BLSR(bidirectional line switch ring)은 확장 가능하며 안정성이 뛰어난 링 아키텍처를 제공하며, 이러한 아키텍처는 서로 연결된 노드 한 쌍당 고유한 경로가 두 개 있는 듀얼 카운터 회전 링으로 구성됩니다. 사용 가능한 경로가 항상 두 개 존재하므로 하나가 작동 중(active)인 동안, 보호 경로(secondary)는 대기 모드가 됩니다. BellCore(현 Telcordia Technologies)의 GR-253-CORE 및 이와 관련된 SDH MSP(Multiplex Section Protection) ITU G.783에서 정의한 1:1 SONET APS의 경우에는 대역폭과 길이(대기 시간) 및 라우트 메트릭(동일한 비용 및 도달성)을 기준으로 볼 때 protect 인터페이스가 working 인터페이스와 동일하며 물리적인 계층은 이러한 요소를 고려하지 않고도 물리적인 장애를 분리해 내고 복원할 것입니다.

그림 3. ADM에 대한 시스코 SONET/SDH 1+1 APS 링크 보호



SONET/SDH는 물리적 계층 복원을 위한 보호 체계를 제공합니다. SONET/SDH의 주요 기능은 장애 발생 시의 복원 기능이며 장애를 탐지하면 50밀리초4 이내에 복원하도록 되어 있습니다. SONET/SDH 프레임에서 K1 및 K2 바이트를 사용하는 LTE(Line Terminating Equipment)에 대해 복원 시간이 50밀리초*로 정의된 것은 물리적인 복원에 대한 것이며 IP 서비스 계층은 이에 포함되지 않습니다. 이러한 인터페이스의 물리적인 상태는 레이어 3 지능형으로 전달되어 서비스 복원을 시작하도록 합니다.

POS(Packet over SONET)

POS(Packet over SONET) 인터페이스를 사용하는 시스코 라우터는 적절한 보호 신호를 받아 이를 연결 ADM에 보낼 수 있습니다. 그림 4를 참고하십시오. 또한 시스코 라우터는 working 라우터와 protect 라우터 사이에 PGP(Protect Group Protocol)라고 하는 독점적인 프로토콜을 사용하여 ADM에서 발생하는 SONET/SDH 보호 신호 처리를 보완합니다. PGP(Protect Group Protocol)는 IP를 기반으로 하며 UDP 전송 방식(UDP 포트 172)을 사용합니다. 시스코는 현재 1+1 선형 APS 및 MSP를 구현하는데, 이를 위해서는 protect 회선 및 working 회선 모두에 동일한 데이터 신호를 전달하는 ADM이 필요합니다. 1+1 보호 방식에서는 신호 품질 저하와 같이 장애 또는 심각한 오류가 발생하지 않는다면 working POS 인터페이스가 데이터 신호를 선택합니다. 만일 working 회선에 문제가 발생하면 protect 인터페이스에서 신호를 선택하게 됩니다.

그림 4. POS(Packet over SONET)



protect 인터페이스와 working 인터페이스가 동일한 라우터 또는 동일한 라우터의 동일한 라인 카드의 서로 다른 포트에 있는 경우에도 시스코 POS 보호 방식을 설정할 수 있습니다. 이러한 시나리오에서는 라우터 인터페이스 또는 링크의 장애를 방지하기 위해 보호 기능 제공합니다. 실제로는 working 인터페이스와 protect 인터페이스를 대부분 서로 다른 라우터에 설치합니다.

그림 5. Cisco 12000 GSR SONET 보호 구성도



APS/MSP는 모든 Cisco 12000 GSR POS 카드에서 지원됩니다. SONET BellCore GR-253과 ITU-T G.783에서는 LTE(Line-Terminating Equipment) 사이의 APS/MSP 상태 및 제어에 관한 정보를 주고 받기 위해 K1 및 K2 바이트를 지정합니다. 지정할 때 ADM과 LTE(이 경우에는 GSR POS 포트) 사이의 프로토콜을 정의합니다.

기본적인 시나리오


working 인터페이스에서 ADM으로의 광섬유 장애

ADM이 장애를 발견하면 protect 라우터(protect 인터페이스 광섬유의 K1 및 K2 바이트를 통해)에 SF SWITCH REQUEST를 보내어 인터페이스를 보호하도록 스위치를 요청합니다. protect 라우터는 로컬 상호 연결을 통해 working 라우터에 working 인터페이스와의 연결을 끊도록(비활성화하도록) 지시합니다. protect 라우터는 protect 인터페이스를 선택(활성화)합니다. 또한 protect 라우터는 protect 인터페이스 ADM 광섬유의 K1 및 K2 바이트를 통해 스위치 요청을 따르고 있음을 ADM에 알립니다.

ADM에서 working 인터페이스로의 광섬유 장애

사례 1 양방향 모드
working 라우터가 장애를 인식하고 로컬 상호 연결을 통해 protect 라우터에 알려 줍니다. protect 라우터는 로컬 상호 연결을 통해 working 라우터에 working 인터페이스와의 연결을 끊도록 지시합니다. protect 라우터는 보호를 위해 TX와 RX를 전환하도록 protect 인터페이스에서 ADM으로의 광섬유에서 K1 및 K2 바이트를 통해 ADM에 요청을 보냅니다. protect 라우터는 protect 인터페이스를 선택하며, ADM은 스위치 요청을 따르고 protect 인터페이스 광섬유의 K1 및 K2 바이트를 통해 이를 알립니다.

ADM에서 working 인터페이스로의 광섬유 장애

사례 2 단방향 모드

working 라우터가 장애를 인식하고 로컬 상호 연결을 통해 protect 라우터에 알려 줍니다. protect 라우터는 로컬 상호 연결을 통해 working 라우터에 working 인터페이스와의 연결을 끊도록 지시합니다. working 라우터는 ADM에서 Rx를 protect 인터페이스로 강제 전환하도록 LAIS(Line Alarm Indication Signal)를 100밀리초의 속도로 전달합니다. protect 라우터는 protect 인터페이스로 전환하도록 protect 인터페이스에서 ADM으로의 광섬유에서 K1 및 K2 바이트를 통해 ADM에 요청을 보냅니다. protect 라우터는 protect 인터페이스를 선택하며, ADM은 스위치 요청을 따릅니다.

working 인터페이스와 ADM 링크 사이에서 발생하는 Tx와 Rx 양쪽에서의 광섬유 장애

위에서 언급한 두 가지 사례의 장애가 모두 발생하는 경우에 결과는 동일하기 때문에 보호를 위한 스위치 요청이 protect 라우터에서 최초로 시작되었는지 또는 ADM에서 시작되었는지는 중요한 문제가 아닙니다.
POS가 내장된 시스코 라우터는 SONET/SDH 섹션, 회선 및 링크의 경로 세그먼트에 대해 터미널 장비(TE) 역할을 하며, 다음과 같은 SONET/SDH 오류 및 경보를 감지하고 보고할 수 있습니다.
  • 섹션 - LOS(Loss of Signal), LOF(Loss of Frame), TCA(Threshold Crossing Alarms)(B1)
  • 회선 - AIS(Alarm Indication Signal), 회선 및 경로에서의 RDI(Remote Defect Indication), 회선 및 경로에서의 REI(Remote Error Indication), TCA(Threshold Crossing Alarms)(B2)
  • 경로 - AIS(Alarm Indication Signal), RDI(Remote Defect Indication), REI(Remote Error Indication)(B3), NEWPTR(New Pointer Events), PSE(Positive Stuffing Event), NSE(Negative Stuffing Event)
  • 그 외에 다음과 같은 정보가 보고됩니다.
    • SF-ber
  • 신호 장애 비트 오류율
    • SD-ber
  • 신호 품질 저하 비트 오류율
    • C2
  • 신호 레이블(페이로드 구축)
    • J1
  • 경로 추적 바이트
B1, B2 및 B3는 성능 모니터링 파라미터로 분류되며 LOS, LOF, LAIS와 같은 다른 요소들은 경보로 분류됩니다. 성능 모니터링은 고급 경보에 해당하며 경보는 장애를 나타냅니다. SONET APS 또는 SDH MSP에 대한 K1/K2 바이트 상태도 보고됩니다.
DPT(Dynamic Packet Transport)
DPT 링은 듀얼 카운터 회전 광섬유 링입니다. 두 광섬유는IP 데이터와 제어 트래픽을 모두 전송하기 위해 동시에 사용됩니다.
DPT 링은 IPS(Intelligent Protection Switching)를 사용하여 광섬유 설비 또는 노드에 장애가 발생한 경우 사전 대비형 성능 모니터링, 이벤트 탐지, 신속한 자가 치료 및 IP 서비스 복구 등의 기능을 제공합니다. 각각의 링은 두 개의 광섬유 링을 사용하여 서로 연결되어 있는 여러 개의 노드로 구성되며, 이 경우 두 개의 광섬유 링은 내부 링과 외부 링을 나타냅니다. 트래픽은 외부 링에서 시계 방향으로 흐르며, 내부 링에서 시계 반대 방향으로 흐릅니다. 노드의 외부 링에서 광섬유를 수신하면 A쪽이라고 정의하고, 노드의 내부 링에서 광섬유를 수신하면 B쪽이라고 정의합니다.

그림 6. DPT(Dynamic Packet Transport) 복원



데이터 패킷은 한 쪽 링에서 내려가는 방향으로 전달되며 해당 제어 패킷은 다른 쪽 링에서 올라가는 방향으로 전달됩니다. 양쪽의 광섬유 링은 모두 데이터 패킷 전송을 위한 대역폭을 최대화하며 데이터가 최단 경로를 통해 수신지로 전달될 수 있도록 합니다. SR(Spatial Reuse)이란 유니캐스트 패킷이 소스 노드와 수신지 노드 사이의 필요한 거리만큼만 이동한다는 것을 의미합니다. 패킷은 수신지 노드에서 제거되기 때문에 각각의 링 노드는 링의 다른 쪽에 있는 공유 토큰을 기다리지 않고 패킷을 동시에 전송합니다. 또한 DPT는 특정 노드/트래픽 소스가 전체 링을 점유하지 않도록 합니다.

견고한 복원력 및 복원 기능


DPT 링은 IPS로 알려진 기능 집합을 사용하여 링 노드 또는 광섬유 설비에 이벤트 및 장애가 발생한 경우 사전 대비형 성능 모니터링, 신속한 자가 치료 및 IP 서비스 복구 등의 기능을 제공합니다. SONET/SDH 링은 APS라고 하는 일련의 성능 모니터링 및 자가 치료 기능을 제공합니다. APS와 마찬가지로 IPS는 다음과 같은 기능을 제공합니다.
  • 성능 모니터링과 SONET/SDH 오버헤드 바이트를 통한 장애 탐지 및 분리
  • 레이어 1 장애/오류를 탐지했을 경우 링-랩(ring-wrap)을 통한 50밀리초 이내의 자가 치료
  • 여러 가지의 장애/이벤트가 동시에 발생한 경우를 대비한 보호 스위칭 계층
그림 7. DPT(Dynamic Packet Transport) 복원



하지만 APS와 달리 IPS는 다음과 같이 패킷에 최적화된 여러 기능을 추가적으로 제공합니다.
  • SONET/SDH 오버헤드 바이트에 의존적이지 않기 때문에 SONET/SDH 이외의 인프라(예: 다크 파이버 및 WDM)에서 실행됩니다.
  • 레이어 3 라우팅 프로토콜을 재통합하는 과정 없이 50밀리초 이내의 IP 서비스 복구 기능(17개 이상의 노드가 있는 대규모의 링 포함)을 제공합니다.
  • 전용 보호 대역폭이 필요하지 않으므로 보호를 위해 링 대역폭의 50%를 따로 할당하지 않아도 되며, 링-랩이 발생한 경우 패킷 경로 선택을 최적으로 리홈(rehome)합니다.
  • 멀티레이어 인식 기능 제공 - IPS는 단순한 레이어 1 이벤트가 아닌 레이어 1, 2, 3 이벤트를 모니터하고 처리하며, 패킷 패스쓰루(pass-through) 모드와 같은 패킷 최적화된 추가 기능을 제공하여 서비스에 영향을 주는 레이어 3 이벤트가 발생하는 경우 링-랩을 피할 수 있습니다.
  • 플러그 앤 플레이 작동 기능 제공 - IPS에는 링 노드 이름/주소 및 토폴로지 맵 구축을 비롯한 폭넓은 프로비저닝과 구성 작업이 필요하지 않습니다.
DWDM에서의 옵티컬 복원 기능

DWDM 네트워크와 같은 광 인프라에서 POS 연결이 존재하는 경우 물리적인 계층에 장애가 발생하면 OADM(Optical ADM)과 같은 기본 시스템 사이의 광 보호 메커니즘을 통해 복원이 이루어집니다. 예를 들면 Pirelli Cables, Gen 및 Systems3는 128채널 TeraMux DWDM 시스템에 새로운 보호 기능을 추가하여 일반적으로 SONET/SDH 계층에서 실행되었던 모니터링 기능을 수행할 수 있다고 최근 발표하였습니다. 이 분야는 2000년 말까지 계획되어 있는 새로운 기술 발전과 더불어 끊임없이 발전을 거듭하고 있습니다.

메시형 아키텍처

광섬유 링을 설치하는 데 필요한 운영 비용이 증가함에 따라 DWDM 기술을 채택하려는 욕구와 파장 라우팅을 통해 이를 최적화하려는 시도가 늘어나고 있습니다. 메시형 아키텍처로의 마이그레이션은 몇 단계를 거쳐 이루어집니다. 첫 번째 단계에서는 일반적으로 ADM(Add/Drop Mux)으로 상호 연결된 여러 개의 SONET/SDH 링을 늘려 가게 됩니다. 이러한 링의 수가 증가함에 따라 대역폭 할당과 관련된 TDM 특성으로 인해 비용도 증가하게 됩니다. 예를 들면 각각의 SONET/SDH 링은 광섬유에서 링 자체의 광섬유 도관을 갖게 되는데, 이에 대한 비용은 광섬유 라우트의 킬로미터당 US $190,000에서 US $625,000(Telcordia Technologies)가 소요되며 ADM의 비용도 별도로 소요됩니다. 두 번째 단계에서는 DWDM 멀티플렉서가 사용 가능한 파장을 최대화함으로써 더 많은 광섬유 라우트를 개설하는 데 필요한 요구 사항의 수준을 높여 나갑니다. 포인트-투-포인트 DWDM 링크를 사용하여 SONET/SDH 링 설치를 상쇄할 수 있다면 세 번째 단계를 고려할 수 있습니다. 여러 개의 포인트-투-포인트 DWDM 링크는 Cisco Wavelength Router™ 솔루션을 통해 연결됩니다.

광 메시형 아키텍처를 사용하면 유연성이 높아지고, 비용을 절감할 수 있으며, 서비스 복구를 통합할 수 있으므로 이러한 아키텍처는 새로운 시대에 걸맞게 발전하는 기술로 등장하고 있습니다. 메시형 아키텍처의 장점으로는 라우트/경로의 다양성, 로드 밸런싱을 위한 병렬 링크 및 확장성 등이 있습니다.

메시형 토폴로지에서 파생된 토폴로지가 몇 개 있습니다. 오늘날 대부분의 네트워크에 설치된 일반적인 토폴로지는 부분 메시형과 전체 메시형이 있습니다. 전체 메시형 네트워크 환경에서 하나의 노드는 경로에 있는 노드 중에 자신을 제외한 모든 노드와 연결되어 있습니다. 이는 최대의 다양성을 제공하지만 비용이 가장 많이 드는 환경이 됩니다. POP 환경은 두 가지가 있습니다. 첫 번째는 하나의 노드에서 시작되는 두 개의 경로가 동일한 자율 시스템(라우팅 영역) 내에서 확장되는 것이고, 두 번째 경로는 두 개의 서로 다른 트렁크 사이에 제공업체의 다양성으로 인해 두 개의 경로가 다르게 존재하는 것입니다. 두 가지 경우 모두에서 로드를 공유하도록 구성할 수 있으며 될 수 있으면 로드를 공유하는 것이 좋습니다.

Cisco 12000 GSR 시리즈의 안정성: 통신 사업자급 IP


한 가지 주목해야 할 중요 사항은 Cisco 12000 GSR 제품군의 제품 특성이 바로 가용성이라는 사실입니다. 높은 확장성과 더욱 많은 네트워크 서비스를 제공하는 기가비트 스위치 라우터인 GSR 제품군이 널리 설치되는 데 힘입어 Cisco 12016 GSR도 빠르게 확산되고 있습니다.

그림 8. Cisco 12016 GSR 하드웨어 아키텍처



리던던시

Cisco 12000 GSR 제품군은 고가용성 서비스 아키텍처를 위한 기초로서 리던던시형 하드웨어 시스템 아키텍처를 설계 목표로 하여 구축되었습니다. Cisco 12000 GSR에는 1+1, 1:1 및 1:N 리던던시 기능이 내장되어 있으므로 네트워크 작동이 중단되는 가장 일반적인 원인을 해결하는 솔루션을 제공합니다. 다음의 컴포넌트는 리던던시로 구성할 수 있습니다.
  • 라우트 프로세서
  • 스위치 패브릭 및 클럭 스케줄러
  • 전원 공급장치
  • 냉각 시스템
  • 라인 카드 및 인터페이스
  • 리던던시형 GRP
Cisco 12000 GSR에서는 완벽한 리던던시 기능이 있는 두 개의 GRP(GSR Route Processor)를 제공하므로 안정성이 매우 높습니다. 첫 번째 GRP는 기본 프로세서로 작동되며 포워딩 데이터에 대한 라우팅 정보와 같은 제어 평면 정보를 끊임없이 제공합니다. 두 번째 GRP는 첫 번째 GRP를 모니터하며, 기본 GRP에 장애가 탐지되면 첫 번째 GRP의 역할을 대신 맡게 됩니다. 따라서 시스템에서 장애 발생 지점(SPOF: Single Point of Failure)인 GRP를 무시하게 됩니다.

두 가지 구성 옵션에도 GRP의 유연성이 제공됩니다. 듀얼 GRP는 양쪽 GRP에서 동일한 Cisco IOS 소프트웨어를 실행할 수 있으며, 이로써 GRP 하드웨어에 발생하는 장애에 대비할 수 있습니다. 또한 각각의 GRP는 상대방의 서로 다른 Cisco IOS 이미지를 실행할 수도 있습니다. 이러한 방법은 새로운 Cisco IOS 이미지가 하나의 GRP에 존재하고 현재의 혹은 이전의 이미지가 두 번째 GRP에 존재하는 경우 운영 지원 업그레이드에 도움이 됩니다. 유지보수 창에 예상하지 못했던 문제가 나타나면 GSR은 예전의 Cisco IOS 이미지로 되돌아가고 SLA 가용성은 유지됩니다.

클럭 및 스케줄러 카드

Cisco 12000 GSR에는 하나의 클럭 및 스케줄러 카드를 설치해야 합니다. 다음과 같이 안정성 및 성능을 위해 리던던시용 클럭 및 스케줄러 카드를 추가하는 것이 바람직합니다.
  • 시스템 클럭 - 모든 라인 카드, GRP 및 스위치 패브릭 카드로 전달됩니다. 시스템 클럭은 스위치 패브릭을 통해 라인 카드 사이에서 혹은 라인 카드와 GRP 사이에서 데이터 전송을 동기화합니다. 리던던시형 클럭 및 스케줄러 카드가 설치된 시스템에서 두 개의 시스템 클럭은 동기화됩니다. 하나의 시스템 클럭에 장애가 발생하면 다른 클럭이 대신 작동됩니다.
  • 스케줄러 - 스위치 패브릭에 액세스하기 위해 라인 카드로부터 오는 요청을 처리합니다. 스케줄러가 스위치 패브릭에 액세스하기 위해 라인 카드로부터 오는 요청을 수신하는 경우 스케줄러는 라인 카드가 스위치 패브릭에 액세스할 수 있도록 허용하는 시기를 결정합니다.
1:N
SFC(Switch Fabric Card)는 1:N 리던던시를 제공합니다. 스위치 패브릭은 라인 카드 사이에 혹은 GRP와 라인 카드 사이에서 사용자 트래픽을 전달하는 하드웨어 회로입니다. 또한 스위치 패브릭은 클럭 및 스케줄러 카드에 통합된 기능으로서 혹은 독립형 모듈로서 사용할 수 있습니다.

리던던시의 유형은 일반적으로 1:N(여기에서 N = 1, 2, 3, ...)으로 나타냅니다. 여기에서 1:N이란 전체 작동을 위해 필요한 유닛 N개당 하나의 리던던시형 유닛이 있음을 의미합니다. 또한 활성/대기 리던던시와 로드 공유 리던던시도 있습니다. 통신 시스템이 1:N 활성/대기 리던던시를 가진 경우 N개의 작동 유닛이 활성 상태여서 트래픽을 전송 중이면 리던던시형 유닛은 대기 모드여서 트래픽을 전송하지 않습니다. 활성 라인 모듈 중 하나가 장애를 일으키면 대기 모드에 있던 유닛이 활성 모드로 바뀌면서 트래픽이 이 유닛으로 전달됩니다.

온라인 삽입 및 삭제

OIR(Online Insertion and Removal: 온라인 삽입 및 삭제)은 실제 시스템(기능이 더 강력하며 실제로 사용 중인 시스템)에서 하드웨어 컴포넌트를 추가하거나 제거하는 기능을 말하며 이를 위한 메커니즘도 지원합니다. OIR은 모든 카드(SFC[Switch Fabric Card], CSC, GRP 및 라인 카드)에 대한 GSR에서 지원되며, 처음부터 GSR의 아키텍처에 맞게 설계되었으므로 매우 안정적입니다.

리던던시형 전원 공급장치

Cisco 12016 GSR의 기본 전원은 DC로 구성되어 있습니다. 이러한 구성에서는 완벽한 리던던시를 위해 DC 전원 공급장치를 선택하여 사용할 수 있습니다.
AC 전원으로도 구성할 수 있으며 최대 4개의 전원 공급장치를 구성할 수 있습니다. 모두 장착된 Cisco 12000 GSR에 전원을 공급하려면 최소 두 개의 전원 공급장치가 필요합니다. AC 환경에서 완벽한 리던던시를 위해 두 개의 전원 공급장치를 추가로 구성할 수도 있습니다.

경보 및 성능 모니터링


경보 통지
Cisco 12016 GSR은 통신 사업자급 네트워크 요소이며 CO 경보 통지에 대한 전체 운영 통합 기능을 제공합니다. 표 1은 경보 1 및 경보 2 커넥터를 통해 사용 가능한 일반 릴레이 접점, NO(Normally Open)형 릴레이 접점 및 NC(Normally Closed)형 릴레이 접점의 목록을 나타냅니다.

표 1. 경보 1 및 경보 2 커넥터 핀아웃(pinout)
핀 그룹 일반 NO형 NC형
치명적인 가청 경보 2 1 14
주요 가청 경보 16 3 15
경미한 가청 경보 5 4 17
치명적인 시각 경보 19 6 18
주요 시각 경보 8 7 20
경미한 시각 경보 22 9 21
경보 입력 13 25 -

SONET/SDH 경로 오버헤드 경보
  • LOP(Loss of Pointer)
  • PRDI(Path Remote Defect Indication)(이전에는 경로 FERF/노랑)
  • PAIS(Path Alarm Indication Signal)
경보는 표준 정의된 계층에 따라 보고되며, 불안정한 광섬유 연결로 인해 발생하는 경보 쇄도 현상을 방지하기 위해 10초 보류 동안 삭제 지연 기능(10 second hold-on clearing delay)이 있습니다.

추가적인 모니터링 기능
  • 멀티플렉스 섹션([LREI]/[FEBE]) 및 경로 모두에서의 REI(Remote Error Indication) 카운터(이전에는 FEBE)
  • ([PREI]/FEBE) 레벨
  • B1, B2 및 B3 바이트를 기초로 하는 비트 오류 수
  • 미리 선택한 비트 오류율이 적정 범위를 넘어선 경우 사용자에게 통지하는 한계 경보(각각의 B1, B2 및 B3 오류에 대해 10-3에서 10-9 범위로 설정됨)
  • 사용자가 선택(10-3에서 10-9 범위)할 수 있는 B2의 비트 오류율을 기초로 하는 MSP에 신호 품질 저하 및 신호 장애 발생
  • NEWPTR, PSE 및 NSE에 대한 카운터, 신호 레이블, 경로 추적, K 바이트, (S1S0) 비트(앞서 설명함)
  • 타이밍 간격에 대한 성능 통계: 재생성기 섹션(섹션), 멀티플렉스 섹션(회선) 및 경로의 ES(Errored Seconds), SES(Severely Errored Seconds), 현재, 15분, 15분의 배수, 1일 등의 시간 간격에 대한 SEFS(Severely Errored Framed Seconds)(RFC 1595당 계산, SNMP 액세스를 통해 가능함) 로컬(진단) 및 네트워크 루프백 기능 제공되므로 문제 해결에 도움이 됩니다.
SNMP MIB 지원

지원되는 MIB는 다음과 같습니다.
  • RFC-1213 MIB
  • RFC-1695-MIB(ATM)
  • RFC-1595(SONET/SDH)
  • RFC-1253-MIB(OSPF)
  • RFC-1315 MIB(프레임 릴레이)
  • RFC-1398 MIB(이더넷)
  • RFC-1657 MIB(BGP-4)
가용성에 대한 정의

서비스 가용성의 안정성에 대한 측정과 이를 위해 분리되는 항목에 대해서는 업계의 여러 가지 작업 방식이 있으며 이러한 방식은 반드시 정의되어야 합니다. 먼저 가용성이란 서비스 중단의 빈도 수와 중단이 발생한 경우의 복구 시간에 대한 함수입니다(MTTR). 서비스 중단은 서비스에 영향을 주는 예상하지 못했던 장애 혹은 예정된 유지보수 및 업그레이드 작업에 의해 발생할 수 있습니다. 다른 무엇보다도 서비스 중단에 영향을 주는 결정적인 요소는 리던던시, 스위치오버 적용 범위, MTBF(Mean-Time Between-Failures: 평균 무고장 시간), 소프트웨어 버그, 장애 억제, 재구축 방지 및 안정적인(hitless) 재구축 등이 있습니다. 또한 복구 시간에 영향을 주는 결정적인 요소는 장애 탐지 시간, 장애 분리 시간 및 수리 또는 문제 해결 시간 등이 있습니다.

다음은 가장 일반적인 네트워크 안정성 측정에 대해 널리 사용되는 정의입니다.
MTBF는 제품에 발생하는 장애 사이의 평균 예상 시간입니다. 여기에서 제품의 장애 및 수리가 반복된다고 가정합니다. MTBF는 제품이 정상 상태이면서 우발 고장이 발생할 수 있는 라이프 스테이지(life stage)에 해당하는 경우 적용하며(초기 고장과 마모 고장 사이), 상응하는 일정 고장률(CFR: Constant Failure Rate)의 역수에 해당합니다. MTBF는 대개 개별적인 회선 카드를 설명하는 데 사용합니다.

MTTR(Mean-Time To Repair: 평균 수리 시간)은 장애가 발생한 제품을 복원하기 위해 소요되는 평균 예상 시간입니다. MTTR은 장애로 인해 제품의 서비스가 중단된 기간을 나타내며, 제품에 장애가 발생한 시점부터 제품이 완벽하게 작동되도록 복원되는 시점까지의 시간을 측정한 것입니다. 따라서 MTTR에는 장애 탐지, 기술 지원(예: 현장 실무자의 지원), 급송, 장애 진단, 장애 분리, 실제 수리 작업 및 전체 서비스를 복원하는 데 필요한 모든 소프트웨어 재동기화 등의 시간이 포함됩니다. 심플렉스 카드(리던던시 없음)의 경우 다음과 같은 관계가 성립됩니다.

      가용성 = MTBF/(MTBF + MTTR) 또는
      가용성 = 1 - (전체 장애 발생 시간)/(전체 서비스 제공 시간)

하지만 리던던시는 다운타임을 수십, 수백 배로 줄일 수 있으며(또는 가용성에 하나 이상의 9를 추가할 수 있음) 동시에 MTBF 및 MTTR를 동일하게 유지할 수 있습니다.

다운타임이란 제품이 서비스 제공 시간에 유닛당 작동하지 않는 예상 시간이며 일반적으로 연간 분 수로 나타냅니다. 따라서 다운타임은 무용성(unavailability)을 나타내는 다른 방법이라고 할 수 있습니다. 오랫동안 사용한 제품의 경우 다운타임에는 가용성과 관련하여 다음과 같은 등식이 성립됩니다.

      다운타임 = (1 가용성) x 525,600

예를 들면 다음과 같습니다.

      다운타임 = (1 - .9999943) x 525,600
      다운타임 = 2.99 또는 대략적으로 연간 3분

여기에서 525,600은 연간 분 수로 표시하기 위해 (365일) x (24시간) x (60분)의 계산을 통해 얻은 값입니다. 대개 다운타임은 시스템에 대해 또는 네트워크 전체의 관점에서 공지됩니다.

표준 적합성


Cisco 12000 GSR은 여러 수준의 리던던시를 구현하는 통신 사업자급 설계로 구성되었으며, 핫스왑 기능이 있는 컴포넌트로 구성되며, NEBS 레벨 3 기준을 준수합니다.
  • NEBS GR-63-Core 공간 및 환경 요구 사항
  • NEBS GR-1089-Core 전자기적 호환성 및 전기적 안정성
  • 방음
  • 공기로 운반되는 오염 물질
  • 고도
  • 압축
  • 드롭, 패키지 및 MDVT(Mechanical Design Verification Test: 기계적 설계 검증 테스트)*
  • 내화성
  • 자유 낙하*
  • 흡습성이 있는 먼지
  • 조명, 열, 취급 방법
  • 지진*
  • 온도 및 습도*
  • 진동*
시스코 테스트 과정 및 검증
  • ISO 9001
  • EDVT(Electrical Design Verification Test: 전기적 설계 검증 테스트)
    • 16 코너 테스트(corner test)
    • 온도, 주파수, 전압, 전원 사이클링(power cycling)
  • MDVT(Mechanical Design Verification Test: 기계적 설계 검증 테스트)
    • 온도, 습도, 충격, 진동, 고도, 전복, 열충격, 소음
  • RDT(Reliability Demonstration Testing: 안전성 입증 테스트)
    • 최초의 대량 출시 전 물리적 환경에 대한 시뮬레이션
  • ORT(Ongoing Reliability Test: 진행 중인 안전성 테스트)
    • 생산 도중 물리적 환경에 대한 시뮬레이션
  • EFA(Engineering Failure Analysis: 엔지니어링 장애 분석)
    • 고객 요청의 또는 근본 원인에 대한 BU 요청의 엔지니어링 장애 분석
참조 문서
1. "Beyond Redundancy: A Guide to Designing High-Availability Networks", Cisco Systems, Frank Lee, Mod Marathe 공저, 1999년 3월
2. Alliance for Telecommunications Industry Solutions, Network Reliability Steering Committee. Macro-Analysis Second Quarter 1998, Raymond F. Albers, Bell Atlantic
3. "MPLS for Traffic Engineering", Cisco Systems, Shankar Vemulapalli
4. "GSR Frequently Asked Questions 5", Cisco Systems
5. "DWDM in the Metro Marketplace - Does it Really Cost in" Gary B. Redifer, Ericsson Optical Networking.
6. "MPLS TE LSP Fast Reroute", ENG-39726, Cisco Systems, Robert Goguen
7. "Cisco Packet over SONET/SDH(POS) Compliance to SDH Standards", Cisco Systems, 개정판 1.2
8. "Experimental Study of Internet Stability and Wide Area Backbone Failures", Craig Labovitz 및 Abha Ahuja 공저, Merit Networks, 1998년

 실제적인 장애 복구 시간은 50밀리초보다 크거나 작을 수 있으며, 하드웨어 플랫폼 및 TE 터널이나 네트워크 접두어의 수에 따라 달라집니다.
2실제적인 장애 복구 시간은 50밀리초보다 크거나 작을 수 있으며, 하드웨어 플랫폼 및 TE 터널이나 네트워크 접두어의 수에 따라 달라집니다.
3실제적인 장애 복구 시간은 50밀리초보다 크거나 작을 수 있으며, 하드웨어 플랫폼 및 TE 터널이나 네트워크 접두어의 수에 따라 달라집니다.
4실제적인 장애 복구 시간은 50밀리초보다 크거나 작을 수 있으며, 하드웨어 플랫폼 및 TE 터널이나 네트워크 접두어의 수에 따라 달라집니다.

맨위로

Cisco에 문의하세요