Service Provider 17호

High Availability Voice over Cable

"케이블로의 음성 전송, 가용성을 높여라"

네트워크의 종단간 접근 방법을 취하는 케이블 사업자를 위한 현실적이며 가능한 목표 설정

케이블 사업자들은 케이블을 통한 IP 텔레포니(IP telephony over cable)가 새로운 수익 창출원을 제공할 것이며 이 서비스가 자신들이 구축해놓은 대규모 가정용 IP 데이터 네트워크를 위한 자연스러운 이동 단계로 보고 있다. 다시 말해서, '모든 사람들'이 납득할 만한 전통적인 음성 네트워크에 필적하는 수준의 품질과 '99.999%의 신뢰성 및 50ms의 장애 복구' 기능, 그러한 수준에 부합되는 가격에 대해 심각히 고려하면서부터 가용성 표준이 중요한 현안으로 대두되고 있다.

하지만 이 경우에 있어서, 전통적인 음성 네트워크에 대한 99.999의 가용성은 '신화'에 해당되는 사항이다. 물론 네트워크의 특정 장비, 특히 코어 스위치와 라우터가 이러한 수준을 달성할 수는 있다. 어떤 시스템 장비나 전송 경로는 50ms의 장애 복구 시간을 달성할 수도 있을 것이다. 하지만 모든 시스템이 99.999%의 가용성을 제공하지는 못하며 모든 장애가 50ms 이내에 해결되는 것은 아니다. Packet Cable 고가용성 모델에 따르면, 공중 전화 교환망(PSTN)은 종단간 99.94%의 가용성으로 운영된다. 이러한 수준은 케이블 사업자들이 추구할 수 있는 현실적인 목표이며 합리적인 투자가 이루어진다면 달성할 수 있다.

이러한 목표를 달성하기 위해서는 케이블 사업자들은 케이블 모뎀에서부터 하이브리드 광 단자, 케이블 모뎀 종단 시스템(CMTS)에 이르는 모든 장비를 지역 네트워크와 IP 백본, 다른 쪽에 위치한 PSTN 게이트웨이 모두에서 철저히 네트워크를 살펴보아야 한다. 이러한 네트워크에 대한 상세한 조사를 통해 케이블 사업자들은 투자 대비 수익을 극대화하고 저렴한 가격으로 서비스 가용성을 향상시켜주는 특정 기술을 선택할 수 있게 해주는 특별한 네트워크 부문에 대한 가용성 예산을 책정할 수 있게 된다. 계산하고자 하는 가용성은 모든 네트워크 장비의 개별 가용성이 아닌 고객에 대한 서비스의 가용성이라는 것을 명심해야 한다.

시스코의 케이블 사업 개발 담당 매니저인 내빈 타다미(Navin Thadami)는 "종단간 네트워크 가용성과 최종 사용자 서비스 가용성을 견인하는 3대 요소는 네트워크 장비와 각 장비의 개별 가용성을 비롯해 이들을 둘러싸고 있는 운영 환경 및 도입에 대한 종단간 네트워크 아키텍처이다"라고 말했다. 제품들은 이중의 경로 프로세서와 라인 카드 등을 갖추어야 하며 이러한 것들은 전반적인 서비스 가용성에 영향을 미친다. RPR+(Route Processor Redundancy), SSO (Stateful Switchover), NSF(Nonstop Forwarding)와 같은 개별 제품 기능 역시 종단간 네트워크 가용성에 중요한 역할을 담당한다.

또한 제품의 가용성은 구축되는 아키텍처와 밀접한 관계를 갖고 있다. 타다미는 "예를 들어, 라인 카드에 장애가 발생했다고 가정해보자"면서 "한 아키텍처에서는 트래픽이 1초 이내에 이동하기 시작하며 다른 아키텍처에서는 2~3초 뒤에 이동하게 된다. 구조적인 고려 사항은 매우 중요하며 라우팅 아키텍처는 특히 종단간 가용성에서 중요한 역할을 담당한다"고 설명했다.
운영 환경에는 수리에 대한 평균 시간(MTTR) 표준과 유지 보수 스케줄링, 새로운 시스템의 랩 테스트, 운영자 교육과 문제 해결 지침, 변경 관리 등에 대한 실행 방법이 포함된다. 각각 가용성에 영향을 미친다.

타다미는 "우리는 특정 경우에 있어서 케이블 사업자들이 자본 투자를 20% 증가함으로써 80%의 장애 시간을 줄일 수 있다는 것을 발견하곤 하는데, 이러한 수준의 투자는 PSTN에 버금가는 가용성을 제공하기에 충분하다"고 말했다.

시스코의 케이블 사업 개발 그룹 이사인 타룬 룸바(Tarun Loomba)는 케이블 네트워크에서의 가용성에 대한 시스코의 노력은 케이블 사업자들로 하여금 매력적이고 고객을 유지할 수 있게 해주는 음성 솔루션 개발을 지원하는 광범위한 프로그램의 일환이라면서 "음성과 같은 새로운 서비스를 통해 네트워크에서 서비스 품질(QoS), 보안, 신뢰성과 같은 새로운 요구 사항이 대두되고 있다. 시스코는 합리적인 비용으로 이러한 요구 사항에 대응할 수 있는 프로그램을 개발하고 있다"고 밝혔다.

정확한 측정 : PacketCable은 케이블 네트워크를 통한 음성 전송의 각 장비에 대한 가용하지 못한 퍼센트를 정하고 있다.

케이블 사업자를 위한 가용성

PSTN에서의 99.94%라는 수치는 PacketCable에 의해 도출된 것이다. PacketCable은 양방향 케이블 단자의 실시간 서비스에 대한 규정 사항을 개발하고 있는 CableLabs의 산하 기관이다. 전통적인 회선 교환 음성 통신 시스템에 대한 Telecordia 스펙을 사용하는 PacketCable은 종단간 백분율에 도달하는 세그먼트 별로 PSTN을 분석한다(이 데이터는 PacketCable의 보고서, PacketCable 아키텍처를 위한 VoIP 가용성 및 신뢰성 모델, PKT-TR-VoIPAR-V01-001128에 발행되어 있다).

하지만 케이블로의 음성 전송을 위한 스펙을 개발할 때 PacketCable은 PSTN 아키텍처와 메트릭스를 케이블 네트워크에 적합하도록 단순히 부과하지는 않는다. 룸바는 "IP 네트워크는 유선 경로의 회선 교환 네트워크와 근본적으로 다르다"고 지적하며, "시그널링 프로토콜과 네트워크 장비, 아키텍처가 서로 다르다. 네트워크 전반에 대한 지능형 시스템은 네트워크의 특정 지점에 장애가 발생하고 시스템이 다운될 경우 다음 패킷이 우회할 수 있도록 적절한 경로를 배정할 수 있다. 이러한 차이는 바로 다른 방법으로 가용성을 접근하려는데 필요한 것"이라고 설명했다.

여기에서 가장 중요한 것은 바로 서비스 가용성으로, 사용자의 관점에서 본 가용성을 의미한다. PacketCable의 평가에는 서비스 가용성에 대한 정의에 있어서 네트워크 다운 시간과 통화 단절(call drop)의 수, 비효과적인 시도의 수 등 3가지 메트릭스를 포함하고 있다. 종단간 네트워크는 적어도 99.94% 시간을 보장해야 하는데, 이는 일년 동안의 최대 다운 시간은 315분을 넘어서는 안 된다는 것을 의미하는 것이다. 게다가, 통화 단절은 8,000번에 한 번 이상이 되어서는 안되며 비효과적인 시도는 10,000번에 5번 이상이 되어서는 안 된다.

이러한 두 메트릭스는 사용자의 용어로 정의된다. 송신자가 3초 이상 응답을 받지 못하면 콜은 단절되게 된다. 즉, 길어야 3초 정도가 콜이 되돌아오기를 기다릴 수 있는 최대의 시간이라는 의미이다. 이러한 것은 또한 백만 번 당 콜 단절인 DPM(CD)으로 표현된다. 8,000 콜에서 한 번의 단절은 125 DPM(CD)으로 나타난다.

비효과적인 시도(Ineffective attempts)는 콜 시그널링 경로의 장애로 인해 발생하게 된다. 업계에서는 비효과적인 시도의 시간을 30초로 제한하는데 합의를 이루었다. 사용자들이 한 번 시도할 때 아무 곳에도 도달하지 않게 되면 전화를 끊고 다시 시도, 성공을 거둔다. 만일 이러한 시도가 30초 이내에 발생할 경우 성공적인 시도로 볼 수 있다. 비효과적인 시도로 카운트 되는 것은 더 이상 길 수는 없다. 비효과적인 시도는 또한 DPM 비효과 시도 즉, DPM(IA)로 표현될 수 있다. 10,000번에서 5번의 비효과적인 시도는 500 DPM (IA)로 나타난다.

이러한 메트릭스를 달성하기 위해, PacketCable은 IP 네트워크에 대한 최대 가용성 손실을 0.06%로 하는 가용성 기준 실행에 나섰다. 다운 시간은 1년에 315분으로, DPM (CD), 125, DPM(IA)은 500에 해당된다. 네트워크 장비와 서브 시스템에 대한 평가 작업을 거친 뒤, PacketCable은 가입자 액세스 부분에서 최대 0.15%, 매니지드 IP 네트워크는 0.015%, PSTN 게이트웨이는 0.002%를 할당했으며 PSTN 가입자 액세스 포인트는 0.015%를 할당했다(그림 참조).
가용성 기준은 네트워크 부문별로 특정 장비와 서브 시스템을 위한 최대치를 할당하기 위해 세분화되어 왔다. 예를 들어, 하이브리드 광 네트워크는 0.01%의 시간 이상이 되어서는 안되며, CMTS와 라우터는 0.0025%, 로컬 IP 백본은 0.0025%를 넘어서면 안 된다. 또한 IP 백본은 0.02%, 시그널링 장비는 0.004%(콜 관리 서버와 미디어 게이트웨어 컨트롤러, 시그널링 게이트웨이 포함)를 넘어서서는 안 된다.

시스코는 이러한 스펙을 개발하는데 주요 참여 업체로 활동하고 있는데, 예를 들어 시스코의 기술진들은 수많은 시스템 벤더 사이의 최대 다운 시간을 정립하고 IP 네트워크에 대한 가용성 기준을 개발하고 있다. 시스코의 Distinguished Engineer인 존 채프만(John Chapman)은 가용성 기준은 두 가지를 달성할 수 있게 해준다면서 "아키텍처를 작은 블록으로 분할할 수 있게 해주며 예산 대비 가용성을 측정할 수 있게 해주기 때문에 종단간 밑그림을 그릴 수 있다"고 말했다.


종단간 네트워크


가용성 모델의 스펙을 토대로 네트워크를 구축하는 데에는 최상의 가용성을 제공하는 장비를 찾아내는 것과 이에 대한 도입이 요구된다. 네트워크 장비는 서로 연동해야 한다. 하드웨어와 소프트웨어 리던던시, NSF 및 SSO와 같은 복구 기능 및 라우팅 최적화 기술, 유연한 패킷 전송과 복구성 패킷 링(RPR)을 비롯한 광 전송 기술, 파장 보호 스위칭 등의 많은 기술이 전반적인 네트워크의 가용성을 보장하는데 중요하다.

라우팅 최적화는 단절된 콜과 비효과적인 시도를 없앨 수 있는 기술 중의 하나이다. 타다미의 설명을 예로 들면, CMTS가 이중 집선 라우터 A와 B에 직접 연결된 이더넷 네트워크는 각각 이중의 지역 라우터 C와 D에도 연결되어 국가적인 백본을 형성하게 된다. OSPF(Open Shortest Path First) 라우팅을 살펴보면, 집선 라우터 A의 기가비트 이더넷 라인 카드에 장애가 발생하게 되면 직접 연결된 지역 라우터 C가 100ms 이내에 문제를 탐지하게 된다. 그러면 라우터 C가 1초 이내에 가장 빠른 경로를 다시 계산해 트래픽을 집선 라우터 B로 재전송하게 된다. CMTS로 향해 가는 다운스트림 트래픽은 1초 이내에 방향이 다시 설정된다.

하지만 카드 고장에 대한 LSA(Link State Advertise ment)를 수신하는 업스트림의 경우, CMTS(또는 모든 라우터)가 가장 빠른 경로를 다시 계산하기 전에 총 5초(SPF 계산 유지 타이머)를 디폴트로 대기한다. 따라서, 이러한 방향에서의 총 지역은 5초 이상이 걸리게 된다.

타다미는 "이 타이머는 12년이나 15년 전에 설치된 것으로, 당시 사람들은 데이터만 전송했었다"면서 "그 타이밍은 음성에는 해당되지 않는다"고 밝혔다. 일부 경우에 있어서, 주어진 아키텍처에 따라 CMTS SPF 계산 타이머는 1초 이하로 낮추는 것이 가능해 3초 이내에 레이어 3 시그널의 재통합이 가능해질 수 있다.

직접 연결 방법보다는 지역 라우터와 집선 사이의 레이어 2 멀티 액세스 네트워크를 사용하는 네트워크의 경우, 최적화는 조금 다르게 실행되어야 한다. 이 경우에 있어서, 3초 이내의 장애 복구를 이루기 위해서는 SPF 계산 타이머 이외에 헬로 및 데드(hello and dead) 타이머를 단축하는 것이 필요하다.

전형적인 종단간 케이블 네트워크에서 계산된 라우팅의 분석은 SPF 계산 타이머와 데드 타이머, 빠른 헬로 및 SPF 계산 알고리즘의 적용을 통해 절단된 콜에서 32% 줄어드는 결과가 나타났다는 것이 타다미의 설명이다. 케이블 다중 서비스 운영자(MSO)들은 상용 서비스에 앞서 자사 연구소에서 이러한 레이어 3 최적화 기술을 신중하게 확장 테스트해보는 것이 중요하다. 올바르게 구현되지 않을 경우, 네트워크에 장애를 일으키게 되며 또 다른 다운 시간의 요인이 된다.

"종단간 네트워크 가용성과 최종 사용자 서비스 가용성을 견인하는 3대 요소는 네트워크 장비와 각 장비의 개별 가용성을 비롯해 이들을 둘러싸고 있는 운영 환경 및 도입에 대한 종단간 네트워크 아키텍처이다"
- 내빈 타다미(Navin Thadami), 시스코 케이블 사업 개발 담당 매니저



가용성의 경제성

시스코의 Distinguished Engi neer인 모드 마라테(Mod Marathe)는 시스템 레벨의 종단간 접근 방법에서 다른 중요한 부분은 가용성 모델링과 운영 방법이라고 말했다. 그는 "시스코는 우리가 구축한 시스템 및 네트워크와 고객의 네트워크에서 가용성을 모델링하는 일련의 툴을 개발, 그들이 추진하고 있는 가용성에 대해 이해하도록 해주고 있다"고 밝혔다. 이러한 툴이 실행하는 정교한 분석 중에는 네트워크의 리던던시 유형 및 그 효과, 교정 시간, 전환 및 다양한 전환 성공 가능성 등이 포함되어 있다. 시스코는 케이블 MSO들과 협력해 자사 네트워크의 가용성 특징을 분석하며 PacketCable 고가용성 스펙의 준수 여부를 판단하고 네트워크 설계 향상을 권고해 MSO들이 PacketCable의 스펙을 넘어설 수 있도록 해준다. 이를 통해 MSO들은 '전용 회선' 텔레포니/VoIP 구축을 구현할 수 있게 된다.

PackerCable의 스펙을 달성하기 위해서는 기존 네트워크의 가용성에 따라 일정 자본의 투자가 불가피하다. 리던던시가 없는 기본적인 케이블 네트워크부터 시작, 타다미는 이에 대한 다양한 비용 및 회수를 분석해 장애 시간과 DPM(CD), DPM(IA)에 대한 스펙을 마련했다. CMTS와 집선 스위치, SONET/SDH 옵티컬 장비를 구성하고 있는 IP 백본과 분배 스위치, 소프트스위치와 PSTN 게이트웨이를 포함한 기본적인 네트워크는 가입자당 66.50달러의 비용이 드는 것으로 나타났다. 이 네트워크는 대략 다음과 같은 특성을 갖고 있다.

장애 시간 325분, 36.9DPM(CD), 500DPM(IA) 등 PacketCable 스펙보다 높았다. 이중의 분배 스위치나 라우터를 추가할 경우, 다운 시간을 11%, DPM (CD) 17%, DPM(IA)를 10%로 낮출 수 있다. 두 번째 단계에서, 타다미는 SONET/SDH 장비에 이중 기가비트 이더넷 카드를 추가할 것을 제안함으로써 다운 시간은 19%, CPM (CD)은 추가로 11%, DPM (IA)는 18% 더 낮출 수 있게 되었다. 세 번째, 이중 집선 스위치나 라우터를 추가함으로써 다운 시간을 31% 더 줄일 수 있게 되었으며, DPM(CD)은 28%, DPM(IA)은 32% 더 낮출 수 있게 되었다. 네 번째, CMTS에서 매 7번째 라인 카드에 리던던시를 부여하고 경로 프로세서에도 리던던시를, 백업 기가비트 이더넷 업링크도 구현했다. 이 단계에서의 이점은 다운 시간을 70%나 감소할 수 있으며 DPM(CD)은 32%, DPM(IA)은 73%까지 낮출 수 있었다.

이러한 4단계를 통해 다운 시간은 총 84% 감소한 49분, DPM은 64% 감소한 13.5분, DPM(IA)은 86% 감소한 70분을 기록했다. 추가된 비용은 가입자 당 자본 지출이 20% 정도에 불과, 약 13.06달러였다. 이에 대해 타다미는 "많은 사업자들이 두려워하는 100%의 자본 지출과는 거리가 멀다"고 말했다. 또한 가입자당 월 평균 매출의 1/3 정도의 약간의 추가 지출만으로도 네트워크의 가용성은 PacketCable 스펙보다 훨씬 높아질 수 있다.

스펙보다 훨씬 향상시키겠다는 것은 그리 나쁜 생각이 아니다. 케이블 사업자들은 주문형 비디오나 정기적인 방송 케이블을 IP로 전송하는 방안을 모색 중인데, 두 서비스 모두 높은 수준의 가용성을 요구하는 것이다. 챔프먼은 "모든 네트워크는 모든 유형의 트래픽에 대해 높은 수준의 가용성을 제공해야 한다. 우리는 실시간 커뮤니케이션의 시대로 접어들고 있으며, 인터넷 자체가 미션 크리티컬한 도구로 사용되고 있다"고 말했다.

그는 또한 "케이블 업계에서 음성을 위한 가용성 전략부터 시작하는 것은 다양한 애플리케이션을 위한 가용성 전략이 될 수 있다"면서 "이것이 바로 우리가 진행하고자 하는 방향"이라고 덧붙였다.

추가자료




Packet 지난 호 보기