TECHNOLOGY 17호

Voice Quality
음성 품질

하이브리드 TDM 네트워크에서의 음성 품질 설계 방법
대부분의 기술과 마찬가지로, 전화 서비스는 서비스, 구축, 사용 부문의 품질 문제가 이슈가 되어왔다. 예를 들어, 1930년대 대표적인 전화기는 회전식 다이얼에 촛대와 같은 형태로 수화기의 경우, 듣는 부분과 말하는 부분이 분리되어 있었다. 최근의 전화기는 키패드 기반으로, 내선 번호 라벨이 붙어 있는 곳에 '발신음을 기다리시오'라는 문구가 새겨져 있다. 이는 음성 품질이 아직도 진행 중인 문제라는 것을 다시 한 번 상기시켜 주는 사례이다. 이는 당연한 것으로 받아들여지고 있기 때문에 좋은 음성 품질은 최종 사용자들에게 대규모로 혁신적인 음성 서비스를 인식시키고 채택하는데 있어 가장 기본적으로 갖추어야 할 사항이다. 현재 VoIP가 기업에서 뿐만 아니라 관리형 비즈니스 음성 서비스 도입 형태로 서비스 사업자에게도 폭 넓게 확산, 본사와 지사에 빠르게 설치되고 있기 때문에 음성 품질은 더 이상 선택 사항이 아니라 반드시 해결해야 할 문제가 되고 있다.

전용(기업용) 네트워크가 공중 네트워크 등 다른 네트워크와 연결되어 있는 현재의 상황에서는 전세계적인 음성 네트워크 전송 환경이 급격히 변화하고 있음을 의미하는 것이다. 패킷 교환 음성 네트워크와 회선 기반 음성 네트워크를 결합하는 것이 하이브리드 네트워크의 전반적인 전송 특징에 어떤 영향을 미치는지에 대해 완벽히 이해하고 있지 못하는 사람들이 여전히 많으며, VoIP의 음성 품질이 좋지 않을 것이라는 편견을 갖고 있는 사람들도 많다. 음성 트래픽을 인터넷 망으로 전송하는 것은 음성 트래픽을 PSTN으로 전송하는 것과 다른 것으로 알고 있으며, 그런 생각은 데이터 형태의 트래픽에 음성을 동시에 처리하는 복잡함과 음성 시그널링에 대한 서비스 품질(QoS) 기술을 적용할 필요성, 네트워크 인프라의 IP 부분에서 트래픽을 어떻게 분리할 것인가 등의 문제를 야기하게 되었다.

여기에서는 특히 하이브리드 TDM-IP 네트워크에서 발생하는 음성 품질 문제에 대해 알아보도록 한다. 음성 품질은 서비스(신뢰성, 제공되는 서비스, 가용성)와 투명성(큰소리, 왜곡, 잡음), 대화의 품질(에코, 지연, 클리핑)에 대한 정량 및 정성적인 측정 수단으로 규정된다. 이러한 정의에는 아날로그 음성 신호 자체의 특징과 주어진 전송 메커니즘의 성능이 포함된다.

맨위로

지터와 지연 관리로는 충분치 않아


전통적인 설계 방법에서 볼 때, VoIP 네트워크는 '블랙 박스'로 간주되었다. 패킷 도착 시간을 일관되게 유지하기 위한 지터 관리와 종단간 지연을 150ms 이하로 낮춤으로써 사용자가 지연을 느끼지 못하도록 하면 충분하다고 생각되어왔다. 중간이나 최종 지점에 어떤 요소가 있는지에 상관 없이 음성 품질이 종단간(end to end) 측정되었다. 하지만 서비스, 투명성과 대화는 PSTN이나 IP 네트워크, 또는 두 네트워크 모두에서 발생하는 콜의 품질에 영향을 미친다. 서비스 품질은 비즈니스 문제와 긴밀히 연관되어 있다. 하지만 투명성과 대화 품질은 음성 네트워크 설계의 특성에 좌우된다. 이러한 점에서, 투명성과 지연, 에코(echo)가 핵심이다. 음성 감쇄 문제를 야기하는 원인을 살펴봄으로써 음성 네트워크 설계가 음성 품질에 어떤 영향을 미치는지 이해할 수 있다.

헬렌 로비슨(HELEN ROBISON)은 시스코의 서비스 제공업체 솔루션 엔지니어링의 선임 기술 마케팅 엔지니어로, 스탠포드 대학을 졸업했다. 시스코에서의 9년을 포함해 17년 동안 서비스 제공업체 음성 프로토콜 기술 부문에 몸담고 있으며, 이메일 주소는 hrobison@cisco.com이다.
에코는 가장 명확한 음성 품질 감쇄 요인이며 하이브리드 TDM-IP 음성 네트워크에서 귀찮은 존재이다.

정량적으로, 에코는 말하는 사람의 음성이 전화기를 통해 자신에게 되돌아오는 소리이다. 기술적으로 보면, 에코는 네트워크의 꼬리(tail) 회선 부분에서의 수신 경로로 누설되는 원격지 전송 경로에 의해 야기된다. 원래 말한 부분과 수신되어 울리는 부분의 시간이 짧다면(ETL(echo tail length가 32ms 이하이거나 에코의 감쇄 수준이 매우 낮을 경우(ERL(echo return loss)이 -10dB 이하)), 대화에 아무런 영향을 주지 않게 된다. 대부분의 PSTN 환경에서, 에코가 존재하지만 사람이 말하는 것보다 짧은 시간에 발생하기 때문에 측음(side-tone)에만 머무르게 된다. 에코가 과도하게 지연되어 네트워크를 통해 듣기에 충분할 정도로 감쇄되면 에코는 말하는 사람이 인식하게 되며 음성 품질에 문제가 생기게 된다. 에코가 네트워크의 아날로그 부분에서만 발생한다고 생각하지만 IP 네트워크에 의해 지연이 추가되면 이전에는 인식하지 못했던 에코가 발생하게 된다.

이러한 수준의 에코를 없애기 위해서는 에코 캔슬러(echo canceller)라 불리는 장비가 가능한 한 에코 발생지 가까이에 설치되어야 한다. 하지만, 이러한 장비가 성공적으로 운영되기 위해서는 음성 네트워크 설계에 ERD와 ERL을 포함해 관리 가능한 한계를 설정해야 한다.

끊어지고 잘 안 들리며 음성의 고저 현상이 발생하는 경우는 음성 네트워크의 IP 부분에서 과도하게 패킷 지연이나 패킷 손실이 발생하기 때문에 야기된다. 손실 패턴과 패킷 손실을 해결하는데 사용되는 알고리즘, 그리고 부호기/복호기(CODEC) 형태에 따라 음성 품질의 결과가 달라진다. 손실 패턴 요인의 대표적인 사례인 연속적인 패킷 손실은 일반적으로 임의 손실보다 정도가 높게 음성 품질을 약화시킨다는 것이다. 음성 품질 저하와 관련된 소스는 일관되지 않은 패킷 도착 시간이나 잘못된 패킷 전송에 기인한다. 이러한 두 가지 요인은 최종 지점의 지터 버퍼를 야기해, 패킷이 너무 늦게 도착하거나 지터 버퍼가 교정하기에는 너무나 어긋나 도착하기 때문에 패킷이 도착하더라도 패킷이 폐기된다(ITU-T 권고사항 G.113 참조).

과도한 종단간 네트워크 지연도 대화 품질에 영향을 미친다. 예를 들면, 말하는 사람이 예상한 응답 시간을 초과해 아무런 말도 들을 수 없게 되면 여러 번 말을 반복하게 되는데, 원격지의 지연된 반응은 두 번 이상 말하는 결과를 초래한다. 대부분의 사람들은 10ms 이하의 지연을 알아차리지 못한다. 하지만 100ms~300ms 사이의 지연이 발생하면 약간 대화가 지연되어 처리된다는 것을 알게 된다. 이러한 약간의 지연 현상은 대화의 분위기를 각 송신자 및 수신자가 인식하게 되는 수준이며, 300ms 이상일 경우, 확실히 전화에 지연 현상이 발생, 사용자들에게 높은 품질의 대화를 제공하기가 불가능해진다(ITU-T 권고사항 G.114 참조).

프런트 엔드 클리핑은 말하는 사람의 첫 번째 말이나 단어를 놓치는 것으로, IP 네트워크에서의 묵음 압축 메커니즘(silence suppression mechanisms)의 사용과 지연의 조합에 의해 야기된다. 대역폭을 보다 효과적으로 만들기 위해, VoIP 네트워크는 VAD(voice activity detector)나 CNG (comfort noise generator)와 같은 묵음 압축 메커니즘을 채택하고 있다.

종단간(end-to-end) 음성 품질: 네트워크 인프라 장비는 손실 삽입을 야기함으로써 음성 품질에 영향을 미치기 때문에 전체 네트워크에 대한 종합적인 분석이 실행되어야 한다.


맨위로

음성 품질 평가 방법


위에서는 음성 품질에 영향을 미치는 요인에 대해 알아보았다. 그렇다면, 종단간 음성 품질은 어떻게 평가할 수 있을까?
한 가지 확실한 방법은 MOS(Mean Opinion Score 또는 ITU-T P.800)으로, 통제된 실험 형태로 많은 사람들을 대상으로 각각 전화를 걸어 음성 품질을 평가하는 것이다. 음성 콜 상태가 어떠한지 각각의 개인의 경험을 토대로 평가가 이루어지게 된다.
MOS는 실험에 참여한 모든 사람들로부터 계산된 수치의 평균 값이다(1-5까지 점수가 매겨지며, 5는 매우 훌륭한 수준이며, 4는 일반 유료 전화 수준의 품질). MOS의 단점은 시간과 비용이 많이 들며 불편하다는 것이다.
따라서, 일반적인 음성 품질 평가는 PSQM(Perceptual Speech Quality Measure, ITU-T P.861)이나 PAMS (Perceptual Analysis Measurement System) 또는 PESQ(Perceptual Evaluation of Speech, ITU-T P.862) 등의 분석 알고리즘 중의 하나를 사용해 이루어진다. 이러한 측정 방법은 객관적인 평가와 음성 투명도를 계량화하는데 필요한 메트릭스를 제공한다.
대부분의 음성 품질 테스트 툴은 하나 이상의 이러한 측정 방법을 제공하며 비교 목적을 위한 MOS 추정 값도 제공한다. 비록 이러한 표준이 엔드 포인트의 품질을 반영하지는 못하지만 신속한 네트워크 평가에 사용될 수 있다. 하지만 가장 최근에 등장했으며 선호되는 알고리즘인 PESQ도 전송 품질의 종합적인 평가를 제공하지는 못한다. PESQ는 단방향 음성 왜곡과 잡음의 효과만을 측정하며 큰소리, 지연과 에코 등 양방향 상호 작용의 효과를 측정하지는 못한다. 네트워크가 높은 PESQ 점수를 기록하더라도 접속 품질이 나쁠 수도 있다. 무엇보다도 중요한 것은, 이러한 측정 방법이 네트워크 문제가 어디에서 발생했는지에 대해 충분한 분석 정보를 제공하지 못한다는 점이다.
네트워크 인프라 장비(PSTN 트렁크나 회선, 음성 게이트웨이, 아날로그 및 IP 폰 등)는 손실 삽입을 통해 음성 품질에 영향을 끼친다. 따라서, 네트워크 기획이나 전환 단계에서는 포괄적인 음성 품질 분석이 전체 네트워크에서 이루어져야 한다.
네트워크는 네트워크와 다른 네트워크(일반적으로 공중 네트워크) 사이 뿐만 아니라 전용 회선의 두 사용자 사이의 음성 품질을 바람직한 수준으로 최적화하도록 설계되어야 한다.

맨위로

전송 손실 플랜

가까운 곳의 송신자와 먼 거리에 위치한 수신자 간의 접속에 대한 전반적인 신호 손실에는 전송 손실 플랜(trans mission loss plan)이라 불리는 접속을 구성하고 있는 모든 장비에서의 손실 할당이 포함된다.
TIA(Telecommun ications Industry Association)에 의해 개발된 전송 고정 손실 플랜은 1m 떨어진 말하는 사람과 듣는 사람간의 정격 대화에 있어 종단간 손실을 약 10dB로 규정하도록 하고 있다. 현재 실제 손실은 8-21dB 정도이며, 8012dB는 장기적인 관점으로 본 것이다.
고정 손실 플랜의 목적은 에코와 잡음을 줄여 음성 접속의 품질을 유지하는 것이다(TIA TSB 32-A 참조). 전송 기획의 토대는 E-Model(ITU-T G.107)로, 종단간 접속의 음성 품질을 계산하고 평가하는데 사용된다. 앞서 논의된 다른 음성 품질 평가 방법과는 달리, E-Model은 R 팩터(0~100)라 불리는 음성 품질 등급 점수를 계산해 측정 가능한 장비 감쇄를 사용하는데, 이는 MOS 점수와 연관된다.(예를 들면, R=80의 경우 MOS=4.03이다).
음성 네트워크를 새롭게 구축하거나 변경하는 것은 구성에 필요한 여러 네트워크 장비에 대한 정보를 얻기 위함이며 종단간 접속 음성 품질에 영향을 미치는 전송 감쇄 요인이 무엇인지 파악하기 위함이다.
손실, 왜곡, 에코, 잡음 등과 같은 파라미터 각각 특정 감쇄에 기여한다. 음성 게이트웨이와 IP 전화기 또는 ATA 접속(아날로그와 디지털 인터페이스 또는 TDM과 IP 음성 인터페이스를 제공하는 모든 장비)을 음성 네트워크에 삽입할 경우 전송 손실이 발생하게 된다. E-Model의 사용을 토대로 한 이러한 기획 원칙은 지터와 종단간 지연 등 적합한 파라미터의 제한에 대한 초기 전송 가이드라인과는 다르다.

ITU-T G.107 E-Model: R = Ro - Is - Id - Ie + A

R; Transmission Rating Factor
Ro; 큰 소리(loudness)와 전기 및 배경 소음을 전송하고 수신하는 데 토대를 둔 소음 대비 기본적인 신호
Is; 실시간 음성 전송을 약화하는 큰 소음, 측음(sidetone), PCM 양자화 왜곡 등의 총합을 나타낸다.
Id; 말하는 사람의 잡음이나 듣는 사람의 잡음, 절대 지연 등 음성 신호와 관련된 지연된 약화의 총합
Ie; 각 CODEC이나 패킷 손실 각각의 퍼센트에 따라 결정되는 low bit-rating coding 등 특정 장비에 대한 Equipment Impairment를 나타낸다.
A; Advantage factor (위성 전화와 같은 액세스 활용을 보정)

* * *

음성 네트워크는 과거보다 훨씬 복잡해졌으며, 새로운 기술의 등장과 함께 계속 변화하고 있다. E-Model을 통해 전송 파라미터의 할당에 보다 강력한 유연성을 갖추게 됨으로써 다양한 전송 요인에 대한 절대 한계를 초과하지 못하도록 보장할 수 있다. 이러한 모델에 따라 설계된 네트워크는 측정 가능한 방법으로 음성 품질을 최적화할 수 있는 기능을 제공해준다.

추가자료
 


■ ITU(International Telecommunications Union) G 시리즈 표준:
www.itu.int/itu-t/studygroups/com15/index.asp
■ 잡음 제거에 대한 기사(Packet, 2003년 봄호):
cisco.com/packet/154_5a1



맨위로

Cisco에 문의하세요



Packet 지난 호 보기