Voz : H.323

Técnicas de codificação de forma de onda

19 Setembro 2015 - Tradução por Computador
Outras Versões: Versão em PDFpdf | Inglês (22 Agosto 2015) | Feedback


Índice


Introdução

Embora o ser humano esteja bem capacitado para comunicações analógicas, a transmissão analógica não é particularmente eficiente. Quando os sinais analógicos se tornam fracos devido à perda de transmissão, torna-se difícil separa a estrutura analógica complexa da estrutura do ruído de transmissão aleatório. Se amplificar os sinais analógicos, ele também amplificará os ruídos e, eventualmente, as conexões analógicas se tornarão ruidosas demais para serem usadas. Os sinais digitais, tendo somente os estados “one-bit” e o “zero-bit”, são separados mais facilmente do ruído. Eles podem ser amplificados sem corrompimento. A codificação digital é mais imune ao corrompimento por ruído em conexões de interurbanas. Além disso, os sistemas de comunicação do mundo foram convertidos para um formato de transmissão digital chamado modulação de código de pulso (PCM). PCM é um tipo de codificação denominada “em forma de onda” porque cria uma forma codificada da forma de onda de voz original. Este documento descreve em um nível superior o processo de conversão de sinais de voz analógicos em sinais digitais.

Pré-requisitos

Requisitos

Não existem requisitos específicos para este documento.

Componentes Utilizados

Este documento não se restringe a versões de software e hardware específicas.

Convenções

Para obter mais informações sobre convenções de documento, consulte as Convenções de dicas técnicas Cisco.

Modulação de código de pulso

O PCM é um método de codificação de forma de onda definido na especificação ITU-T G.711.

Filtrando

A primeira etapa para converter o sinal de analógico-numérico é filtrar para fora o componente de frequência mais elevada do sinal. Isto facilita coisas rio abaixo converter este sinal. A maioria da energia do linguagem falada está em algum lugar entre 200 ou 300 hertz e aproximadamente 2700 ou 2800 hertz. Aproximadamente a largura de banda 3000-hertz para uma comunicação de voz padrão do discurso e do padrão é estabelecida. Consequentemente, não têm que ter filtros precisos (é muito cara). Uma largura de banda de 4000 hertz é feita de um ponto do equipamento se vista. Esse filtro limitador de banda é utilizado para evitar aliasing (anti-aliasing). Isso acontece quando o sinal de voz analógico de entrada é submetido a uma amostragem, definido pelo critério Nyquist como Fs < 2(BW). A frequência de amostragem é menos do que a frequência mais alta do sinal analógico da entrada. Isto cria uma sobreposição entre o espectro de frequência das amostras e o sinal analógico da entrada. O filtro de emissor de passe baixo, usado para reconstruir o sinal de entrada original, não é esperto bastante detectar esta sobreposição. Consequentemente, cria um sinal novo que não origine da fonte. Esta criação de um sinal falso ao provar é chamado serrilha.

Amostragem

O segundo passo para converter um sinal de voz analógico a um sinal da voz digital é provar o sinal de entrada filtrado em uma frequência de amostragem constante. É realizado usando um processo chamado a modulação de amplitude de pulso (PAM). Esta etapa usa o sinal analógico original modular a amplitude de um trem de pulsos que tenha uma amplitude constante e uma frequência. (Veja figura 2.)

O trem de pulsos move-se em uma frequência constante, chamada a frequência de amostragem. O sinal de voz analógico pode ser provado em milhão vezes por segundo ou em duas a três vezes por segundo. Como a freqüência de amostragem é determinada? Um cientista pelo nome de Harry Nyquist descobriu que o sinal analógico original pode ser reconstruído se bastante amostras são tomadas. Determinou que se a frequência de amostragem é pelo menos duas vezes a frequência mais alta do sinal de voz analógico de entrada original, este sinal pode ser reconstruído por um filtro de passagem baixa no destino. Os critérios de Nyquist são indicados como este:

Fs > 2(BW)

Fs = Sampling frequency

BW = Bandwidth of original analog voice signal

Figura 1: Amostra análoga

waveform_coding-1.gif

Digite a Voz

Depois que você filtra e prova (usando o PAM) um sinal de voz analógico da entrada, a próxima etapa é digitar estas amostras à vista da transmissão sobre uma rede de telefonia. O processo de digitalização de sinais de voz analógica é chamado PCM. A única diferença entre o PAM e o PCM é que o PCM toma a uma etapa adiante do processo. O PCM descodifica cada amostra análoga usando palavras do código binário. O PCM tem um conversor de analógico para digital no lado da fonte e um conversor digital a analógico no lado de destino. O PCM usa uma técnica chamada quantização para codificar estas amostras.

Quantização e codificação

Figura 2: Pulse Code Modulation - Teorema Nyquist

/image/gif/paws/8123/waveform_coding-2.gif

Quantização é o processo de conversão de cada valor de exemplo analógico em um valor discreto que pode ser atribuído a uma única palavra de código digital.

À medida que as amostras de sinal de entrada entram na fase de quantização, são atribuídas com um intervalo de quantização. Todos os intervalos de quantização estão uniformemente espaçados (quantização uniforme) em todo o intervalo dinâmico do sinal analógico de entrada. Cada intervalo de quantização é atribuído um valor discreto sob a forma de uma palavra do código binário. O tamanho de palavra padrão usado é oito bit. Se um sinal analógico da entrada está provado 8000 vezes por segundo e cada amostra está dada umas palavras código que sejam oito bit por muito tempo, a seguir a taxa de bits da transmissão máxima para os sistemas de telefonia que usam o PCM é 64,000 bit por segundo. A Figura 2 ilustra a taxa de bit derivada para um sistema de PCM.

Cada amostra da entrada é atribuída um intervalo de quantização que seja o mais próximo a sua altura de amplitude. Se uma amostra da entrada não é atribuída um intervalo de quantização que combine sua altura real, a seguir um erro é introduzido no processo PCM. Esse erro é chamado ruído de quantização. O ruído da quantização é equivalente ao ruído aleatório que impacta a razão sinal-ruído (SNR) de um sinal de voz. O SNR é uma medida do ruído de fundo relativo a da intensidade de sinal. A relação é medida geralmente nos decibéis (DB). Se a força de sinal recebido nos microvolts está contra, e o nível de ruído, também nos microvolts, é o Vn, a seguir a razão sinal-ruído, S/N, nos decibéis é dada pela fórmula S/N = 20 log10(Vs/Vn). O SNR é medido nos decibéis (DB). Mais alto o SNR, melhor a Qualidade de voz. O ruído da quantização reduz o SNR de um sinal. Portanto, um aumento no ruído de quantização degrada a qualidade de um sinal de voz. A Figura 3 mostra como o ruído de quantização é gerado. Para codificar a finalidade, um N mordeu etiquetas da quantização dos rendimentos 2N da palavra.

Figura 3: Conversão analógica-numérica

/image/gif/paws/8123/waveform_coding-3.gif

Um modo de reduzir o ruído da quantização é aumentar a quantidade de intervalos de quantização. A diferença entre a altura da amplitude do sinal de entrada e o intervalo de quantização diminui à medida que os intervalos de quantização aumentam (aumentos nos intervalos diminuem o ruído de quantização). Contudo, a quantidade de palavras código igualmente precisa de ser aumentada em proporção ao aumento nos intervalos de quantização. Este processo introduz os problemas adicionais que tratam a capacidade de um sistema de PCM segurar mais palavras código.

O SNR (que inclui o ruído da quantização) é o único a maioria de fator importante que afeta a Qualidade de voz na quantização uniforme. A quantização uniforme usa níveis iguais da quantização durante todo o intervalo dinâmico inteiro de um sinal analógico da entrada. Consequentemente, os baixos sinais têm um SNR pequeno (Qualidade de voz do baixo-sinal-nível) e os sinais altos têm um grande SNR (Qualidade de voz do alto-sinal-nível). Desde que a maioria de sinais de voz gerados são do baixo tipo, ter a melhor Qualidade de voz a níveis de sinal mais altos é muito uma maneira ineficiente de digitar sinais de voz. Para melhorar a Qualidade de voz a mais baixos níveis de sinal, a quantização uniforme (uniforme PCM) é substituída por um processo nonuniform da quantização chamado companding.

Compressão seguida de expansão

A compressão seguida de expansão refere-se ao processo de primeiro compactar um sinal analógico na origem e, em seguida, expandir este sinal de volta ao seu tamanho original quando alcança seu destino. O companding do termo é criado combinando os dois termos, comprimindo e expandindo, em uma palavra. Na altura do processo do companding, as amostras entradas do sinal analógico são comprimidas em segmentos logarítmicos. Cada segmento então é quantificado e codificado usando a quantização uniforme. O processo de compactação é logarítmico. A compressão aumenta enquanto os sinais da amostra aumentam. Ou seja os sinais maiores da amostra são comprimidos mais do que os sinais menores da amostra. Isto faz com que o ruído da quantização aumente enquanto o sinal da amostra aumenta. Um aumento logarítmico no ruído da quantização durante todo o intervalo dinâmico de um sinal da amostra da entrada mantém o SNR constante durante todo este intervalo dinâmico. Os padrões do ITU-T para o companding são chamados A-law e u-lei.

Compressão seguida de expansão de “a-law e u-law”

O a-law e a u-lei são esquemas da compressão de áudio (codecs) definidos pelo comitê consultivo de telefonia internacional e pela telegrafia (CCITT) G.711 que comprimem dados Lineares de 16 bits PCM para baixo a oito bit de dados logarítmicos.

Compander do a-law

Limitando os exemplos de valor Lineares a doze bit da magnitude, a compressão do a-law é definida por esta equação, onde A é o parâmetro de compactação (A=87.7 em Europa), e x é o inteiro normalizado a ser comprimido.

/image/gif/paws/8123/formula.gif

Compander da u-lei

Limitando os exemplos de valor Lineares a treze bit da magnitude, neste documento) a compressão da u-lei (a u-lei e o Mu-law são usados permutavelmente é definida por esta equação, onde m é o parâmetro de compactação (m =255 nos E.U. e no Japão) e x é o inteiro normalizado a ser comprimido.

/image/gif/paws/8123/formula2.gif

O padrão do a-law é usado primeiramente por Europa e pelo resto do mundo. a u-lei é usada por America do Norte e por Japão.

Semelhanças entre a-law e u-law

  • Ambas são aproximações lineares de relacionamento logarítmico de entrada/saída.

  • Ambos são executados usando palavras código do oito-bit (níveis 256, um para cada intervalo de quantização). as palavras código do Oito-bit permitem uma taxa de bits de 64 kilobits por segundo (kbps). Isto é calculado multiplicando a taxa de amostragem (duas vezes a frequência da entrada) pelo tamanho do kHz x das palavras código (2 x 4 8 bit = 64 kbps).

  • Ambos quebram um intervalo dinâmico em um total de 16 segmentos:

    • Oito segmentos positivos e oito negativos.

    • Cada segmento está duas vezes a um comprimento do de precedência.

    • A quantização uniforme é usada em cada segmento.

  • Ambos usam uma aproximação similar a codificar a palavra do oito-bit:

    • Primeiramente (MSB) identifica a polaridade.

    • Os bit dois, três, e quatro identificam o segmento.

    • Os bit do final quatro quantificam o segmento são os níveis de sinal mais baixos do que o a-law.

Diferenças entre o a-law e a u-lei

  • Diferentes aproximações lineares levam a diferentes comprimentos e inclinações.

  • A atribuição numérica das posições de bit nas palavras código do oito-bit aos segmentos e os níveis da quantização dentro dos segmentos são diferentes.

  • A a-law oferece um intervalo dinâmico maior que a u-law.

  • a u-lei fornece o melhores sinal/desempenho de distorção para sinais de baixo nível do que o a-law.

  • O a-law exige 13-bits para um equivalente a PCM uniforme. a u-lei exige 14-bits para um equivalente a PCM uniforme.

  • Uma conexão internacional precisa de usar o a-law, u a conversão A é a responsabilidade do país da u-lei.

Modulação de código de pulso diferencial

Na altura do processo PCM, as diferenças entre sinais da amostra da entrada são mínimas. O diferencial PCM (DPCM) é projetado calcular esta diferença e transmitir então este sinal de diferença pequeno em vez do sinal inteiro da amostra da entrada. Desde que a diferença entre amostras da entrada é menos do que uma amostra inteira da entrada, o número de bit exigidos para a transmissão é reduzido. Isto permite uma redução na taxa de transferência exigida para transmitir sinais de voz. Usar o DPCM pode reduzir a taxa de bits da transmissão de voz para baixo a 48 kbps.

Como o DPCM calcula a diferença entre o atual sinal de exemplo e um exemplo anterior? A primeira parte do DHCP funciona exatamente como o PCM (e este é motivo porque isso é chamado de PCM diferencial). O sinal de entrada é exemplificado em uma freqüência de amostragem constante (duas vezes a freqüência de entrada). Assim, essas amostras são moduladas, com uso do processo de PAM. Nesse ponto, o processo DPCM assume. O sinal de entrada exemplificado é armazenado naquilo que é chamado de prognosticador. O preditor pega o sinal de exemplo armazenado e o envia por meio de um diferenciador. O diferenciador compara o sinal precedente da amostra com o sinal atual da amostra e envia esta diferença à fase de quantificação e de codificação de PCM (esta fase pode ser quantificação uniforme ou companding com a-law ou u-lei). Após a quantificação e a codificação, o sinal de diferença é transmitido a seu destino final. Na extremidade de recepção da rede, tudo é invertido. Primeiramente o sinal de diferença dequantized. Em seguida, esse sinal de diferença é adicionado a um sinal de exemplo armazenado nem um previsor e enviado a um filtro de baixa freqüência que reconstrói o sinal de entrada original.

O DPCM é uma boa maneira de reduzir a taxa de bits para a transmissão de voz. Contudo, causa alguns outros problemas que tratam a Qualidade de voz. O DPCM quantifica e codifica a diferença entre um sinal de entrada precedente da amostra e um sinal de entrada atual da amostra. O DPCM quantiza o sinal de diferença usando a quantização uniforme. A quantização uniforme gera um SNR que seja pequeno para sinais pequenos da amostra da entrada e grande para grandes sinais da amostra da entrada. Sendo assim, a qualidade de voz é melhor a sinais mais elevados. Esta encenação é muito incapaz, desde que a maioria dos sinais gerados pela Voz humana são pequenos. A Qualidade de voz precisa de centrar-se sobre sinais pequenos. Para resolver este problema, o DPCM adaptável é desenvolvido.

DPCM adaptativo

O DPCM adaptável (ADPCM) é um método da codificação de forma de onda definido na especificação de G.726 do ITU-T.

O ADPCM adapta os níveis da quantização do sinal de diferença que gerou na altura do processo DPCM. Como o ADPCM adapta estes níveis da quantização? Se o sinal de diferença é baixo, o ADPCM aumenta o tamanho dos níveis da quantização. Se o sinal de diferença é elevado, o ADPCM reduz o tamanho dos níveis de quantização. Assim, o ADPCM adapta a quantização em nível ao tamanho do sinal de diferença da entrada. Isto gera um SNR que seja uniforme durante todo o intervalo dinâmico do sinal de diferença. Usar o ADPCM reduz a taxa de bits da transmissão de voz para baixo a 32 kbps, a metade da taxa de bits do a-law ou a u-lei PCM. O ADPCM produz do “a Voz da qualidade pedágio” apenas como o a-law ou a u-lei PCM. O codificador deve ter o loop de feedback, usando bit da saída do codificador para aferir novamente o quantizador.

Passos específicos a 32 KB/s

Aplicável como Padrões de ITU G.726.

  • Converta exemplos de PCM de Lei-A ou Lei-µ em um exemplo de PCM linear.

  • Calcule o valor previsto do próximo exemplo.

  • Meça a diferença entre a amostra atual e o valor previsto.

  • Codifique a diferença como quatro bit, envie aqueles bit.

  • Seja quatro bit ao predictor.

  • Seja quatro bit ao quantizador.

Discussões relacionadas da comunidade de suporte da Cisco

A Comunidade de Suporte da Cisco é um fórum onde você pode perguntar e responder, oferecer sugestões e colaborar com colegas.


Informações Relacionadas


Document ID: 8123