Voz : H.323

Técnicas de codificación en forma de onda

18 Octubre 2015 - Traducción Automática
Otras Versiones: PDFpdf | Inglés (22 Agosto 2015) | Comentarios


Contenido


Introducción

A pesar de que las personas cuentan con buenos equipos para comunicaciones análogas, la transmisión análoga no es particularmente eficaz. Cuando las señales analógicas se vuelven débiles debido a la pérdida de transmisión, es difícil separar la estructura analógica compleja de la estructura del ruido aleatorio de la transmisión. Si amplifica las señales analógicas, también amplifica el ruido, y las conexiones analógicas pueden llegar a ser demasiado ruidosas para su uso. Las señales digitales, que tienen solamente el estado "bit uno" y "bit cero", se separan más fácilmente del ruido. Pueden ser amplificadas sin corrupción. La codificación digital es más inmune a la corrupción del ruido en las conexiones de larga distancia. También, los sistemas de comunicación del mundo se han convertido a un formato de transmisión digital llamado Modulación de código por impulsos (PCM). PCM es un tipo de codificación llamado codificación “en forma de onda” porque crea una forma codificada de la forma de onda original de la voz. Este documento describe el proceso de conversión de señales de voz analógicas a señales digitales en un nivel alto.

prerrequisitos

Requisitos

No hay requisitos específicos para este documento.

Componentes Utilizados

Este documento no tiene restricciones específicas en cuanto a versiones de software y de hardware.

Convenciones

Para obtener más información sobre las convenciones del documento, consulte las Convenciones de Consejos Técnicos de Cisco.

Modulación de código por impulsos

El PCM es un método de codificación en forma de onda definido en la especificación G.771 ITU-T.

Filtro

El primer paso para convertir la señal de analógico a digital es filtrar hacia fuera el componente de frecuencia más alta de la señal. Esto hace las cosas más fáciles rio abajo convertir esta señal. La mayor parte de la energía del idioma hablado está en alguna parte entre 200 o 300 hertzios y cerca de 2700 o 2800 hertzios. Áspero el ancho de banda 3000-hertz para el discurso estándar y la comunicación por voz estándar se establece. Por lo tanto, no tienen que tener filtros exactos (es muy costoso). Un ancho de banda de 4000 hertzios se hace de una punta del equipo si visión. Este filtro que limita la banda se utiliza para prevenir solapamiento (antisolapamiento). Esto sucede cuando la señal de voz analógica de entrada está undersampled, definida por el criterio Nyquist como Fs < 2(BW). La frecuencia de muestra es menos que la frecuencia más alta de la señal analógica de la entrada. Esto crea una coincidencia entre el espectro de frecuencia de las muestras y la señal analógica de la entrada. El filtro de salida de paso bajo, usado para reconstruir la señal de entrada original, no es bastante elegante detectar esta coincidencia. Por lo tanto, crea una nueva señal que no origine de la fuente. Esta creación de una señal falsa al muestrear se llama alias.

Muestreo

El segundo paso para convertir una señal de voz analógica a una señal de la voz digital es muestrear la señal de entrada filtrada en una frecuencia de muestra constante. Es realizado usando un proceso llamado la modulación de amplitud de pulso (PAM). Este paso utiliza la señal analógica original de modular la amplitud de un tren de pulsos que tenga una amplitud constante y una frecuencia. (Véase el cuadro 2.)

El tren de pulsos se mueve en una frecuencia constante, llamada la frecuencia de muestra. La señal de voz analógica se puede muestrear a millón de veces por segundo o en dos a tres veces por segundo. ¿Cómo se determina la frecuencia de muestreo? Un científico con el nombre de Harry Nyquist descubrió que la señal analógica original puede ser reconstruida si se recogen bastantes muestras. Él determinó que si la frecuencia de muestra es por lo menos dos veces la frecuencia más alta de la señal de voz analógica de entrada de información original, esta señal se puede reconstruir por un filtro de permiso reducido en el destino. El criterio Nyquist se expone como esto:

Fs > 2(BW)

Fs = Sampling frequency

BW = Bandwidth of original analog voice signal

Figura 1: Muestreo analogico

waveform_coding-1.gif

Digitalice la Voz

Después de que usted filtre y muestree (usando el PAM) una señal de voz analógica de la entrada, el siguiente paso es digitalizar estas muestras con objeto de la transmisión sobre una red de telefonía. Al proceso de digitalizar las señales de voz análogas se lo denomina PCM. La única diferencia entre el PAM y el PCM es que el PCM toma el paso más de proceso. El PCM decodifica cada muestra analogica usando las palabras del código binario. El PCM tiene conversor de analógico a digital encendido el lado de la fuente y la a conversor de digital a analógico en el lado de destino. El PCM utiliza una técnica llamada cuantificación para codificar estas muestras.

Cuantización y codificación

Figura 2: Modulación de código por impulsos - Teorema de Nyquist

/image/gif/paws/8123/waveform_coding-2.gif

La cuantificación es el proceso de convertir cada valor analógico de ejemplo en un valor discreto que puede ser asignado a una única palabra de código digital.

Al ingresar a la fase de cuantificación, los ejemplos de señales de entrada se asignan a un intervalo de cuantificación. Todos los intervalos de cuantificación están espaciados de forma equitativa (cuantificación uniforme) a través del rango dinámico de la señal analógica de entrada. Cada intervalo de cuantificación se asigna un valor discreto bajo la forma de palabra del código binario. Los tamaños de la palabra estándar usados son ocho bits. Si una señal analógica de la entrada se muestrea 8000 veces por segundo y cada muestra se da una palabra del código que sea ocho bits de largo, después la velocidad de bits de la transmisión máxima para los sistemas de telefonía usando el PCM es 64,000 bits por segundo. La figura 2 ilustra la forma en que la tasa de transferencia de bits se deriva de un sistema PCM.

Cada muestra de la entrada se asigna un intervalo de cuantificación que está el más cercano a su altura de amplitud. Si una muestra de la entrada no se asigna un intervalo de cuantificación que hace juego su altura real, después un error se introduce en el proceso PCM. Este error se denomina ruido de cuantización. El ruido de la cuantificación es equivalente al ruido aleatorio que afecta la relación señal-ruido (SNR) de una señal de voz. El SNR es una medida de ruido de fondo en relación con de la potencia de la señal. La relación de transformación se mide generalmente en los decibelios (DB). Si la fuerza de señal entrante en los microvoltios está contra, y el nivel de ruido, también en los microvoltios, es el Vn, después la relación señal-ruido, S/N, en los decibelios es dada por la fórmula S/N = 20 log10(Vs/Vn). El SNR se mide en los decibelios (DB). Cuanto más alto es el SNR, mejor es la Calidad de voz. El ruido de la cuantificación reduce el SNR de una señal. Por lo tanto, un incremento en el ruido de cuantificación degrada la calidad de una señal de voz. La figura 3 describe cómo se genera el ruido de cuantificación. Para cifrar el propósito, una N mordió las escrituras de la etiqueta de la cuantificación de las producciones 2N de la palabra.

Figura 3: Conversión de analógico a digital

/image/gif/paws/8123/waveform_coding-3.gif

Una forma de reducir el ruido de cuantificación es aumentar la cantidad de intervalos de cuantificación. La diferencia entre la altura de la amplitud de la señal de entrada y el intervalo de cuantización disminuye a medida que los intervalos de cuantización aumentan (los aumentos en los intervalos disminuyen el ruido de cuantización). Sin embargo, la cantidad de palabras del código también necesita ser aumentada en proporción al aumento en los intervalos de cuantificación. Este proceso introduce los problemas adicionales que se ocupan de la capacidad de un sistema PCM de manejar más palabras del código.

El SNR (ruido incluyendo de la cuantificación) es el solo la mayoría del factor importante que afecte a la Calidad de voz en la cuantificación uniforme. La cuantificación uniforme utiliza los niveles iguales de la cuantificación en el rango dinámico entero de una señal analógica de la entrada. Por lo tanto, las señales bajas tienen un pequeño SNR (Calidad de voz del bajo-señal-nivel) y las altas señales tienen un SNR grande (Calidad de voz del alto-señal-nivel). Puesto que la mayoría de las señales de voz generadas están de la clase baja, tener mejor Calidad de voz en niveles de la señal más altos es mismo una manera ineficiente de digitalizar las señales de voz. Para mejorar la Calidad de voz en niveles de la señal más bajos, la cuantificación uniforme (PCM uniforme) es substituida por un proceso no uniforme de la cuantificación llamado comprensión-expansión.

Compresión-expansión

El término comprensión-expansión se refiere al proceso por el cual primero se comprime una señal analógica en el origen y después se expande esta señal a su tamaño original cuando llega a destino. La comprensión-expansión del término es creada combinando los dos términos, comprimiéndolos y ampliándose, en una palabra. A la hora del proceso de la comprensión-expansión, las muestras entradas de la señal analógica son comprimidas en los segmentos logarítmicos. Cada segmento después se cuantifica y se cifra usando la cuantificación uniforme. El proceso de compresión es logarítmico. La compresión aumenta mientras que las señales de la muestra aumentan. Es decir las señales más grandes de la muestra se comprimen más que las señales más pequeñas de la muestra. Esto hace el ruido de la cuantificación aumentar mientras que la señal de la muestra aumenta. Un aumento logarítmico en el ruido de la cuantificación en el rango dinámico de una señal de la muestra de la entrada guarda el SNR constante en este rango dinámico. Los estándares ITU-T para la comprensión-expansión se llaman A-law y ley u.

Compresión de Ley-a y Ley-u

La ley A y la ley u son esquemas de la compresión de audio (codecs) definidos por el Comité de consulta para telefonía internacional y la telegrafía (CCITT) G.711 que comprimen los datos PCM Lineales de 16 bits abajo a ocho bits de los datos logarítmicos.

Compansor de la ley A

Limitando los valores de ejemplo Lineales a doce bits de la magnitud, la compresión de la ley A es definida por esta ecuación, donde está el parámetro de compresión A (A=87.7 en Europa), y x es el número entero normalizado que se comprimirá.

/image/gif/paws/8123/formula.gif

compansor de la ley u

Limitando los valores de ejemplo Lineales a trece bits de la magnitud, la compresión de la ley u (la ley u y el Mu-law se utilizan alternativamente en este documento) es definida por esta ecuación, donde está el parámetro de compresión m (m =255 en los E.E.U.U. y el Japón) y x es el número entero normalizado que se comprimirá.

/image/gif/paws/8123/formula2.gif

El estándar de la ley A es utilizado sobre todo por Europa y el resto del mundo. la ley u es utilizada por Norteamérica y Japón.

Similitudes entre la Ley-a y la Ley-u

  • Ambas son aproximaciones lineales de relación de entrada/salida logarítmica.

  • Ambos se implementan usando las palabras del código de ocho bites (niveles 256, uno para cada intervalo de cuantificación). Las palabras del código de ocho bites permiten una velocidad de bits de 64 kilobites por segundo (kbps). Esto es calculada multiplicando la velocidad de muestreo (dos veces la frecuencia de la entrada) por los tamaños del kHz x de la palabra del código (2 x 4 8 bits = 64 kbps).

  • Ambos rompen un rango dinámico en un total de 16 segmentos:

    • Ocho segmentos positivos y ocho negativos.

    • Cada segmento es dos veces la longitud del preceder.

    • Dentro de cada segmento se utiliza una cuantificación uniforme.

  • Ambos utilizan un acercamiento similar a cifrar la palabra de ocho bites:

    • Primero (MSB) identifica la polaridad.

    • Los bits dos, tres, y cuatro identifican el segmento.

    • Los bits del final cuatro cuantifican el segmento son los niveles de la señal más bajos que la ley A.

Diferencias entre la ley A y la ley u

  • Distintas aproximaciones lineales conducen a diferentes longitudes y pendientes.

  • La asignación numérica de las posiciones de bit en la palabra del código de ocho bites a los segmentos y los niveles de la cuantificación dentro de los segmentos son diferentes.

  • A-law proporcionar una alcance dinámico mucho mayor que u-law.

  • la ley u proporciona una mejores señal/rendimiento de distorsión para las señales de bajo nivel que la ley A.

  • La ley A requiere 13-bits para un equivalente de PCM uniforme. la ley u requiere 14-bits para un equivalente de PCM uniforme.

  • Una conexión internacional necesita utilizar la ley A, u a conversión A es la responsabilidad del país de la ley u.

Modulación de código de impulso diferencial

A la hora del proceso PCM, las diferencias entre las señales de la muestra de la entrada son mínimas. El diferencial PCM (DPCM) se diseña para calcular esta diferencia y después para transmitir esta pequeña señal de diferencia en vez de la señal entera de la muestra de la entrada. Puesto que la diferencia entre las muestras de la entrada es menos que una muestra entera de la entrada, el número de bits requeridos para la transmisión se reduce. Esto permite una reducción en la producción requerida para transmitir las señales de voz. Usando el DPCM puede reducir la velocidad de bits de la transmisión de voz abajo a 48 kbps.

¿Cómo calcula el DPCM la diferencia entre la señal de muestra actual y un ejemplo anterior? La primera parte del DPCM funciona exactamente igual que PCM (por eso se denomina PCM diferencial). Se da un ejemplo de la señal de entrada en una frecuencia de muestra constante (dos veces la frecuencia de entrada). Luego, se modulan estos ejemplos mediante el proceso PAM. En este momento, entra en funcionamiento el proceso DPCM. La muestra de la señal de entrada se almacena en lo que se denomina predictor. El predictor toma el ejemplo de señal almacenada y la envía a través del diferenciador. El diferenciador compara la señal anterior de la muestra con la señal actual de la muestra y envía esta diferencia a la fase que cuantifica y de codificación de PCM (esta fase puede ser cuantificación uniforme o comprensión-expansión con la ley A o la ley u). Después de cuantificar y de cifrar, la señal de diferencia se transmite a su destino final. En el extremo receptor de la red, se invierte todo. Primero la señal de diferencia dequantized. Entonces, esta señal de diferencia se agrega a un ejemplo de señal almacenado en un predictor y se envía hacia un filtro de pase de bajos que reconstruye la señal de entrada original.

El DPCM es una buena manera de reducir la velocidad de bits para la transmisión de voz. Sin embargo, causa algunos otros problemas que se ocupen de la Calidad de voz. El DPCM cuantifica y codifica la diferencia entre una señal de entrada anterior de la muestra y una señal de entrada actual de la muestra. DPCM cuantifica la señal de diferencia utilizando la cuantificación uniforme. La cuantificación uniforme genera un SNR que es pequeña para las pequeñas señales de la muestra de la entrada y grande para las señales grandes de la muestra de la entrada. Por lo tanto, la calidad de la voz es mejor en las señales más altas. Este escenario es muy ineficaz, puesto que la mayor parte de las señales generadas por la Voz humana son pequeñas. La Calidad de voz necesita centrarse en las pequeñas señales. Para solucionar este problema, se desarrolla el DPCM adaptante.

DPCM adaptable

El DPCM adaptante (ADPCM) es un método de la codificación en forma de onda definido en la especificación ITU-T G.726.

El ADPCM adapta los niveles de la cuantificación de la señal de diferencia que generó a la hora del proceso DPCM. ¿Cómo el ADPCM adapta estos niveles de la cuantificación? Si la señal de diferencia es baja, el ADPCM aumenta los tamaños de los niveles de la cuantificación. Si la señal de diferencia es alta, ADPCM reduce el tamaño de los niveles de cuantificación. Así pues, el ADPCM adapta la cuantificación llana a los tamaños de la señal de diferencia de la entrada. El genera un SNR que es uniforme en el rango dinámico de la señal de diferencia. Usando el ADPCM reduce la velocidad de bits de la transmisión de voz abajo a 32 kbps, a la mitad de la velocidad de bits de ley A o a la ley u PCM. El ADPCM produce “la Voz de la calidad del peaje” apenas como la ley A o la ley u PCM. El codificador debe tener Feedback Loop, usando los bits de la salida del codificador para recalibrar el quantizer.

Pasos específicos de 32 KB/s

Aplicable como estándares G.726 de la ITU.

  • Mostrar muestreos A-law o Mu-law en una muestra PCM lineal.

  • Calcule el valor previsto del siguiente ejemplo.

  • Mida la diferencia entre muestra real y valor pronosticado.

  • Cifre la diferencia como cuatro bits, envíe esos bits.

  • Retroactúe cuatro bits al calculador.

  • Retroactúe cuatro bits al quantizer.

Discusiones relacionadas de la comunidad de soporte de Cisco

La Comunidad de Soporte de Cisco es un foro donde usted puede preguntar y responder, ofrecer sugerencias y colaborar con colegas.


Información Relacionada


Document ID: 8123