Voix : H.323

Technique de codage des formes d'ondes

18 octobre 2016 - Traduction automatique
Autres versions: PDFpdf | Anglais (22 août 2015) | Commentaires


Contenu


Introduction

Bien que l’homme soit bien équipé pour les communications analogiques, la transmission analogique n’est pas particulièrement efficace. Quand les signaux analogiques deviennent faibles suite à une perte de transmission, il est difficile de séparer la structure analogique complexe de la structure du bruit de transmission aléatoire. Si vous amplifiez des signaux analogiques, cela amplifie également le bruit, et les connexions analogiques deviennent alors trop bruyantes pour pouvoir être utilisées. Les signaux numériques, constitués uniquement de bits 0 et 1, sont plus facilement séparables du bruit. Ils peuvent être amplifiés sans corruption. Le codage numérique est moins sensible à la corruption par le bruit sur les connexions longue distance. En outre, les systèmes de communication mondiaux sont passés à un format de transmission numérique appelé modulation par impulsions et codage (PCM). Le PCM est un type de codage qu’on appelle codage de « forme d’onde », parce qu’il crée une forme codée de la forme d’onde originale de la voix. Ce document décrit de manière très détaillée le processus de conversion des signaux vocaux analogiques en signaux numériques.

Conditions préalables

Conditions requises

Aucune spécification déterminée n'est requise pour ce document.

Composants utilisés

Ce document n'est pas limité à des versions de matériel et de logiciel spécifiques.

Conventions

Pour plus d'informations sur les conventions de documents, reportez-vous à Conventions relatives aux conseils techniques Cisco.

Modulation par impulsions et codage

Le PCM est une méthode de codage de forme d'onde définie dans la spécification ITU-T G.711.

Filtrage

La première étape pour convertir le signal d'analogique-numérique est de filtrer le composant plus élevé de fréquence du signal. Ceci font à des choses un en aval plus facile pour convertir ce signal. La majeure partie de l'énergie du langage parlé est quelque part entre 200 ou 300 hertz et environ 2700 ou 2800 hertz. Rudement la bande passante 3000-hertz pour le discours standard et la communication vocale standard est établie. Par conséquent, ils ne doivent pas avoir les filtres précis (il est très cher). Une bande passante de 4000 hertz est faite à partir d'un point de matériel si vue. Ce filtre bande-limiteur est utilisé pour empêcher l'effet d'escalier (anticrénelage). Ceci se produit quand le signal vocal analogique d'entrée undersampled, défini par le critère de Nyquist en tant que Fs < 2(BW). La fréquence d'échantillonnage est moins que la plus haute fréquence du signal analogique d'entrée. Ceci crée une superposition entre l'éventail de fréquence des échantillons et le signal analogique d'entrée. Le filtre passe-bas de sortie, utilisé pour reconstruire le signal d'entrée d'origine, n'est pas assez intelligent pour détecter cette superposition. Par conséquent, il crée un nouveau signal qui ne provient pas de la source. Cette création d'un faux signal en échantillonnant s'appelle l'effet d'escalier.

Échantillon

La deuxième étape pour convertir un signal vocal en signal de voix numérique est d'échantillonner le signal d'entrée filtré à une fréquence d'échantillonnage constante. Il fait à l'aide d'un processus appelé la modulation d'impulsions en amplitude (PAM). Cette étape utilise le signal analogique d'origine pour moduler l'amplitude d'un train d'impulsions qui a une amplitude et une fréquence constantes. (Voir la figure 2.)

Le train d'impulsions se déplace à une fréquence constante, appelée la fréquence d'échantillonnage. Le signal vocal analogique peut être échantillonné à million de fois par seconde ou à deux à trois fois par seconde. Comment la fréquence d'échantillonnage est-elle déterminée ? Un scientifique sous le nom de Harry Nyquist l'a découvert que le signal analogique d'origine peut être reconstruit si assez d'échantillons sont prélevés. Il a déterminé que si la fréquence d'échantillonnage est au moins deux fois la plus haute fréquence du signal vocal d'entrée d'origine, ce signal peut être reconstruit par un filtre passe-bas à la destination. Le critère de Nyquist est énoncé comme ceci :

Fs > 2(BW)

Fs = Sampling frequency

BW = Bandwidth of original analog voice signal

Figure 1 : Échantillonnage analogique

waveform_coding-1.gif

Numérisez la Voix

Après que vous filtriez et échantillonniez (utilisant le PAM) un signal vocal analogique d'entrée, l'étape suivante est de numériser ces échantillons en vue de la transmission au-dessus d'un réseau téléphonique. Le processus de numériser les signaux vocaux analogiques s'appelle le PCM. La seule différence entre le PAM et le PCM est que le PCM prend l'un peu plus de processus. Le PCM décode chaque échantillon analogique utilisant des mots de code binaire. Le PCM a un convertisseur analogique-numérique du côté de source et un convertisseur numérique-analogique du côté de destination. Le PCM emploie une technique appelée la quantification pour encoder ces échantillons.

Quantification et codage

Figure 2 : Modulation par impulsions et codage - Théorème de Nyquist

/image/gif/paws/8123/waveform_coding-2.gif

La quantification est le processus de convertir chaque valeur analogique d'échantillon en valeur discrète qui peut être assignée un seul mot de code numérique.

Pendant que les échantillons de signal d'entrée entrent dans la phase de quantification, ils sont assignés à un intervalle de quantification. Tous les intervalles de quantification sont équidistants (quantification uniforme) dans toute la dynamique du signal analogique d'entrée. Chaque intervalle de quantification est assigné une valeur discrète sous forme de mot de code binaire. La longueur de mot standard utilisée est huit bits. Si un signal analogique d'entrée est échantillonné 8000 fois par seconde et chaque échantillon est donné un mot de code qui est huit bits longs, alors le débit binaire de transmission maximum pour des systèmes de téléphonie utilisant le PCM est 64,000 bits par seconde. La figure 2 montre comment le débit binaire est dérivé pour un système PCM.

Chaque échantillon d'entrée est assigné un intervalle de quantification qui est le plus proche de sa hauteur d'amplitude. Si un échantillon d'entrée n'est pas assigné un intervalle de quantification qui apparie sa hauteur réelle, alors une erreur est introduite dans le processus PCM. Cette erreur s'appelle le bruit de quantification. Le bruit de quantification est équivalent au bruit aléatoire qui affecte le rapport signal/bruit (SNR) d'un signal vocal. Le SNR est une mesure de à bruit de fond relatif de force du signal. Le rapport est habituellement mesuré dans les décibels (dB). Si le point fort de signal en entrée dans les microvolts est contre, et le niveau sonore, aussi dans les microvolts, est la navigation verticale, alors le rapport signal/bruit, S/N, dans les décibels est indiqué par la formule S/N = 20 log10(Vs/Vn). Le SNR est mesuré dans les décibels (dB). Plus le SNR est élevé, plus la Qualité vocale est meilleure. Le bruit de quantification réduit le SNR d'un signal. Par conséquent, une augmentation de bruit de quantification dégrade la qualité d'un signal vocal. Expositions de figure 3 comment le bruit de quantification est généré. Pour coder le but, un mot de bit N rapporte des étiquettes de la quantification 2N.

Figure 3 : Conversion analogique-numérique

/image/gif/paws/8123/waveform_coding-3.gif

Une manière de réduire le bruit de quantification est d'augmenter la quantité d'intervalles de quantification. La différence entre la hauteur d'amplitude de signal d'entrée et les diminutions d'intervalle de quantification à mesure que les intervalles de quantification sont augmentées (les augmentations des intervalles diminuent le bruit de quantification). Cependant, la quantité de mots de code doit également être augmentée proportionnellement à l'augmentation des intervalles de quantification. Ce processus introduit les problèmes supplémentaires qui traitent la capacité d'un système PCM de manipuler plus de mots de code.

Le SNR (bruit y compris de quantification) est le facteur le plus déterminant qui affecte la Qualité vocale dans la quantification uniforme. Les utilisations uniformes de quantification égalent des niveaux de quantification dans tout la dynamique entière d'un signal analogique d'entrée. Par conséquent, les bas signaux ont un petit SNR (Qualité vocale niveau du bas) et les signaux élevés ont un grand SNR (Qualité vocale niveau de la haute). Puisque la plupart des signaux vocaux générés sont de la basse sorte, avoir une meilleure Qualité vocale à des niveaux plus élevés de signal est une manière très inefficace de numériser des signaux vocaux. Pour améliorer la Qualité vocale à des niveaux plus bas de signal, la quantification uniforme (PCM d'uniforme) est remplacée par un processus non-uniforme de quantification appelé la compression-extension.

Compression-extension

La compression-extension se rapporte au processus de compresser d'abord un signal analogique à la source, et de développer ensuite ce signal de nouveau à sa taille initiale quand elle atteint sa destination. La compression-extension de terme est créée en combinant les deux termes, en les compressant et en développant, dans un mot. Au moment du procédé de compression-extension, des échantillons entrés de signal analogique sont compressés dans des segments logarithmiques. Chaque segment est alors quantifié et codé utilisant la quantification uniforme. Le processus de compactage est logarithmique. Le compactage augmente à mesure que les signaux témoin augmentent. En d'autres termes, les signaux plus grands témoin sont compressés plus que les signaux plus petits témoin. Ceci fait augmenter le bruit de quantification à mesure que le signal témoin augmente. Une augmentation logarithmique de bruit de quantification dans toute la dynamique d'un signal témoin d'entrée maintient le SNR constant dans toute cette dynamique. Les normes ITU-T pour la compression-extension s'appellent A-law et l'u-law.

Compression-extension d'a-law et d'u-law

L'a-law et l'u-law sont des modèles de compression sonores (codecs) définis par le Comité consultatif pour la téléphonie et la télégraphie internationales (CCITT) G.711 qui compressent des données Linéaires de 16 bits PCM vers le bas à huit bits des données logarithmiques.

Compresseur-extenseur d'a-law

Limitant les valeurs Linéaires d'échantillon à douze bits de grandeur, le compactage d'a-law est défini par cette équation, où A est le paramètre de compactage (A=87.7 en Europe), et x est l'entier normal à compresser.

/image/gif/paws/8123/formula.gif

compresseur-extenseur d'u-law

Limitant les valeurs Linéaires d'échantillon à treize bits de grandeur, le compactage d'u-law (l'u-law et la loi de la MU sont utilisés l'un pour l'autre dans ce document) est défini par cette équation, où m est le paramètre de compactage (m =255 aux États-Unis et le Japon) et x est l'entier normal à compresser.

/image/gif/paws/8123/formula2.gif

La norme d'a-law est principalement utilisée par l'Europe et le reste du monde. l'u-law est utilisé par l'Amérique du Nord et le Japon.

Similitudes entre l'a-law et l'u-law

  • Chacun des deux sont des approximations Linéaires des relations logarithmiques d'entrée/sortie.

  • Chacun des deux sont mis en application utilisant des mots d'octet de code (256 niveaux, un pour chaque intervalle de quantification). Les mots d'octet de code tiennent compte d'un débit binaire de 64 kilobits par seconde (Kbps). Ceci est calculé en multipliant la fréquence d'échantillonnage (deux fois la fréquence d'entrée) par la taille du mot de code (2 x 4 KHZ X 8 bits = 64 Kbits/s).

  • Chacun des deux divisent une dynamique en un total de 16 segments :

    • Huit segments positifs et huit négatifs.

    • Chaque segment est deux fois la longueur de précédent.

    • La quantification uniforme est utilisée dans chaque segment.

  • Chacun des deux utilisent une approche semblable à coder le mot d'octet :

    • D'abord (MSB) identifie la polarité.

    • Les bits deux, trois, et quatre identifient le segment.

    • Les bits de la finale quatre quantifient le segment sont les niveaux plus bas de signal que l'a-law.

Différences entre l'a-law et l'u-law

  • Les différentes approximations Linéaires mènent à différentes longueurs et pentes.

  • L'attribution numérique des positions binaires dans le mot d'octet de code aux segments et les niveaux de quantification dans des segments sont différents.

  • L'a-law fournit une plus grande dynamique que l'u-law.

  • l'u-law fournit une meilleure représentation de signal/déformation pour des signaux de niveau inférieur que l'a-law.

  • L'a-law exige 13-bits pour un équivalent PCM d'uniforme. l'u-law exige 14-bits pour un équivalent PCM d'uniforme.

  • Une connexion internationale doit utiliser l'a-law, u à conversion A est la responsabilité du pays d'u-law.

Modulation par impulsions et codage différentielle

Au moment du processus PCM, les différences entre les signaux témoin d'entrée sont minimales. Le PCM de différentiel (DPCM) est conçu pour calculer cette différence et puis pour transmettre ce petit signal différentiel au lieu du signal entier témoin d'entrée. Puisque la différence entre les échantillons d'entrée est moins qu'un échantillon entier d'entrée, le nombre de bits exigés pour la transmission est réduit. Ceci tient compte d'une réduction du débit exigé pour transmettre des signaux vocaux. Utilisant DPCM peut ramener le débit binaire de la transmission vocale vers le bas à 48 Kbps.

Comment DPCM calcule-t-il la différence entre le signal en cours témoin et un échantillon précédent ? La première partie de DPCM fonctionne exactement comme le PCM (qu'est à dire pourquoi ce s'appelle differential PCM). Le signal d'entrée est échantillonné à une fréquence d'échantillonnage constante (deux fois la fréquence d'entrée). Alors ces échantillons sont modulés utilisant le processus PAM. En ce moment, le processus DPCM succède. Le signal d'entrée échantillonné est enregistré dans ce qui s'appelle un predictor. Le predictor prend le signal enregistré témoin et l'envoie par un différentiateur. Le différentiateur compare le signal précédent témoin au signal en cours témoin et envoie cette différence à la phase de quantification et de codage du PCM (cette phase peut être quantification ou compression-extension d'uniforme avec l'a-law ou l'u-law). Après la quantification et le codage, le signal différentiel est transmis à sa destination définitive. À l'extrémité réceptrice du réseau, tout est renversé. D'abord le signal différentiel dequantized. Alors ce signal différentiel est ajouté à un signal témoin enregistré dans un predictor et envoyé à un filtre passe-bas qui reconstruit le signal d'entrée d'origine.

DPCM est une bonne manière de réduire le débit binaire pour la transmission vocale. Cependant, il pose quelques autres problèmes qui traitent la Qualité vocale. DPCM quantifie et encode la différence entre un signal d'entrée précédent témoin et un signal d'entrée en cours témoin. DPCM quantifie le signal différentiel utilisant la quantification uniforme. La quantification uniforme génère un SNR qui est petit pour de petits signaux témoin d'entrée et grand pour de grands signaux témoin d'entrée. Par conséquent, la Qualité vocale est meilleure à des signaux plus élevés. Ce scénario est très inefficace, puisque la plupart des signaux générés par la Voix humaine sont petites. La Qualité vocale doit se concentrer sur de petits signaux. Pour résoudre ce problème, l'adaptatif DPCM est développé.

Adaptatif DPCM

L'adaptatif DPCM (ADPCM) est une méthode de codage de forme d'onde définie dans la spécification ITU-T G.726.

ADPCM adapte les niveaux de quantification du signal différentiel qui a généré au moment du processus DPCM. Comment ADPCM adapte-t-il ces niveaux de quantification ? Si le signal différentiel est bas, ADPCM augmente la taille des niveaux de quantification. Si le signal différentiel est élevé, ADPCM diminue la taille des niveaux de quantification. Ainsi, ADPCM adapte le niveau de quantification à la taille du signal différentiel d'entrée. Ceci génère un SNR qui est uniforme dans toute la dynamique du signal différentiel. Utilisant ADPCM ramène le débit binaire de la transmission vocale vers le bas à 32 Kbps, à moitié du débit binaire d'a-law ou à PCM d'u-law. ADPCM produit la Voix « de qualité de contournement » juste comme le PCM d'a-law ou d'u-law. Le codeur doit avoir la boucle de réaction, utilisant des bits de sortie d'encodeur pour recalibrer le quantificateur.

Étapes de la particularité 32 KB/s

Applicable comme normes ITU G.726.

  • Transformez les échantillons PCM d'a-law ou de MU-loi en échantillon Linéaire PCM.

  • Calculez la valeur prévue du prochain échantillon.

  • Mesurez la différence entre l'échantillon réel et la valeur prévue.

  • Codez la différence en tant que quatre bits, envoyez ces bits.

  • Rétroagissez quatre bits au predictor.

  • Rétroagissez quatre bits au quantificateur.


Informations connexes


Document ID: 8123