音声 : H.323

波形符号化技術

2016 年 10 月 27 日 - 機械翻訳について
その他のバージョン: PDFpdf | ライター翻訳版 (2008 年 3 月 27 日) | 英語版 (2015 年 8 月 22 日) | フィードバック


目次


概要

我々の周囲にはアナログ通信のための装置が完備していますが、アナログ伝送というものはとりわけ効率的というわけではありません。 伝送損失によってアナログ信号が弱くなると、複雑なアナログ構造をランダムな伝送ノイズの構造から分離することが困難になります。 アナログ信号を増幅するとノイズも増幅されるので、結果的にアナログ接続には多くのノイズが混じり、使用できないような状態になります。 デジタル信号には「1 のビット」と「0 のビット」の状態だけしかないため、ノイズからの分離が簡単です。 デジタル信号は、破損することなく増幅することが可能です。 デジタル符号化では、長距離接続でのノイズ破損に対する耐性がはるかに高くなっています。 また、世界中の通信システムは、pulse code modulation(PCM; パルス符号変調)と呼ばれるデジタル伝送形式に切り替わっています。 PCM は「波形」符号化と呼ばれる符号化の一種で、元の音声波形の符号化形式が作成されます。 このドキュメントでは、 アナログ信号からデジタル信号への変換処理について 詳細に説明します。

前提条件

要件

このドキュメントに関する固有の要件はありません。

使用するコンポーネント

このドキュメントは、特定のソフトウェアやハードウェアのバージョンに限定されるものではありません。

表記法

ドキュメント表記の詳細は、『シスコ テクニカル ティップスの表記法』を参照してください。

パルス符号変調

PCM は、ITU-T G.711 仕様で定義された波形符号化方式です。

フィルタリング

アナログからデジタルへ信号を変換するための最初の手順は、信号の高周波数コンポーネントをフィルタリングすることです。 これによって、この信号を変換するための後処理が容易になります。 会話の大部分のエネルギーは、200 か 300 から 2700 か 2800 ヘルツの間にあります。 標準的な会話や標準的な音声通信では、およそ 3000 ヘルツの帯域幅が確立されます。 したがって、(非常に高価な)高精度のフィルタは必要ありません。 機器の観点では、4000 ヘルツの帯域幅が使用されます。 この帯域制限フィルタを使用し、 エイリアシング(アンチエイリアシング)を防止します。 これが発生するのは、Nyquist 基準で Fs < 2(BW) と定義された条件で入力アナログ音声信号がサンプリングされている場合です。 サンプリング周波数は、入力アナログ信号の最高周波数よりも低くなります。 このため、サンプルの周波数スペクトルと入力アナログ信号の間にオーバーラップが発生します。 元の入力信号を再構築するために使用されるローパス出力フィルタは、このオーバーフラップを検出するほど高精度ではありません。 したがって、発信元から発信されていない新しい信号が作成されてしまいます。 このように標本化時に偽信号が生成されることを エイリアシングと呼びます。

サンプリング

アナログ音声信号をデジタル音声信号に変換するための 2 番目の手順は、フィルタリングが適用された入力信号を一定のサンプリング周波数でサンプリングすることです。 これは、pulse amplitude modulation(PAM; パルス振幅変調)と呼ばれる処理により行われます。 このステップは一定した振幅および周波数があるパルストレインの振幅を調整するオリジナル アナログ信号を使用します。 (図 2 を参照してください)

パルス列の変調はサンプリング周波数と呼ばれる一定の周波数で行われます。 アナログ音声信号は、1 秒あたり 100 万回でサンプリングすることも、1 秒あたり 2、3 回でサンプリングすることも可能です。 サンプリング周波数はどのように決定しますか。 Harry Nyquist という科学者が、十分なサンプリングが行われた場合には元のアナログ信号を再構築できることを発見しました。 この科学者は、サンプリング周波数が元の入力アナログ音声信号の最高周波数の少なくとも 2 倍であれば、着信側ではローパス フィルタによってこの信号の再構築が可能であると判断しています。 Nyquist の基準は次のように表されます。

Fs > 2(BW)

Fs = Sampling frequency

BW = Bandwidth of original analog voice signal

図 1: アナログ サンプリング

waveform_coding-1.gif

音声のデジタル化

入力アナログ音声信号に(PAM を使用して)フィルタリングとサンプリングを実行した後は、テレフォニー ネットワークを介した伝送に備えてこれらのサンプルをデジタル化することが次の手順です。 アナログ音声信号をデジタル化する処理を パルス符号化変調(PCM)と呼びます。 PAM と PCM の唯一の違いは、PCM にはさらに次の処理が必要であることです。 PCM では、バイナリ コードワードを使用して、各アナログ サンプルが符号化されます。 PCM では、発信側にアナログからデジタルへのコンバータを置き、着信側にデジタルからアナログへのコンバータを置きます。 PCM では、これらのサンプルを符号化するために量子化というテクニックが使用されます。

量子化および符号化

図 2: パルス符号変調:Nyquist の定理

/image/gif/paws/8123/waveform_coding-2.gif

量子化は、 各アナログ サンプル値を離散値(不連続値、とびとびの値)に変換する処理です。この離散値は、固有のデジタル コード ワードに割り当てられます。

入力信号のサンプルが量子化フェーズに入ると、量子化間隔に割り当てられます。 すべての量子化間隔は、入力アナログ信号のダイナミック レンジ全体にわたって等間隔になっています(一様量子化)。 各量子化間隔には、バイナリ コードワードの形式の離散値が割り当てられます。 標準的なワード サイズは 8 ビットです。 入力アナログ信号を 1 秒あたり 8000 回サンプリングし、各サンプルに 8 ビット長のコードワードを割り当てる場合、PCM を使用するテレフォニー システムの最大伝送ビット レートは 64,000 ビット/秒になります。 図 2 には、PCM システムでビットレートが導出されるしくみが示されています。

各入力サンプルには、その振幅に最も近い量子化間隔が割り当てられます。 実際の振幅に一致する量子化間隔が入力サンプルに割り当てられない場合、PCM 処理でエラーが発生します。 このエラーは量子化ノイズと呼ばれます。 量子化ノイズはランダム ノイズと同等で、音声信号の signal-to-noise ratio(SNR; 信号対雑音比)が影響を受けます。 SNR は、背景ノイズに対する信号強度の測定値です。 通常、この比率はデシベル(dB)単位で測定されます。 マイクロボルト単位での着信の信号強度が Vs、マイクロボルト単位でのノイズ レベルが Vn の場合、デシベル単位での信号対雑音比(S/N)は数式 S/N = 20 log10(Vs/Vn) によって求められます。 SNR はデシベル(dB)単位で測定されます。 SNR が高いと、音声品質も高くなります。 量子化ノイズにより信号の SNR が低下します。 したがって、量子化ノイズが増加すると音声信号の品質が低下します。 図 3 に、量子化ノイズが生成される過程を示します。 符号化では、N ビット ワードに対して 2N の量子化ラベルが生成されます。

図 3: アナログ/デジタル変換

/image/gif/paws/8123/waveform_coding-3.gif

量子化ノイズを低下させる 1 つの方法は、 量子化間隔の数を増加させることです。 量子化間隔の数が増加すると、 入力信号の振幅と量子化間隔の差が小さくなります(間隔の数が増加すると 量子化ノイズが低下します)。 ただし、量子化間隔の数の増加に比例して、コードワードの量も増加する必要があります。 この処理によって、より多くのコードワードを処理するための PCM システムの容量という問題が新たに発生します。

SNR(量子化ノイズなど)は、一様量子化において音声品質に影響を与える、最も重要な唯一の要因です。 一様量子化では、入力アナログ信号のダイナミック レンジ全体にわたって、均等な量子化レベルが使用されます。 したがって、低いレベルの信号では SNR が小さくなり(低信号レベル音声品質)、高いレベルの信号では SNR が大きくなります(高信号レベル音声品質)。 生成される大部分の音声信号はレベルが低いため、高い信号レベルで音声品質が高くなる方式は、音声信号のデジタル化としては非常に効率の低い方式となります。 低い信号レベルにおける音声品質を改善するには、一様量子化(一様 PCM)の代わりに、コンパンディングと呼ばれる非一様量子化の処理を行います。

コンパンディング

コンパンディングとは、 最初に発信側でアナログ信号を圧縮し、 次に着信側に到着した際に信号を元のサイズに拡大する処理のことです。 コンパンディングは、compressing(圧縮)と expanding(伸張)の 2 つの単語を合成した用語です。 コンパンディング処理においては、入力アナログ信号のサンプルが対数セグメントに圧縮されます。 次に、一様量子化を使用して各セグメントが量子化され、符号化されます。 圧縮処理は対数的です。 サンプル信号のレベルが高くなるほど圧縮率も高くなります。 つまり、大きいサンプル信号は小さいサンプル信号よりも多く圧縮されます。 このため、サンプル信号のレベルが増加すると量子化ノイズも増加します。 入力サンプル信号のダイナミック レンジ全体にわたって量子化ノイズが対数的に増加するため、このダイナミック レンジ全体にわたって SNR が一定になります。 コンパンディングに関する ITU-T 規格は、A-law および u-law と呼ばれます。

A-law および u-law コンパンディング

A-law と u-law は、Consultative Committee for International Telephony And Telegraphy(CCITT; 国際電信電話諮問委員会)の G.711 で定義されている音声圧縮方式(コーデック)であり、16 ビットのリニア PCM データを 8 ビットの対数データに圧縮します。

A-law コンパンディング機能

リニア サンプル値を 12 ビットの大きさに制限することで、A-law 圧縮は次の式で定義されます。A は圧縮パラメータ(ヨーロッパでは A=87.7)、x は圧縮対象のノーマライズ処理された整数です。

/image/gif/paws/8123/formula.gif

u-law コンパンディング機能

リニア サンプル値を 13 ビットの大きさに制限することで、u-law(このドキュメントでは u-law と Mu- law を同じ意味で使用しています)圧縮は次の式で定義されます。m は圧縮パラメータ(米国および日本では m =255)、x は圧縮対象のノーマライズ処理された整数です。

/image/gif/paws/8123/formula2.gif

A-law 規格は主にヨーロッパおよびその他の地域で使用されています。 u-law は北アメリカおよび日本で使用されています。

A-law と u-law の類似点

  • いずれも対数的な入力と出力の関係を線形近似する。

  • どちらも 8 ビットのコードワードで実装されている(量子化間隔ごとに 1 レベル、合計 256 レベル中)。 8 ビットのコードワードで、64 キロビット/秒(kbps)のビット レートに対応できます。 この値は、サンプリング レート(入力周波数の 2 倍)にコードワードのサイズを掛けると得られます(2 x 4 kHz x 8 ビット = 64kbps)。

  • いずれも次のようにダイナミック レンジを 16 のセグメントに分割する。

    • 正セグメント 8 個、負セグメント 8 個

    • 各セグメントの長さは直前のセグメントの 2 倍

    • 各セグメントでは一様量子化を使用

  • どちらも次のように類似した 8 ビット ワードの符号化方式を使用する。

    • ビット 1(MSB)が極性を示す

    • ビット 2、3、4 がセグメントを示す

    • 最後の 4 ビットでセグメントが量子化される

A-law と u-law の相違点

  • 線形近似が異なるため、長さおよび傾きが異なる。

  • セグメントに対する 8 ビット コードワードのビット位置の数値割り当ておよびセグメント内の量子化レベルが異なる。

  • A-law は u-law よりもダイナミック レンジが広い。

  • u-law は A-law よりも低レベル信号における信号対歪み性能が高い。

  • A-law では一様 PCM 相当に 13 ビットが必要である。 u-law では一様 PCM 相当に 14 ビットが必要である。

  • 国際接続では A-law を使用する必要があり、u から A への変換は u-law の国が行う。

差分パルス符号変調

PCM 処理中に、入力サンプル信号間の差は小さくなります。 差分 PCM(DPCM)では、この差を計算して、入力サンプル信号全体ではなく、この小さな差を信号として伝送します。 入力サンプル間の差は入力サンプル全体よりも小さいため、伝送に必要なビット数が少なくなります。 これにより、音声信号の伝送に必要なスループットを削減できます。 DPCM を使用すると、音声伝送のビット レートを 48 kbps に削減できます。

DPCM では、現在のサンプル信号と直前のサンプルとの差を どのように計算しますか。 DPCM の最初の段階は PCM とまったく同じです(このために差分 PCM と呼ばれます)。 入力信号は、一定のサンプリング周波数(入力周波数の 2 倍)で 標本化されます。 次に、これらのサンプルは PAM 処理を使用して変調されます。 この段階で DPCM 処理に移行します。 サンプリングされた入力信号はプレディクタに格納されます。 予測器(predictor)は、 格納されているサンプル信号を取得し、 差分演算器(differentiator)に渡します。 差分演算器は直前のサンプル信号を現在のサンプル信号と比較し、この差を PCM の量子化および符号化フェーズに渡します(このフェーズは一様量子化にすることも A-law や u-law によるコンパンディングにすることもできます)。 量子化および符号化を行った後、差分信号が最終的な宛先に伝送されます。 ネットワークの着信側では、上述の手順をすべて逆に行います。 最初に差分信号を逆量子化します。 次に、この差分信号を 予測器(predictor)に格納されているサンプル信号に加え、 ロー パス フィルタに渡し、元の入力信号を再設定します。

DPCM は音声伝送時のビット レートを削減するには効果的です。 ただし、音声品質の点で新たな問題が発生します。 DPCM は、直前のサンプル入力信号と現在のサンプル入力信号の差を量子化し、符号化します。 DPCM は、一様量子化を使用して差分信号を量子化します。 一様量子化では、小さな入力サンプル信号の場合は SNR が低くなり、大きな入力サンプル信号の場合は SNR が高くなります。 したがって、信号レベルが高いほど音声品質が高くなります。 人間の音声によって生成されるほとんどの信号はレベルが低いため、このシナリオは非常に効率が低くなります。 音声品質については、小さな信号に重点を置く必要があります。 この問題を解決するために、適応型 DPCM が開発されました。

適応型 DPCM

Adaptive DPCM(ADPCM; 適応型 DPCM)は、ITU-T G.726 仕様で定義されている波形符号化方式です。

ADPCM は DPCM 処理中に生成された差分信号の量子化レベルを調整します。 次に、ADPCM における量子化レベルの調整方法について説明します。 差分信号が低い場合、ADPCM では量子化レベルのサイズが大きくなります。 差分信号が高い場合は、ADPCM は 量子化レベルのサイズを小さくします。 つまり、ADPCM では入力差分信号のサイズに応じて量子化レベルが調整されます。 これによって、差分信号のダイナミック レンジ全体にわたって一様な SNR が生成されます。 ADPCM を使用すると、音声伝送のビット レートを A-law や u-law の PCM でのビット レートの半分である 32 kbps に削減できます。 ADPCM では、A-law や u-law PCM と同等の「通話品質」が提供されます。 符号化機構にはフィードバック ループが必要で、エンコーダ出力ビットを使用して量子化機構が再調整されます。

特定の 32KB/s 手順

ITU 規格 G.726 として適用可能

  • A-law または Mu-law PCM のサンプルを線形 PCM サンプルに変換する

  • 次のサンプルの予測値を計算する。

  • 実際のサンプルと予測値の差を測定する。

  • 差を 4 ビットで符号化し、これらのビットを送信する。

  • 4 ビットをプレディクタにフィードバックする。

  • 4 ビットを量子化機構にフィードバックする。


関連情報


Document ID: 8123