Log Area Ratio
Log Area Ratio(LAR、ログ面積比)は線形予測係数と等価なパラメータで、音声符号化などで使われる。同様の目的でよく使われている線スペクトル対ほど効率的ではないが、単純に計算できるため GSM の最初の音声コーデックである GSM-FR などで使用されていた。
概要
編集携帯電話やVoIPなどで音声符号化を行う際、音声の特徴の1つである声道の周波数特性を線形予測フィルターの係数としてパラメータ化する。しかし線形予測係数は補間が行いにくく量子化誤差にも敏感なため、通常は線形予測係数と等価な別の扱いやすいパラメータに変換してから送信する。
LAR はそのようなパラメータの一つで、声道を固定長で一定の直径を持つ音響管の並びとしてモデル化した時、隣り合う音響管の面積比(area ratio)の対数にあたる係数である。線形予測の次数にあたる音響管の数を p 、それぞれの音響管の面積を Ai とすると、LAR の各係数 LARi は以下のように表現できる [1]。
ここで αi は線形予測係数から求めた偏自己相関係数(PARCOR係数)で、直感的には各音響管の間の反射係数に相当する。 偏自己相関係数は−1から+1の値をとる。
また、LAR の各係数は逆双曲線関数を用いて単純に以下のようにも表現できる。
音声の線形予測係数から求めた偏自己相関係数の値の分布には偏りがあり、LAR では±1付近での変化に敏感な tanh-1 を用いることで補間を行いやすくしている、と考えることができる。
現在の線形予測符号を用いる音声符号化方式では、より補間が行いやすく量子化誤差の影響が少ない線スペクトル対がよく用いられている。
脚注
編集- ^ D. Chow, W.H. Abdulla. Speaker Identification Based on Log Area Ratio and Gaussian Mixture Models in Narrow-Band Speech.(pdf) Lecture Notes in Computer Science, Vol. 3157/2004, Springer Berlin / Heidelberg, pp.901-908. 2004.
参考文献
編集- Jacob Benesty, M. M. Sondhi, Yiteng Huang (ed). Springer Handbook of Speech Processing. Springer, 2007. ISBN 978-3540491255.
- D. Chow, W.H. Abdulla. Speaker Identification Based on Log Area Ratio and Gaussian Mixture Models in Narrow-Band Speech.(pdf) Lecture Notes in Computer Science, Vol. 3157/2004, Springer Berlin / Heidelberg, pp.901-908. 2004.