ケプストラム
概要
編集時系列信号のフーリエ解析ではスペクトラムが得られる。得られた周波数系列信号に対しフーリエ解析をおこなったもの、すなわちスペクトルのスペクトルがケプストラムである。このためスペクトラム(spectrum)のアナグラムを用いてspectrum→cepstrumと名付けられた。ケプストラムには、複素数版と実数版がある。
ケプストラムは1963年、Bogert らの論文で定義された。ケプストラムの定義は以下の通り。
- 口語的定義: (信号の)ケプストラムとは、(信号の)フーリエ変換の対数(位相アンラッピングを施したもの)をフーリエ変換したものである。スペクトルのスペクトルとも呼ばれる。
- 数学的定義: 信号のケプストラムは FT(log(|FT(信号)|)+j2πm) である。ここで m は、複素対数関数の虚数成分または角度の位相アンラッピングを正しく行うのに必要とされる整数である。
- アルゴリズム的定義: 信号 → FT → abs() → log → 位相アンラッピング → FT → ケプストラム
実数ケプストラムは、実数値について定義された対数関数を使う。複素数ケプストラムは、複素数について定義された複素対数関数を使う。
複素ケプストラムは、最初のスペクトルの振幅と位相に関する情報を保持しており、信号の再構築が可能である。実数ケプストラムはスペクトルの振幅に関する情報しか保持しない。
処理過程を FT → log → IFT(フーリエ逆変換)として説明しているものがよく見受けられる。すなわち、ケプストラムを「スペクトルの対数のフーリエ逆変換」と定義しているのである。これはオリジナルの論文にある定義ではないが、広く用いられている。
ケプストラムの計算方法は様々である。位相アンラッピングを必要とするものも、必要としないものもある。
応用
編集ケプストラムは、異なるスペクトル帯における変化の度合いに関する情報と見ることができる。本来、地震や爆弾の爆発を原因とする地震性反響の特性を調べるために考案された。また、レーダー信号の反射を解析するのにも使われてきた。
autocepstrum は、自己相関のケプストラムである。autocepstrum を用いるとデータに反響(エコー)がある場合にケプストラムよりも正確に解析ができる。
現在では、人間の声や音楽の信号を表す特徴ベクトルとしても使われている。この場合、スペクトルをまずメル尺度を使って変換する。その結果はメル周波数ケプストラム係数(MFCC)と呼ばれる。これは話者認識やピッチ抽出アルゴリズムなどに応用されている。最近では音楽情報検索への応用に関心が集まっている。
これらの応用が生まれたのは、ケプストラムが声道によって歪められた信号から声帯の振動に起因するエネルギーだけを分離できるためである。
ケプストラム分析
編集ケプストラム分析(英: cepstrum analysis)はケプストラムを用いた信号分析の総称である。
ケプストラム分析の例にスペクトルの成分分離がある。ケプストラムはリフタを用いて低周波成分と高周波成分に分離できる。低周波成分はスペクトルの(周波数方向における)ゆっくりとした変動を表現しており、スペクトル包絡に相当する。高周波成分はスペクトルの微細構造を表現していると解釈できる。
ケプストラム分析に基づいた音声分析(ケプストラム音響分析)でしばしば利用される[2]。音声/音響分析では楽音が倍音を持ちスペクトルの微細構造が周期性を有しているため、ケプストラムの高周波成分に明瞭なピークが現れる。この周期を検出することで音響信号の基本周波数を推定できる。また低周波成分によるスペクトル包絡を声道特性として解釈できる[3]。
このようにケプストラム分析を用いることで信号の様々な特性を明らかにできる。
quefrency
編集ケプストラムのグラフにおける独立変数を quefrency(ケフレンシ)と呼ぶ(周波数、すなわち "frequency" のアナグラム)。quefrency は時間の尺度だが、信号の時間領域という意味での時間ではない。例えば、音声信号のサンプリングレートが44100Hzのとき、quefrency が 100 サンプルのケプストラムには大きなピークが現われた場合、そのピークは 44100/100 = 441 Hz というピッチの存在を示している。このようなピークがケプストラムに現われるのは、スペクトルにおける倍音が周期的で、その周期がピッチと一致しているためである。
lifter
編集さらなるアナグラムを挙げると、ケプストラム上のフィルタ(filter)を lifter と呼ぶことがある。周波数領域におけるローパスフィルタと同じような性質を示す lifter をローパスlifterと呼ぶ。ローパスlifterを通した信号を時間領域に戻してやると、より滑らかな信号が得られる。
畳み込み
編集ケプストラム領域における重要な特性として、2つの信号の畳み込みは、それぞれのケプストラムの総和で表される。
派生
編集メル周波数ケプストラム
編集メル周波数ケプストラム(英: Mel-frequency cepstrum、MFC)はメルスペクトラムに対するケプストラムである。MFCの生成には離散フーリエ変換ではなく離散コサイン変換を用いることが多い。
メル周波数ケプストラム係数
編集メル周波数ケプストラム係数(英: Mel-frequency cepstral coefficients、MFCC)はメル周波数ケプストラムの概形を表す係数である[4]。MFCにリフターを適用した上で低次要素のみを残したものをMFCCとする場合が多い(例: 80次元メルスペクトラムに対する20次元MFCC)。
MFCCにiDCTを適用すると周波数空間へ戻り、これはスペクトラムの包絡とみなすことができる。
脚注
編集- ^ "The log power spectrum can be considered as a 'frequency series'" B. P. Bogert, et al. (1963).
- ^ 水田匡信, 土師知行, 阿部千佳「ケプストラム解析による音響分析の有用性 : エビデンスと今後の展望」『音声言語医学』第62巻第3号、日本音声言語医学会、2021年、186-194頁、CRID 1390007691441875072、doi:10.5112/jjlp.62.186、ISSN 0030-2813。
- ^ "ケプストラム分析による情報の分離 ... (声帯振動などの)細かな周波数特性の信号が(声道などの)滑らかな周波数特性のフィルタを通過して観測された信号から両者を分離する" 岡本. (2013). Q4: ケプストラムって要するに何ですか?. 「音響学入門ペディア」作成に向けて. ASJ Beginners Seminar.
- ^ "ケプストラムから音声の特徴が表れる低次元 ... を抽出した情報がMFCCである(荒川.撫中 2019)
参考文献
編集- B. P. Bogert, M. J. R. Healy, and J. W. Tukey (1963). “The Quefrency Analysis of Time Series for Echoes: Cepstrum, Pseudo-Autocovariance, Cross-Cepstrum, and Saphe Cracking”. Proceedings of the Symposium on Time Series Analysis: 209-243 .
- Childers, Donald G and Skinner, David P and Kemerait, Robert C (1977). “The cepstrum: A guide to processing”. Proceedings of the IEEE (IEEE) 65 (10): 1428-1443. doi:10.1109/PROC.1977.10747 .
- 荒川正規, 撫中達司「音を用いた再生可能資源の自動分別に関する研究」『東海大学紀要. 情報通信学部』第11巻第2号、東海大学情報通信学部、2019年3月、15-20頁、CRID 1050017986932279808、ISSN 2185-5595。