フォルマント: formant)は音声周波数スペクトル上で周囲よりも強度が大きい周波数帯域である[1]ホルマントとも。

スペクトログラム:アメリカ英語の[i, u, ɑ]のF1とF2

概要

編集

準定常的であり、これを一定区間で区切り周波数領域へ変換する(=時間周波数解析する)と周波数帯ごとに強弱がみられる。すなわちスペクトル包絡が山谷をもっており、この山に当たる周波数帯をフォルマントという(⇒ #定義)。これらは周波数スペクトルの可視化や包絡の数値化によって計測でき(⇒ #計測)、音によっては複数のフォルマントが観察される(⇒ #分類)。

ヒトのフォルマントは主に発音過程で生まれ、ピーク周波数や強度は調音声道形状によって異なる(⇒ #発音との関係)。ヒトはフォルマントの違いを言語音識別に利用しており(⇒ #言語音識別との関係)、フォルマントを再現したを作れば(原理上は)言語音が人工的に生成できる。フォルマントを模倣するフィルタを用いた音声合成フォルマント音声合成と呼ばれる[2]

定義

編集

フォルマント: formant)は音声周波数スペクトル上で周囲よりも強度が大きい周波数帯域である[1]

フォルマントは元来スペクトログラム上の黒い帯として(大雑把に)定義された。そのため、数学的・音声学的に厳密なフォルマントの定義は存在しない。

計測

編集
 
女性が「みなと」と発声したときのスペクトログラム

以下のいずれかの方法によって計測・観察される。

定量化

編集

フォルマントを定量的に記述するパラメータが様々提案されている。一例として以下が挙げられる[3]

  • ピーク周波数  
  • ピーク強度  
  • バンド幅  

分類

編集

フォルマントは複数個存在する場合もあり、周波数の低い順に第一フォルマント第二フォルマント、第三... と呼ばれ、それぞれの周波数をF1, F2, ... と表記する[3]

発音との関係

編集

ヒトのフォルマントは発音過程における調音で主に付与される。すなわち比較的平坦な周波数スペクトルをもつ声帯音源が、口腔鼻腔等の声道における共鳴により特定周波数の強調を受けてフォルマントをもつ。

調音の効果は声道の形状に強く依存するため、個体差や性差がフォルマントの違いを生む。

親子や兄弟で声が似ているのは、骨格などの形態が近いことも理由の一と言われるが、骨格と大きく相関するフォルマントの高低は音声の個性にはあまり影響しない。音色に影響するのはむしろ声帯の微妙な鳴らし方の違い(声種)で、これは習慣的なものである[要出典]似た声になるのは、聴き慣れた家族の声を無意識にまねることのほかに、使う発声が親から遺伝していることも理由である(使う発声とはあくまで「発声練習などを何もしていない状態」でのものであり、練習次第で遺伝した発声を変えていくこともできる)[要出典]

なお、気流を阻害して音を出すタイプの調声(=阻害音)では明確なフォルマントが観察されない。

口の開き

編集

概して、F1は口の開きの大きさに比例する。つまり狭母音のほうが広母音よりもF1は低い。母音、子音両方に言えることであるが、狭めはF1を低くする効果がある。

舌の前後

編集

F2は舌の前後によって影響され、前母音のほうが後母音よりもF2が高い。これは、F2が舌の前の空間で共鳴を起こすためである。また後母音は、唇の丸めが加わることが多く、これによって共鳴空間がさらに長くなり、F2は下がる。

言語音識別との関係

編集

ヒトは様々な言語音を識別できる。フォルマントのこの識別に寄与する。

原則として、単音が同じであれば各フォルマント周波数は近い値になる[独自研究?]

母音

編集

母音の識別にはフォルマント周波数が重要である。音声からフォルマントを除去すると母音とは認識できず、逆にフォルマントを模したピークを追加すると母音混じりの音声が得られる。母音の弁別は第一フォルマント(約500~1000Hz)と第二フォルマント(約1500~3000Hz)によって大体行うことができる[注 1]

脚注

編集

注釈

編集
  1. ^ 第一、第二といった数字の当て方は研究者や時代によって異なる

出典

編集
  1. ^ a b Of a complex sound, a range of frequencies in which there is an absolute or relative maximum in the sound spectrum.以下より引用。Acoustical Society of America. formant.
  2. ^ A formant synthesizer is a source-filter model in which the source models the glottal pulse train and the filter models the formant resonances of the vocal tract.以下より引用。Smith. (2010). Formant Synthesis Models. Physical Audio Signal Processing. ISBN 978-0-9745607-2-4
  3. ^ a b the formant frequencies could continue to be written as F1, …, Fm以下より引用。Ingo, et al. (2015). Toward a consensus on symbolic notation of harmonics, resonances, and formants in vocalization.

関連項目

編集