最小記述長(さいしょうきじゅつちょう、: minimum description length, MDL)は、情報理論に基づくモデル選択基準である。

モデル選択とは、データに照らして何らかの意味で最適なモデル族(確率分布の集合)を検討する過程を指す。

MDLは、1978年Jorma Rissanen により導入された。MDLでは、データをモデルを用いて圧縮・送信する際の符号長の最小化を考える。これはノイズを含むデータから意味のある規則性を抽出することにあたる。

最小記述長原理に基づくモデル選択指標としてNormalized Maximum Likelihood (NML)と、その罰則項を漸近展開して得られるFisher Information Approximation (FIA)がある。

MDLは (AICと違い) 離散データを扱う情報理論に基盤を置いているので、連続値データに対し使うときは注意を要する。

AIC・BICとの比較

編集

統計的推測に基盤を置くAICBICが真の分布の存在を仮定するのに対し、MDLは真の分布の存在を仮定せず、あくまでデータの最短記述(規則性抽出)を考える。NMLを漸近展開しΟ (logn)までの項のみを残したものがBICと一致するため、BICはNMLの粗い近似となる。

また、ベイズ統計学における負の対数周辺尤度(ベイズ自由エネルギー)をジェフリーズ事前分布を用いて漸近展開したものがFIAと一致する。さらにサンプルサイズnに拠らない項を切り捨てるとBICになる。したがって、FIAおよびBICはNMLに漸近一致する。AICとBICがモデルの自由パラメータ数のみを複雑性として罰するのに対し、FIAとNMLはモデル式の構造に由来する複雑性をも罰することが可能である。ただし、小サンプルの下ではFIAの罰則項は正常に機能せず、常により複雑なモデルが選択されてしまう(BICおよびNMLにはこの欠点は無い)。AIC、BIC、MDLは立脚する背景が異なるため(期待対数尤度の推定、対数周辺尤度の近似、記述長の最小化)、その時々の問題意識に基づいてどれを使うかを慎重に決める必要がある。漸近理論に強く依存するAIC、BIC、FIAとは異なり、NMLは限られたサンプルに基づく現実のデータ解析において正確なモデル選択指標となる。