ジェフリーズ事前分布( ジェフリーズじぜんぶんぷ、英 : Jeffreys prior) は、ベイズ統計学 において、ハロルド・ジェフリーズ に因んで名付けられた無情報事前分布 の一つであり、その確率密度関数はフィッシャー情報 行列の行列式 の平方根 で与えられる:
p
(
θ
→
)
∝
det
I
(
θ
→
)
.
{\displaystyle p\left({\vec {\theta }}\right)\propto {\sqrt {\det {\mathcal {I}}\left({\vec {\theta }}\right)}}.\,}
重要な性質として、パラメータベクトル
θ
→
{\displaystyle {\vec {\theta }}}
の座標 変換に対して不変であることが挙げられる。すなわち、ジェフリーズ事前分布を使用した場合、確率空間上の単位体積に割り当てられる相対確率は、ジェフリーズ事前分布を定義するために使用されるパラメータ化に関係なく同じになる。このため、スケールパラメータ (英語版 ) を使用する場合に特に役立つ。 [ 1]
実用的および数学的観点に立つと、他の無情報事前分布(例:共役事前分布)の代わりにこの無情報事前確率を使用する正当な理由として、確率空間の体積の相対確率がパラメータ変換に依存しないことが挙げられる。
ジェフリーズ事前確率は正規化 できない場合があり、この時は変則事前分布 (英語版 ) になる。たとえば、既知の分散を持つ正規分布 の平均に対してのジェフリーズ事前分布は、実数直線上均等になる。
ジェフリーズ事前分布を使うことは、多くの(しかし全てでない)統計学者に受け入れられている強い尤度原理 (英語版 ) に違反する。ジェフリーズ事前分布を使用した場合、
θ
→
{\displaystyle {\vec {\theta }}}
の推定は
θ
→
{\displaystyle {\vec {\theta }}}
の関数としての観測データを得る確率(尤度)だけに依存するのではなく、観測デザインによって決定されたありうる全ての観測データに依存する。なぜなら、フィッシャー情報量は選択された観測データに対する期待値から計算されるためである。したがって、ジェフリーズ事前分布を使用して行われた推論は、2つの実験の尤度関数が同じである場合でも、同一パラメータ
θ
→
{\displaystyle {\vec {\theta }}}
を含む2つの試行で異なる可能性がある(強い尤度原理 (英語版 ) の違反)。
最小記述長(Minimum description length)
編集
統計学における最小記述長 を用いたアプローチの目標は、記述長さを使用するコードのビット数で測定する場合に、データを可能な限りコンパクトに記述することである。パラメータ化された分布族の場合、各分布の記述長に基づいて最良の記述長を持つ分布を決定することができる。主な結果として、指数型分布族 では、サンプルサイズが大きい場合は漸近的に、指数型分布族の要素とジェフリーズ事前分布に基づく記述長が最適になる。この結果は、パラメーター集合を完全なパラメーター空間の内部のコンパクト部分集合に制限する場合に当てはまる[要出典 ] 。完全なパラメータを使用する場合は、結果の修正バージョンを使用する必要がある。
パラメータ(またはパラメータの集合)のジェフリーズ事前分布は、統計モデルに依存する。
以下の実数値
x
{\displaystyle x}
の正規分布 を考える:
f
(
x
∣
μ
)
=
e
−
(
x
−
μ
)
2
/
2
σ
2
2
π
σ
2
{\displaystyle f(x\mid \mu )={\frac {e^{-(x-\mu )^{2}/2\sigma ^{2}}}{\sqrt {2\pi \sigma ^{2}}}}}
σ
{\displaystyle \sigma }
を固定した時、 平均
μ
{\displaystyle \mu }
についてのジェフリーズ事前分布は
p
(
μ
)
∝
I
(
μ
)
=
E
[
(
d
d
μ
log
f
(
x
∣
μ
)
)
2
]
=
E
[
(
x
−
μ
σ
2
)
2
]
=
∫
−
∞
+
∞
f
(
x
∣
μ
)
(
x
−
μ
σ
2
)
2
d
x
=
1
/
σ
2
∝
1.
{\displaystyle {\begin{aligned}p(\mu )&\propto {\sqrt {I(\mu )}}={\sqrt {\operatorname {E} \!\left[\left({\frac {d}{d\mu }}\log f(x\mid \mu )\right)^{2}\right]}}={\sqrt {\operatorname {E} \!\left[\left({\frac {x-\mu }{\sigma ^{2}}}\right)^{2}\right]}}\\&={\sqrt {\int _{-\infty }^{+\infty }f(x\mid \mu )\left({\frac {x-\mu }{\sigma ^{2}}}\right)^{2}dx}}={\sqrt {1/\sigma ^{2}}}\propto 1.\end{aligned}}}
つまり、ジェフリーズ事前分布は
μ
{\displaystyle \mu }
に依存しない。これは、実数直線上の正規化されていない一様分布であり、すべての点で1(または定数)の分布である。これは不適切な事前分布 (英語版 ) であり、定数を選択する自由度を除き、実数直線上での一意な並進不変分布(実数の加算に関するハール測度 )である。このとき、平均は位置の測度に対応し、並進不変性は場所に関する情報がないことに対応する。
以下の実数値
x
{\displaystyle x}
の正規分布 を考える:
f
(
x
∣
σ
)
=
e
−
(
x
−
μ
)
2
/
2
σ
2
2
π
σ
2
,
{\displaystyle f(x\mid \sigma )={\frac {e^{-(x-\mu )^{2}/2\sigma ^{2}}}{\sqrt {2\pi \sigma ^{2}}}},}
μ
{\displaystyle \mu }
を固定した時、標準偏差
σ
>
0
{\displaystyle \sigma >0}
についてのジェフリーズ事前分布は
p
(
σ
)
∝
I
(
σ
)
=
E
[
(
d
d
σ
log
f
(
x
∣
σ
)
)
2
]
=
E
[
(
(
x
−
μ
)
2
−
σ
2
σ
3
)
2
]
=
∫
−
∞
+
∞
f
(
x
∣
σ
)
(
(
x
−
μ
)
2
−
σ
2
σ
3
)
2
d
x
=
2
σ
2
∝
1
σ
.
{\displaystyle {\begin{aligned}p(\sigma )&\propto {\sqrt {I(\sigma )}}={\sqrt {\operatorname {E} \!\left[\left({\frac {d}{d\sigma }}\log f(x\mid \sigma )\right)^{2}\right]}}={\sqrt {\operatorname {E} \!\left[\left({\frac {(x-\mu )^{2}-\sigma ^{2}}{\sigma ^{3}}}\right)^{2}\right]}}\\&={\sqrt {\int _{-\infty }^{+\infty }f(x\mid \sigma )\left({\frac {(x-\mu )^{2}-\sigma ^{2}}{\sigma ^{3}}}\right)^{2}dx}}={\sqrt {\frac {2}{\sigma ^{2}}}}\propto {\frac {1}{\sigma }}.\end{aligned}}}
同等に、
log
σ
=
∫
d
σ
/
σ
{\textstyle \log \sigma =\int d\sigma /\sigma }
に対してのジェフリーズ事前分布は実数直線上の正規化されていない一様分布であり、この分布は logarithmic priorとして知られる。同様に、ジェフリーズ事前分布は
log
σ
2
=
2
log
σ
{\displaystyle \log \sigma ^{2}=2\log \sigma }
に対して一様でもある。これは(乗算の自由度を除き)、スケール不変(正の実数の乗算に関するハール測度 )である、一意な事前分布であり、 標準偏差は対応するスケールの測度に対応し、 スケール不変性はスケールに関する情報がないことに対応する。実数上の一様分布と同様に、これは不適切な事前分布 (英語版 ) である。
非負の整数
n
{\displaystyle n}
についてのポアソン分布 の場合を考える:
f
(
n
∣
λ
)
=
e
−
λ
λ
n
n
!
,
{\displaystyle f(n\mid \lambda )=e^{-\lambda }{\frac {\lambda ^{n}}{n!}},}
レートパラメータ
λ
≥
0
{\displaystyle \lambda \geq 0}
についてのジェフリーズ事前分布は
p
(
λ
)
∝
I
(
λ
)
=
E
[
(
d
d
λ
log
f
(
n
∣
λ
)
)
2
]
=
E
[
(
n
−
λ
λ
)
2
]
=
∑
n
=
0
+
∞
f
(
n
∣
λ
)
(
n
−
λ
λ
)
2
=
1
λ
.
{\displaystyle {\begin{aligned}p(\lambda )&\propto {\sqrt {I(\lambda )}}={\sqrt {\operatorname {E} \!\left[\left({\frac {d}{d\lambda }}\log f(n\mid \lambda )\right)^{2}\right]}}={\sqrt {\operatorname {E} \!\left[\left({\frac {n-\lambda }{\lambda }}\right)^{2}\right]}}\\&={\sqrt {\sum _{n=0}^{+\infty }f(n\mid \lambda )\left({\frac {n-\lambda }{\lambda }}\right)^{2}}}={\sqrt {\frac {1}{\lambda }}}.\end{aligned}}}
同等に、
λ
=
∫
d
λ
/
λ
{\textstyle {\sqrt {\lambda }}=\int d\lambda /{\sqrt {\lambda }}}
についてのジェフリーズ事前分布は、非負の実数直線上の正規化されていない一様分布である。
表面
H
{\displaystyle H}
が出る確率が
γ
∈
[
0
,
1
]
{\displaystyle \gamma \in [0,1]}
、裏
T
{\displaystyle T}
の出る確率が
(
1
−
γ
)
{\displaystyle (1-\gamma )}
であるコインを考える。
(
H
,
T
)
∈
{
(
0
,
1
)
,
(
1
,
0
)
}
{\displaystyle (H,T)\in \{(0,1),(1,0)\}}
についてこれが出る確率は
γ
H
(
1
−
γ
)
T
{\displaystyle \gamma ^{H}(1-\gamma )^{T}}
で与えられる。パラメータ
γ
{\displaystyle \gamma }
についてのジェフリーズ事前分布は
p
(
γ
)
∝
I
(
γ
)
=
E
[
(
d
d
γ
log
f
(
x
∣
γ
)
)
2
]
=
E
[
(
H
γ
−
T
1
−
γ
)
2
]
=
γ
(
1
γ
−
0
1
−
γ
)
2
+
(
1
−
γ
)
(
0
γ
−
1
1
−
γ
)
2
=
1
γ
(
1
−
γ
)
.
{\displaystyle {\begin{aligned}p(\gamma )&\propto {\sqrt {I(\gamma )}}={\sqrt {\operatorname {E} \!\left[\left({\frac {d}{d\gamma }}\log f(x\mid \gamma )\right)^{2}\right]}}={\sqrt {\operatorname {E} \!\left[\left({\frac {H}{\gamma }}-{\frac {T}{1-\gamma }}\right)^{2}\right]}}\\&={\sqrt {\gamma \left({\frac {1}{\gamma }}-{\frac {0}{1-\gamma }}\right)^{2}+(1-\gamma )\left({\frac {0}{\gamma }}-{\frac {1}{1-\gamma }}\right)^{2}}}={\frac {1}{\sqrt {\gamma (1-\gamma )}}}\,.\end{aligned}}}
これはアークサイン分布 であり、また
α
=
β
=
1
/
2
{\displaystyle \alpha =\beta =1/2}
の時のベータ分布 でもある。さらに、 もし
γ
=
sin
2
(
θ
)
{\displaystyle \gamma =\sin ^{2}(\theta )}
ならば
Pr
[
θ
]
=
Pr
[
γ
]
d
γ
d
θ
∝
1
(
sin
2
θ
)
(
1
−
sin
2
θ
)
2
sin
θ
cos
θ
=
2
.
{\displaystyle \Pr[\theta ]=\Pr[\gamma ]{\frac {d\gamma }{d\theta }}\propto {\frac {1}{\sqrt {(\sin ^{2}\theta )(1-\sin ^{2}\theta )}}}~2\sin \theta \cos \theta =2\,.}
つまり、
θ
{\displaystyle \theta }
についてのジェフリーズ事前分布は
[
0
,
π
/
2
]
{\displaystyle [0,\pi /2]}
区間で一様である。同等に、
θ
{\displaystyle \theta }
は円全体
[
0
,
2
π
]
{\displaystyle [0,2\pi ]}
で一様になる 。
同様に、 各面の出現確率が
γ
→
=
(
γ
1
,
…
,
γ
N
)
{\displaystyle {\vec {\gamma }}=(\gamma _{1},\ldots ,\gamma _{N})}
(
0
≤
γ
i
≤
1
{\displaystyle 0\leq \gamma _{i}\leq 1}
、
∑
i
=
1
N
γ
i
=
1
{\displaystyle \sum _{i=1}^{N}\gamma _{i}=1}
)で与えられる
N
{\displaystyle N}
面のサイコロを振る場合、
γ
→
{\displaystyle {\vec {\gamma }}}
についてのジェフリーズ事前分布は、すべての(アルファ)パラメーターが半分に設定されたディリクレ分布 である。これは、考えられる結果ごとに半分の疑似カウント (英語版 ) を使用すること対応する。
同等に、各
i
{\displaystyle i}
について
γ
i
=
φ
i
2
{\displaystyle \gamma _{i}=\varphi _{i}^{2}}
とおくと、
φ
→
{\displaystyle {\vec {\varphi }}}
についてのジェフリーズ事前分布は
(
N
−
1
)
{\displaystyle (N-1)}
次元の単位球 上で一様になる(つまり、
N
{\displaystyle N}
次元の単位球 の表面で一様)。
^ Jaynes, E. T. (1968) "Prior Probabilities", IEEE Trans. on Systems Science and Cybernetics , SSC-4 , 227 pdf .
^ Christian P. Robert; Nicolas Chopin; Judith Rousseau (2009). “Harold Jeffreys’s Theory of Probability Revisited”. Statistical Science 24 (2). doi :10.1214/09-STS284 .