順序統計量の確率密度関数の簡単な導出 - 再発明した車輪でヤクの毛を刈りに行こう

順序統計量とは
よく紹介されている導出は難しい
シンプルで直接的な導出方法

順序統計量とは

互いに独立に同一の分布に従う確率変数 $X_1, X_2, ..., X_n$ を考える。これらの確率変数の実現値のうち、 $k$ 番目に小さい値の確率変数を $X _ {(k)}$ を第 $k$ 位順序統計量と呼びます。特に $X _ {(1)}$ を最小順序統計量、 $X _ {(n)}$ を最大順序統計量と呼ぶこともあります。

$X _ {(k)}$ の確率密度関数 $f _ {X _ {(k)}}$ は、 $X_1, X_2, ...$ などの確率密度関数を[tex: f X]とし、分布関数を[tex: F X]とすると以下のように書けることが知られています。

$f_{X_{(k)}} = \frac{n!}{(k-1)!(n-k)!} F_X(x)^{k-1}f_X(x)(1-F_X(x))^{n-k}$

よく紹介されている導出は難しい

順序統計量は、アクチュアリーの試験や統計検定でも過去に出題されたことがあるものの、有名な緑本や青本にはしっかりは載っていません。

確率密度関数 $f _ {X _ {(k)}}$ の導出自体は、Wikipedia やこういった講義ノートにある導出は少し大変です。詳しくはリンクを参照いただきたいのですが、分布関数 $F _ {X _ {(k)}}$ を求めてから微分する方法は計算が煩雑で追いかけるのが非常につらいです。

多くの記事ではここで、「微分することで導出できます」で終わってしまうのですが、実際にはかなり長い計算になるわけです。この記事では、微分せずに順序統計量の確率密度関数を導出したいと思います。

シンプルで直接的な導出方法

よりシンプルに直接的に導出する方法をここにまとめておきます。

まず、確率密度関数 $f _ {X _ {(k)}}$ の定義から以下が成り立ちます。

$f_{X_{(k)}} = \frac{\mathrm{d}}{\mathrm{d}x} F_{X_{(k)}} = \frac{\mathrm{d}}{\mathrm{d}x} P(X_{(k)} \leqq x)$

この式から(やや大雑把に) $f _ {X _ {(k)}}$ を $X _ {(k)} = x$ となる確率と捉えると、つまり、以下も同時に成り立ちます。

$X _ {(1)} \leqq X _ {(2)} \leqq \cdots X _ {(k-1)} \leqq x = X _ {(k)} \leqq X _ {(k+1)} \leqq \cdots \leqq X _ {(n)}$

ここで、 $X _ {(1)}, X _ {(2)}, \cdots X _ {(k-1)}$ や $X _ {(k+1)}, X _ {(k+2)}, \cdots X _ {(n)}$ はそれぞれ区別する必要がなく、 $X_1, \cdots , X_n$ の中から $x$ 以下のものを $k-1$ 個、 $x$ より大きいものを $n-k$ 個選ぶことができれば十分であることに注意します。

すると、この確率は $X _ 1, \cdots , X _ n$ の中から $x$ 以下のものを $k-1$ 個、 $x$ より大きいものを $n-k$ 個、 $x$ と等しいものを1個を $X _ 1, X _ 2, \ldots X _ n$ から選び出す確率といえます。 $X _ i$ が $x$ 以下の確率は、 $F _ X(x)$ であり、 $x$ より大きい確率は $1 - F _ X(x)$ であり、 $x$ と等しい確率は $f _ X(x)$ です。また、 $X _ 1, X _ 2, \ldots X _ n$ から選び出す場合の数は $\binom{n}{r - 1} \binom{n - r + 1}{n - r} \binom{1}{1}$ であることより、

$\begin{aligned} f_{X_{(k)}} &= \binom{n}{r - 1} \binom{n - r + 1}{n - r} \binom{1}{1} F_X(x)^{k-1} (1 - F_X(x))^{n-k} f_X(x) \\ &= \frac{n!}{(k-1)!(n-k)!} F_X(x)^{k-1} f_X(x) (1 - F_X(x))^{n-k} \end{aligned}$

と導けます。統計検定でもこれがわかれば速攻で解ける問題が混ざっていることもあったので、暗算で導出できるようにしておくと試験対策としても良いかもしれませんね。