【数IIB確率分布と統計的な推測】ある事象は「存在する」と「存在しない」の重ね合わせー確率変数・二項分布・標本平均の期待値と分散の考え方

留学生に日本語の授業を行います。1 週間の授業時間は,生徒の 20% が 10 時間,35% が 8 時間,45% が 6 時間です。

無作為に 1 人の生徒を抽出したとき,その生徒の授業時間数を確率変数 $X$ とします。

確率変数の意味

例えば,ある生徒が 6 時間授業を受ける確率が 45% なら

$P(X=6)=0.45$

と表します。

また,8 時間以上授業を受ける確率は

$P(X\geqq8)=0.2+0.35=0.55$

となります。

このように確率変数というのは,$X$ が表す値や範囲とその確率が結びついたものとして理解しましょう。

平均(期待値)の意味

$X$ の平均期待値)を考えます。

平均は生徒 1 人 1 人の授業時間数を合計して人数で割れば求められます。

でも,人数分かりませんよ。

そこで,仮に生徒が 100 人いるとします。この場合,20 人が 10 時間,35 人が 8 時間,45 人が 6 時間となります。平均は

$\cfrac{10\times20+8\times35+6\times45}{100}$
$=7.5$ (時間)

この値は,ある生徒が授業を受けたとき平均で 7.5 時間受けることが期待できる,という意味で期待値と呼ぶこともあります。

今度は人数ではなく確率で考えてみましょう。

先ほど 20 人として数えていたものを,今度は 0.2 という確率にしてみます。また,先ほど生徒数 100 人で割っていたものを,確率の合計 $0.2+0.35+0.45=1$ で割ります。平均は

$\cfrac{10\times0.2+8\times0.35+6\times0.45}{1}$
$=7.5$ (時間)

生徒数 100 人のときと同じ結果になりました。通常,平均を求める式に ÷1 は書きません。

$10\times0.2+8\times0.35+6\times0.45=7.5$

こうして,平均の求め方は,確率変数の値×確率 の合計,となります。

これって,生徒数を 1 人として,0.2 人が10時間授業,0.35 人が8時間授業,0.45人が6時間授業を受ける,と解釈できるよね。
0.2 人ってヘンな感じ。

確率変数では生徒 1 人を抽出するとき,その背後に多くの生徒で構成される母集団が存在していることを考慮に入れます。抽出された 1 人は,本当は 1 人ではなく,母集団を代表する 1 人として見なします。

分散の求め方

次に,$X$ の分散を考えてみましょう。

数IAで分散習ったけど,求め方覚えてる?
偏差の 2 乗の平均でしたよね。


また,偏差はそれぞれのデータの値から平均を引いたものでした。

仮に生徒数が 100 人だとすると,20 人が 10 時間,35 人が 8 時間,45 人が 6 時間です。平均は 7.5 だから,分散は

$\cfrac{(10-7.5)^2\times20+(8-7.5)^2\times35+(6-7.5)^2\times45}{100}$
$=\cfrac{2.5^2\times20+0.5^2\times35+1.5^2\times45}{100}$
$=\cfrac{6.25\times20+0.25\times35+2.25\times45}{100}$
$=\cfrac{125+8.75+101.25}{100}$
$=2.35$

平均のときと同じように,人数を確率に置き換えてみましょう。

$\cfrac{(10-7.5)^2\times0.2+(8-7.5)^2\times0.35+(6-7.5)^2\times0.45}{1}$
$=(10-7.5)^2\times0.2+(8-7.5)^2\times0.35+(6-7.5)^2\times0.45$
$=2.35$

偏差の 2 乗×確率 の合計でオッケー。

母集団から生徒 1 人を抽出したとき,その生徒自体の授業時間数は10時間や8時間など,ある固定した値です。しかし,その 1 人が母集団を代表していると考えると,その値にバラツキが出てくるのです。

二項分布における平均と分散

今度は,生徒全体から無作為に $n$ 人を抽出し,10 時間授業を受ける人数を確率変数 $X$ とします。

これは,10 時間授業を受けるか受けないかのいずれかなので,二項分布です。10時間授業を受ける生徒の割合は 20% だから,$X$ は二項分布 $B(n,0.2)$ に従います。

二項分布では,母集団の中から無作為に 1 人の生徒を選ぶ作業を $n$ 回繰り返す,と考えます。そこで,まず 1 人の生徒を抽出した場合を考えます。

このとき,10時間授業を受ける生徒の平均は 0.2 です。これは 1 人の生徒を抽出したとき,10時間授業を受ける生徒が 0.2 人いると見なすことができます。

この作業を $n$ 回繰り返していくと,平均 $E(X)$ は

$E(X)=0.2n$

となります。

抽出した生徒数が 100 人なら,$0.2\times100=20$人となるから,確率20%とつじつま合うよね。

次に分散を考えてみましょう。

生徒を 1 人抽出して,その生徒が10時間授業を受けていたら,それを 1 人としてカウントします。もちろん,受けていなければ 0 人としてカウントすることになります。

このとき,分散は

$\cfrac{(1-0.2)^2\times0.2+(0-0.2)^2\times0.8}{1}$
$=(1-0.2)^2\times0.2+(0-0.2)^2\times0.8$
$=0.8^2\times0.2+0.2^2\times0.8$
$=0.2\times0.8\times(0.8+0.2)$
$=0.2\times0.8$
$=0.2\times(1-0.2)$

この作業を $n$ 回繰り返していくと,分散 $V(X)$ は

$V(X)=n\times0.2\times(1-0.2)$

となります。

また,分散の平方根が標準偏差になるので

$\sqrt{n\times0.2\times(1-0.2)}$

となります。

確率を $p$ とすると,一般的な形は

平均 $E(X)=np$
分散 $V(X)=np(1-p)$
標準偏差 $\sigma(X)=\sqrt{np(1-p)}$

一般的に分散は上で述べた方法ではなく

($X$の分散)=($X^2$の期待値)-($X$の期待値)$^2$

を用いて説明されます。

このとき,$P(X=0)=1-p$,$P(X=1)=p$ となるので,$X^2$ の期待値は

$0^2\times(1-p)+1^2\times p=p$

$X$ の期待値は平均のことだから $p$

よって

$p-p^2=p(1-p)$

分散求めるのに単に $n$ 倍すればいいってのがイマイチ分からないです。

もともと,分散の式は

$\cfrac{(x_1-\bar{x})^2+(x_2-\bar{x})^2+\cdots+(x_n-\bar{x})^2}{n}$

でした。これを分解すると

$\cfrac{(x_1-\bar{x})^2}{n}+\cfrac{(x_2-\bar{x})^2}{n}+\cdots+\cfrac{(x_n-\bar{x})^2}{n}$

こうすると,式は $x_1$ から $x_n$ までの独立試行の合計と見なすことができます。そして,それぞれの独立試行を確率変数の場合に置き換えると,平均 $\bar{x}$ は $p$ だから

$\cfrac{(x_1-\bar{x})^2}{n}\rightarrow\cfrac{(1-p)^2\times p+(0-p)^2\times(1-p)}{1}$
$=(1-p)^2\times p+p^2\times(1-p)$
$=p(1-p)(1-p+p)$
$=p(1-p)$

となります。

そして,それぞれの試行で確率が変わるわけではないので,$\cfrac{(x_2-\bar{x})^2}{n},\cdots,\cfrac{(x_n-\bar{x})^2}{n}$ も同じ式になります。したがって $np(1-p)$ となるのです。

ますます分からなくなった気が。
ある事象をそれが存在する状態と存在しない状態の重ね合わせとして捉えるっていう。考えてみると,かなり抽象的な世界。

標本平均の期待値と標準偏差

次に,留学生の中から無作為に 40 人を抽出し,授業以外での日本語の学習時間を調査します。母集団における母平均を 120 分,母分散を 640 とします。

このときの,標本平均の期待値と標準偏差を考えてみましょう。

標本平均とは,ここでは抽出した 40 人の学習時間の平均です。

これって,母集団の平均とは同じじゃないよね。選んだ 40 人がたまたま勉強熱心な人が多くて,その平均が 150 分になるかもしれない。

しかしながら,標本の数が十分に大きいとき,その平均は母集団の平均と同じになると見なします。したがって

標本平均=母集団の平均(母平均)

とは言え,調査を何度も繰り返すと,平均が 120 分の辺りになると言っても,その結果にはバラツキがあります。

そこで,標本平均の分散というものが出てきます。

標本の分散ではなくて,標本の平均値の分散であることに注意。標本自体にもバラツキがあるけど,平均値にもバラツキがある。

標本平均の分散を求めるには,教科書に載っている $V(aX+b)=a^2V(X)$ という公式を用いる必要があります。確率変数 $X$ の平均を $\bar{X}$ とすると

$V(\bar{X})=V\Big(\cfrac{X_1+X_2+\cdots X_n}{n}\Big)$
$=V\Big(\cfrac{X_1}{n}+\cfrac{X_2}{n}+\cdots+\cfrac{X_n}{n}\Big)$

$X_1,\cdots,X_n$ はそれぞれ独立試行だから,分解できます。

$=V\Big(\cfrac{X_1}{n}\Big)+V\Big(\cfrac{X_2}{n}\Big)+\cdots+V\Big(\cfrac{X_n}{n}\Big)$
$=\cfrac{1}{n^2}\{V(X_1)+V(X_2)+\cdots+V(X_n)\}$

このとき,$V(X_1),V(X_2),\cdots,V(X_n)$ はどれも確率変数 $X$ の分散のことだから,すべて母集団の分散 $\sigma^2$ と同じになります。

$=\cfrac{n\sigma^2}{n^2}$
$=\cfrac{\sigma^2}{n}$

標本平均の標準偏差は分散の平方根だから

$\sigma(\bar{X})=\cfrac{\sigma}{\sqrt{n}}$

この辺は,公式と式変形から作っていくから,直感的には分からない部分。理屈というより暗記した方が良いタイプの公式。