こんにちは、ももやまです。

今回から7回にわけて、数Bの「確率分布と統計的な推測」の分野の簡単なまとめを書いていきたいと思います。

 

主に、

  • センター(共通テスト)2Bで「数列」や「ベクトル」が苦手なので「確率分布と統計的な推測」を選択したい人
  • 大学で「確率・統計」を学ぶ人

を対象としています。

 

また、1つの記事を約1時間、合計7時間で一通り「確率分布と統計的な推測」を理解できるような分量になっているため、テスト直前でも一通り内容が確認できます。

 

 

スポンサーリンク

1.確率変数・確率分布

教科書を読んでいくと、「ある確率変数 \( X \) が……」、「確率分布が…」という文章が出てきて、「なんだ確率変数・確率分布って!?」となったかもしれません。

ということでまずは、確率変数、確率分布がどんなものなのかを簡単にですが説明していきたいと思います。

(1) 確率変数

確率変数とは、確率によっていろいろな値をとる変数のことを表します。

 

例えば、(表裏が同じ確率で出る)コインを2回投げたときに、表が出る回数 \( X \) とその確率について考えてみましょう。

このとき、コインの表裏の組み合わせとしては、「表・表」、「表・裏」、「裏・表」、「裏・裏」の4通りがあるので表が出る回数とその確率は、

2回(\( X = 2 \)):1/4(4通り中1通り)
1回(\( X = 1 \)):1/2(4通り中2通り)
0回(\( X = 0 \)):1/4(4通り中1通り)

となります。

このように表が出る回数 \( X \) は、確率によって変化するので確率変数となります*1

(2) 確率分布

先程、コインの表が出る回数 \( X \) が確率変数であることを説明しました。

 

確率分布とは、確率変数が取りうる値とその確率を対応させたもの確率分布となります。

先程のコインの例(2回投げたときの表が出る回数)でいくと、確率分布は

2回(\( X = 2 \))となる確率 1/4(4通り中1通り)
1回(\( X = 1 \))となる確率 1/2(4通り中2通り)
0回(\( X = 0 \))となる確率 1/4(4通り中1通り)

となります。なお、\[
P(X=2) = \frac{1}{4} \ \ \ P(X=1) = \frac{1}{2} \\
P(X=0) = \frac{1}{4}
\]のように数式で表すこともできます。

(ちなみに、PはProbability(確率)のPです。)

 

また、確率分布は表で表されることもあります(確率分布表と呼びます)。先程のコインの例の場合、

X 0 1 2
確率 \( \frac{1}{4} \) \( \frac{1}{2} \) \( \frac{1}{4} \)

となります。

 

 

確率変数・確率分布

確率変数:確率によって値が変動する変数のこと
確率分布:確率変数がどのように(取りうる値とその確率の対応)変化するかを示したもの。

「確率分布と統計的な推測」では、数1Aで習った「確率」をより統計的に勉強しよう…! という単元となっています。

 

数Aの確率が苦手… という人も安心してください。数Bの「確率分布と統計的な推測」では数Aのような難しい確率の問題は出てきません*2

なので安心して進めていきましょう。

 

スポンサーリンク

2.平均・分散・標準偏差

確率変数・確率分布について説明したので、「確率分布と統計的な推測」で出てくる「平均」、「分散」、「標準偏差」の3つのワードについて説明していきましょう。

 

ですが、皆さんは数1の「データの分析」ですでに3つのワードを習っているかと思います。

なのでこの部分はほぼ「データの分析」の復習となります。

 

「確率分布と統計的な推測」で習う「平均」、「分散」、「標準偏差」は「データの分析」で習ったものをより統計分野で扱いやすくするために拡張したものとなります。

 

なお、ここでは確率変数 \( X \) が取りうる値の範囲を \( x_1 \), \( x_2 \), …, \( x_n \) とし、それぞれの確率を\[
P( X = x_k ) = p_k
\]とします。

(\( x_1 \) となる確率は \( p_1 \)、\( x_2 \) となる確率は \( p_2 \)、…、\( x_n \) となる確率は \( p_n \) としているだけです。)

(1) 平均(期待値)

ある確率変数 \( X \) がだいたいどれくらいの値をとるのか*3を表したものを平均、もしくは期待値と呼びます。

 

\( X \) の平均 \( E(X) \) は、\[\begin{align*}
E(X) & = \sum^{n}_{k = 1} x_k p_k
\\ & = x_1 p_1 + x_2 p_2 + \cdots + x_n p_n
\end{align*}\]で求めることができます。

つまり、「それぞれの \( X \) の取りうる値 × \( X \) となる確率」をすべて足したものが平均となります。

 

たとえば、コインを2回投げたときに表が出る回数を \( X \) としたとき、

2回(\( X = 2 \))出る確率:1/4
1回(\( X = 1 \))出る確率:1/2
0回(\( X = 0 \))出る確率:1/4

となるので平均 \( E(X) \) は、\[\begin{align*}
E(X) & = 2 \cdot \frac{1}{4} + 1 \cdot \frac{1}{2} + 0 \cdot \frac{1}{4}
\\ & = 1
\end{align*}\]となります。

 

(2) 分散

ある確率変数 \( X \) の値のばらつき具合を示すもの分散となります。

平均が \( m \) となる確率変数 \( X \) の分散 \( V(X) \) は、\[ \begin{align*}
V(X) & = \sum^{n}_{k = 1}
\\ & = (x_1 - m)^2 p_1 + (x_2 - m)^2 p_2 + \cdots + (x_n - m)^2 p_n
\end{align*} \]もしくは\[
V(X) = E ( X^2 ) - \left\{ E(X) \right\}^2
\]で求めることができます。

 

つまり、

  • それぞれの \( X \) の取りうる値と平均の差(偏差)を2乗したもの × \( X \) となる確率をすべて足したもの*4(こちらが定義)
  • それぞれの \( X^2 \) の取りうる値 × \( X \) となる確率を足したもの - 平均を2乗したもの

のどちらかで分散を求めることができます。

偏差を2乗するのは、「平均よりも大きいほうにずれている(プラス)」のと「平均よりも小さいほうにずれている(マイナス)」ものをすべて正にするためです。

 

たとえば、コインを2回投げたときに表が出る回数を \( X \) としたときの分散を求めてみましょう。まずは、Xから平均を引いたもの(偏差)と偏差の2乗を求めてみましょう。

X 0 1 2
偏差 -1 0 1
偏差^2 1 0 1
確率 \( \frac{1}{4} \) \( \frac{1}{2} \) \( \frac{1}{4} \)

あとは「それぞれの \( X \) における偏差の2乗 × \( X \) となる確率」をすべて足していけばいいので、分散 \( V(X) \) は、\[\begin{align*}
V(X) & = 1 \cdot \frac{1}{4} + 0 \cdot \frac{1}{2} + 1 \cdot \frac{1}{4}
\\ & = \frac{1}{2}
\end{align*}\]と求めることができます。

 

また、もう1つの求め方「それぞれの \( X^2 \) の取りうる値 × \( X \) となる確率を足したもの - 平均を2乗したもの」で分散 \( V(X) \) を出してみましょう。

\( E(X^2) \)(それぞれの \( X^2 \) の取りうる値 × \( X \) となる確率を足したもの)は、\[\begin{align*}
E(X^2) & = 0^2 \cdot \frac{1}{4} + 1^2 \cdot \frac{1}{2} + 2^2 \cdot \frac{1}{4}
\\ & = \frac{1}{2} + 1
\\ & = \frac{3}{2}
\end{align*}\]となるので、分散 \( V(X) \) は、\[\begin{align*}
V(X) & = E(X^2) - \left\{ E(X) \right\}^2
\\ & = \frac{3}{2} - 1^2
\\ & = \frac{1}{2}
\end{align*}\]と求めることができます。

 

分散の公式の使い分け

2つ目の分散の公式\[
V(X) = E(X^2) - \left\{ E(X) \right\}^2
\]は、\( X \) の取りうる値が大きくない(-10~10程度の)整数かつ平均 \( E(X) \) が分数になる場合に使うことで、偏差の2乗よりも素早く分散 \( V(X) \) を計算することができます。

 

例えば、次のような表で与えられる確率変数 \( X \) の分散を求めてみましょう。

X 0 1 2
確率 \( \frac{1}{2} \) \( \frac{1}{3} \) \( \frac{1}{6} \)

\]となります。

定義(偏差の2乗を使う方)に従った場合

まず、それぞれの \( X \) における偏差・偏差の2乗を求めましょう。

X 0 1 2
偏差 \( -\frac{2}{3} \) \( \frac{1}{3} \) \( \frac{4}{3} \)
偏差^2 \( \frac{4}{9} \) \( \frac{1}{9} \) \( \frac{16}{9} \)
確率 \( \frac{1}{2} \) \( \frac{1}{3} \) \( \frac{1}{6} \)

 「それぞれの \( X \) における偏差の2乗 × \( X \) となる確率」が分散 \( V(X) \) となるので、\[\begin{align*}
V(X) & = \frac{4}{9} \cdot \frac{1}{2} + \frac{1}{9} \cdot \frac{1}{3} + \frac{16}{9} \cdot \frac{1}{6}
\\ & = \frac{2}{9} + \frac{1}{27} + \frac{8}{27}
\\ & = \frac{5}{9}
\end{align*}\]ととなります。

 

もう1つのやり方の場合

もう1つの分散の公式を用いると、\[\begin{align*}
V(X) & = E(X^2) - \left\{ E(X) \right\}^2
\\ & = 0^2 \cdot \frac{1}{2} + 1^2 \cdot \frac{1}{3} + 2^2 \cdot \frac{1}{6} - \left( \frac{2}{3} \right)^2
\\ & = \frac{1}{3} + \frac{2}{3} - \frac{4}{9}
\\ & = \frac{5}{9}
\end{align*}\]と求めることができます。

(整数 - 分数)の偏差の2乗を用いた計算がなくなるので少し楽に計算することができますね!

 

(3) 標準偏差

分散 \( V(X) \) では計算する際に「2乗」を行うため、単位が \( X \) の2乗になってしまいます*5

そこで、分散 \( V(X) \) のルートを \( X \) と同じにしたものを標準偏差 \( \sigma (X) \)、つまり\[
\sigma ( X) = \sqrt{ V(X) }
\]と定義することで、散らばり具合の比較としてより優れた指標となります。

 

例えば、コインを2回投げたときに表が出る回数を \( X \) の標準偏差は、(2)より分散 \( V(X) \) が \( \frac{1}{2} \) となるので、\[\begin{align*}
\sigma (X) & = \sqrt{ V(X) }
\\ & = \frac{ \sqrt{2} }{2}
\end{align*} \]と計算することができます。

なお、「(標準偏差)=(分散のルート)」の定義は、「データの分析」と全く同じです。

(4) データの分析っぽく解いてみる

先程出てきた、「平均(期待値)」、「分散」、「標準偏差」をデータの分析っぽく直してみましょう。

例えば、コインを2回出たときの表が出る回数 \( X \) は、それぞれ下の確率で表すことができましたね。

X 0 1 2
確率 \( \frac{1}{4} \) \( \frac{1}{2} \) \( \frac{1}{4} \)

これをデータの分析っぽく解いていきましょう。

コツは、それぞれの \( X \) における確率を相対度数と思いこむところです!

つまり、\( X = 0 \)(0回表が出た)人は全体の1/4、\( X = 1 \)(1回表が出た)人は全体の1/2、\( X = 2 \)(2回表が出た)人は全体の1/4となりますね。

 

相対度数を度数(データ数)に書き換えると*6

  • 4人中1人(相対度数:1/4)が0回
  • 4人中2人(相対度数:1/2)が1回
  • 4人中1人(相対度数:1/4)が2回

となるので、下のような「データの分析」で出てくる結果表に書き換えることができます。

A B C D
回数 \( X \) 0 1 1 2

あとは、平均、分散、標準偏差を求めるだけです。

平均 \( E(X) \) は、\[\begin{align*}
E(X) & = \frac{1}{4} (0 + 1 + 1 + 2)
\\ & = 1
\end{align*} \]となり、分散 \( V(X) \) は、\[\begin{align*}
V(X) & = \frac{1}{4} \left\{ (0-1)^2 + 2 \cdot (1-1)^2 + (2-1)^2 \right\}
 \\ & = \frac{1}{2}
\end{align*}\]となり、標準偏差 \( \sigma (X) \) は\[\begin{align*}
\sigma (X) & = \sqrt{ V(X) }
\\ & = \frac{ \sqrt{2} }{2}
\end{align*}\]と計算できます。

 

それぞれの \( X \) の確率を相対度数だと思うことで、データの分析っぽく解くこともできちゃうのです!

 

スポンサーリンク

3.データの変化における平均・分散・標準偏差の変化

ある確率変数 \( X \) が変化したときの平均、分散、標準偏差がどのように変化するのかを確認していきましょう。

(1) Xがa倍になった場合

ある確率変数 \( X \) が \( a \) 倍(\( aX \))になった場合に、平均、分散、標準偏差はどのように変わるでしょうか。

 

Xがa倍になったときの 平均 / 分散 / 標準偏差 の変化

ある確率変数 \( X \) が \( a \) 倍、つまり \( aX \) になったときにつぎのような公式が成り立つ。

(i) \( X \) を \( a \) 倍すると、平均も \( a \) 倍になる\[
E(aX) = a E(X)
\]

(ii) \( X \) を \( a \) 倍すると、分散は \( a^2 \) 倍になる\[
V(aX) = a^2 V(X)
\]

(iii) \( X \) を \( a \) 倍すると、標準偏差は \( a \) 倍になる\[
\sigma (aX) = a \sigma(X)
\]

数式を見てもいまいちよくわからないと思うので、「コインを投げて、表が出た回数をそのまま点数 \( X \) とする」ゲームを例に説明していきましょう。

 

例えば、「1回表が出たら1点ではなく、倍の2点をあげよう」というルールに変わったとします。すると、得点は \( 2X \) となります。つまり、\[
E(2X) = 2E(X)
\]が成り立ちます(上の式の \( a = 2 \) の場合)。

つまり、点数を2倍にすると、平均も2倍になることを意味しています。それはそう。

 

また、\( 2X \) になったときの標準偏差 \( \sigma (X) \) には\[
\sigma (2X) = 2 \sigma (X)
\]が成り立ちますね。

つまり、点数を2倍にすると、ばらつき具合も2倍になることを意味しています。

 

なお、\( 2X \) になったときの分散 \( V(X) \) には\[
V(2X) = 2^2 V(X) = 4 V(X)
\]となり、点数を2倍になるとばらつき具合の2乗は \( 2^2 \) で4倍になることを意味しています。

(2) Xに定数 b を足した場合

ある確率変数 \( X \) に定数 \( b \) を足した場合、平均、分散、標準偏差はどのように変わるでしょうか。

 

Xにbを足したときの 平均 / 分散 / 標準偏差 の変化

ある確率変数 \( X \) に定数 \( b \) を足した場合、つまり \( X + b \) になったときにつぎのような公式が成り立つ。

(i) \( X \) に \( b \) を足すと、平均も \( b \) 増える\[
E(X + b) = E(X) + b
\]

(ii) \( X \) を \( b \) を足しても分散は変わらない\[
V(X + b) = V(X)
\]

(iii) \( X \) を \( b \) を足しても標準偏差は変わらない\[
\sigma (X+b) = \sigma(X)
\]

先程と同じ例(コインを投げて、表が出た回数をそのまま点数 \( X \) とする)で具体的に説明していきましょう。

 

例えば、「ハンデとして最初から1点あげよう」というルールに変わったとします。すると、得点は \( X + 1 \) となります。つまり、\[
E(X+1) = E(X) + 1
\]が成り立ちます(上の式の \( a = 2 \) の場合)。

つまり、1点下駄を履かせることで、平均も1点増えることを意味しています。それはそう。

 

また、\( X + 1 \) になったときの標準偏差 \( \sigma (X + 1) \) には\[
\sigma (X + 1) = \sigma (X)
\]が成り立ちますね。

つまり、1点下駄を履かせようがばらつき具合は変わらないことを意味しています。

当然ですよね。どんな場合でも1点加算されるので、ばらつき具合は一切変わりません

 

ばらつき具合が変わらないので当然分散も変化しません

 

(3) XがaX + bになったとき

(1), (2)をまとめると、下のような公式が完成します。

公式をそのまま覚えるのではなく、意味を理解しておくことをおすすめします。

 

Xにbを足したときの 平均 / 分散 / 標準偏差 の変化

ある確率変数 \( X \) が \( aX + b \) に変化したときの平均、分散、標準偏差の変化は下のような数式で表される。

(i) 平均 \( E(X) \to a E(X) + b \) \[\begin{align*}
E(aX + b) & = E(aX) + b
\\ & = aE(X) + b
\end{align*}\]

(ii) 分散 \( V(X) \to a^2 V(X) \) \[\begin{align*}
V(aX + b) & = V(aX)
\\ & = a^2 V(X)
\end{align*}\]

(iii) 標準偏差 \( \sigma (X) \to a  \sigma (X) \) \[\begin{align*}
\sigma (aX + b) & = \sigma (aX)
\\ & = a \sigma (X)
\end{align*}\]

 

4.独立な確率変数とは

ある2つの確率変数 \( X \), \( Y \) が互いに影響しないとき、「\( X \) と \( Y \) は独立」といいます。

具体例を3つほど見ていきましょう。

(1) サイコロ

サイコロで1回目に出た出目を \( X \)、2回目に出た出目を \( Y \) とします。

このとき、1回目に何が出ようが2回目の出目には一切関係ありませんよね。つまり、\( X \) がどんな値であろうが \( Y \) の値には一切影響しませんね。なので、この場合における確率変数 \( X \) と \( Y \) は独立と言えますね。

(2) くじ引き(元に戻すVer)

0, 1, 2, 3の数字が書かれた4つのくじがあります。

1回目に引いたくじに書かれている数字を \( X \)、引いたくじを戻して2回目に引いたくじに書かれている数字を \( Y \) とします。(復元抽出)

 

このとき、2回目の数字 \( Y \) は1回目の数字 \( X \) には一切影響しませんね。

なので、この場合も確率変数 \( X \) ,\( Y \) は独立と言えますね。

(3) くじ引き(元に戻さないVer)

(2)と同じく0, 1, 2, 3の数字が書かれた4つのくじがあるとします。

1回目に引いたくじに書かれている数字を \( X \)、引いたくじを戻さず2回目に引いたくじに書かれている数字を \( Y \) とします。(非復元抽出)

 

このとき、2回目の数字 \( Y \) は1回目の数字 \( X \) に影響しますよね。例えば、1回目に0を引いた場合、2回目の数字 \( Y \) に0が出てくることは絶対にありません

なので、この場合は確率変数 \( X \), \( Y \) は独立ではありませんね。

 

確率変数 \( X \), \( Y \) が独立かどうかは第5章で説明する「確率変数を足したときの 分散・標準偏差の変化」で非常に重要となってきます。

 

5.2つの確率変数における 平均 / 分散 の変化

2つの確率変数 \( X \)、\( Y \) を足したときの平均、分散、標準偏差に成り立つ性質を見ていきましょう。

(1) 和の平均 E(X+Y) = 平均の和 E(X)+E(Y)

2つの確率変数 \( X \), \( Y \) の和の平均 \( E(X+Y) \) とそれぞれの平均 \( E(X) \), \( E(Y) \) には、\[
E(X+Y) = E(X) + E(Y)
\]が成り立ちます。

 

具体例で1つ試してみましょう。

箱A:1, 2, 3の数字が書かれたくじが入っている
箱B:0, 2, 4の数字が書かれたくじが入っている

とします。

このとき、2つの箱A, Bから無作為に1つずつくじを取り出し、箱Aから取り出したくじに書かれている数字を \( X \)、箱Bから取り出したくじに書かれている数字を \( Y \) とし、平均 \( E(X+Y) \) を求めてみましょう。

(i) 地道にもとめてみる

まずは全パターンを列挙して平均 \( E(X+Y) \) を求めて見ましょう。

(X,Y) の組み合わせとして

X + Y = 1:1通り (1,0)
X + Y = 2:1通り (2,0)
X + Y = 3:2通り (1,2) or (3,0)
X + Y = 4:1通り (2,2)
X + Y = 5:2通り (1,4) or (3,2)
X + Y = 6:1通り (2,4)
X + Y = 7:1通り (3,4)

の全9パターンがあります。よって、平均 \( E(X+Y) \) は、\[\begin{align*}
E(X+Y) & = \frac{1}{9} (1 + 2 + 3 \cdot 2 + 4 + 5 \cdot 2 + 6 + 7)
\\ & = 4
\end{align*} \]となります。

(ii) 公式を使う

では、「和の平均=平均の和」の公式を使ってみましょう。

\( X \) の平均 \( E(X) \) は\[\begin{align*}
E(X) & = \frac{1}{3} (1 + 2 + 3) \\ & = 2
\end{align*}\]となり、\( Y \) の平均 \( E(Y) \) は\[\begin{align*}
E(Y) & = \frac{1}{3} (0 + 2 + 4) \\ & = 2
\end{align*}\]となるので、\( E(X+Y) \) は、\[\begin{align*}
E(X+Y) & = E(X) + E(Y)
\\ & = 2 + 2
\\ & = 4
\end{align*}\]となり、地道に計算した場合と答えが一致しましたね!

 

(2) X, Y が独立のとき「積の平均 E(XY) =平均の積 E(X)E(Y)」

2つの確率変数 \( X \), \( Y \) が独立であるとき、積平均 \( E(XY) \) とそれぞれの平均 \( E(X) \), \( E(Y) \) には、\[
E(XY) = E(X) \cdot E(Y)
\]が成り立ちます。

 

具体例で1つ試してみましょう。先程と同じく、

箱A:1, 2, 3の数字が書かれたくじが入っている
箱B:0, 2, 4の数字が書かれたくじが入っている

とします。

このとき、2つの箱A, Bから無作為に1つずつくじを取り出し、箱Aから取り出したくじに書かれている数字を \( X \)、箱Bから取り出したくじに書かれている数字を \( Y \) とし、平均 \( E(XY) \) を求めてみましょう。

(i) 地道にもとめてみる

まずは全パターンを列挙して平均 \( E(XY) \) を求めて見ましょう。

(X,Y) の組み合わせとして

XY = 0:3通り (1,0), (2,0), (3,0)
XY = 2:1通り (1,2)
XY = 4:2通り (1,4) or (2,2)
XY = 6:1通り (3,2)
XY = 8:1通り (2,4) 
XY = 12:1通り (3,4)

の全9パターンがあります。よって、平均 \( E(XY) \) は、\[\begin{align*}
E(XY) & = \frac{1}{9} (0 \cdot 3 + 2 + 4 \cdot 2 + 6 + 8 + 12)
\\ & = 4
\end{align*} \]となります。

(ii) 公式を使う

今回は、\( X \) の取りうる値と \( Y \) の取りうる値はどう考えても独立なので、「積の平均=平均の積」の公式を使うことができます。

\( X \) の平均 \( E(X) \) は\[\begin{align*}
E(X) & = \frac{1}{3} (1 + 2 + 3) \\ & = 2
\end{align*}\]となり、\( Y \) の平均 \( E(Y) \) は\[\begin{align*}
E(Y) & = \frac{1}{3} (0 + 2 + 4) \\ & = 2
\end{align*}\]となるので、\( E(XY) \) は、\[\begin{align*}
E(XY) & = E(X) \cdot E(Y)
\\ & = 2 \cdot 2
\\ & = 4
\end{align*}\]となり、確かに答えが一致します。

 

(3) X, Yが独立のとき「分散 V(X+Y) = V(X) + V(Y)」

2つの確率変数 \( X \), \( Y \) が独立であるとき、和だけなく、分散も「2つの分散 \( V(X) \), \( V(Y) \) を足し合わせたものが和 \( V(X+Y) \) の分散」となります。つまり、\[
V(X+Y) = V(X) + V(Y)
\]が成立します。

つまり、独立した確率変数 \( X \), \( Y \) の散らばり具合 \( V(X) \), \( V(Y) \) と和 \( X+Y \) の散らばり具合 \( V(X+Y) \) は等しくなることを示しています。

 

同じく、

箱A:1, 2, 3の数字が書かれたくじが入っている
箱B:0, 2, 4の数字が書かれたくじが入っている

場合で試してみましょう。

このとき、2つの箱A, Bから無作為に1つずつくじを取り出し、箱Aから取り出したくじに書かれている数字を \( X \)、箱Bから取り出したくじに書かれている数字を \( Y \) とし、分散 \( V(X+Y) \) はどうなるでしょうか。

(i) 地道にもとめてみる

(1)で、\( V(X+Y) = 4 \) と求めましたね。

まず、それぞれの値における残差、残差の2乗を求めましょう。

X+Y=1 [1通り] 残差:-3 残差の2乗:9
X+Y=2 [1通り] 残差:-2 残差の2乗:4
X+Y=3 [2通り] 残差:-1 残差の2乗:1
X+Y=4 [1通り] 残差:0 残差の2乗:0
X+Y=5 [2通り] 残差:1 残差の2乗:1
X+Y=6 [1通り] 残差:2 残差の2乗:4
X+Y=7 [1通り] 残差:3 残差の2乗:9

となるので、分散 \( V(X+Y) \) は\[\begin{align*}
V(X+Y) & = \frac{1}{9} (9 + 4 + 1 \cdot 2 + 0 + 1 \cdot 2 + 4 + 9)
\\ & = \frac{30}{9}
\\ & = \frac{10}{3}
\end{align*}\]と求められます。

(ii) 公式を使う

では、「散らばり具合の和=和の散らばり具合」の公式を使ってみましょう。

\( X \) の分散 \( V(X) \) は\[\begin{align*}
V(X) & = \frac{1}{3} \left( (2-1)^2 + (2-2)^2 + (3-2)^2 \right) \\ & = \frac{2}{3}
\end{align*}\]となり、\( Y \) の分散 \( V(Y) \) は\[\begin{align*}
V(Y) & = \frac{1}{3} \left( (0-2)^2 + (2-2)^2 + (4-2)^2 \right) \\ & = \frac{8}{3}
\end{align*}\]となるので、\( E(X+Y) \) は、\[\begin{align*}
V(X+Y) & = V(X) + V(Y)
\\ & = \frac{2}{3} + \frac{8}{3}
\\ & = \frac{10}{3}
\end{align*}\]となり、確かに一致することがわかりますね!

 

なお、標準偏差でも同じこと、つまり2つの確率変数 \( X \), \( Y \) が独立であれば\[
\sigma (X+Y) = \sigma (X) + \sigma (Y)
\]が成立します。

 

確率変数 X, Y の平均・分散の関係

ある確率変数 \( X, Y \) の和の平均 \( E(X+Y) \) とそれぞれの平均 \( E(X) \), \( E(Y) \)には、\[
E(X+Y) = E(X) + E(Y)
\]が成立する。

また、確率変数 \( X \), \( Y \) が独立なとき、積の平均 \( E(XY) \) とそれぞれの平均 \( E(X) \), \( E(Y) \)、および和の分散 \( V(X+Y) \) とそれぞれの分散 \( V(X) \), \( V(Y) \) には、\[
E(XY) = E(X) \cdot E(Y) \\
V(X+Y) = V(X) + V(Y)
\]が成立する。

(4) 公式の使用例

例えば、「コインを10回投げたときに表が出る回数 \( Y \) の平均 \( E(Y) \) と分散 \( V(Y) \) を求めよ。」と聞かれたとします。

しかし、いちいち10回表が出る確率、9回表が出る確率……、0回表が出る確率を全部計算していくのはめんどくさいですよね。

 

ですが、コインを2回投げたときに表が出る確率 \( X \) としたときの、平均 \( E(X) \)、分散 \( V(Y) \) を、\[
E(X) = 1 , \ \ \ V(X) = \frac{1}{2}
\]と求めていましたね(第2章で)。

なので、コインを10回投げた事象 \( Y \) は、\( X \) の事象を5回(それぞれ \( X_1 \), \( X_2 \), \( X_3 \), \( X_4 \), \( X_5 \) とします)繰り返したものと同じになりますよね。

さらに、\( X_1 \) 〜 \( X_5 \) それぞれの事象はもちろん独立(前の結果で表裏が出る確率は変わらない)なので、\[
E(Y) = 1 \cdot 5 = 5 \\
V(Y) = \frac{1}{2} \cdot 5 = \frac{5}{2}
\]のように求めることができます!

 

※ なお、もっと早く求める方法もあるのですが、それは次回までのお楽しみということで!

 

6.練習問題

では、練習をしてみましょう!

なお、センター試験を想定しているため、穴埋め式としています。

大きいサイコロと小さいサイコロの2つがある。大きいサイコロで出た目を \( X \)、小さいサイコロで出た目を \( Y \) とする。

(ただし X, Y の出目は 1, 2, 3, 4, 5, 6 の6つであり、どれも同じ確率で出るものとする。)

\( X = 1 \) となる確率 \( P(X=1) \) は、\[
P(X = 1) = \frac{ \left[ \ \ \ ア \ \ \ \right] }{ \left[ \ \ \ イ \ \ \ \right] }
\]となり、\( X + Y = 5 \) となる確率 \( P(X + Y) = 5 \) となる確率は、\[
P(X + Y = 5) = \frac{ \left[ \ \ \ ウ \ \ \ \right] }{ \left[ \ \ \ エ \ \ \ \right] }
\]となる。

 

また、\( X \) の平均 \( E(X) \) 、および分散 \( V(X) \) は、\[
E(X) = \frac{ \left[ \ \ \ オ \ \ \ \right] }{ \left[ \ \ \ カ \ \ \ \right] } \ \ \  V(X) = \frac{ \left[ \ \ \ キク \ \ \ \right] }{ \left[ \ \ \ ケコ \ \ \ \right] }
\]となり、\( X+Y \) の平均 \( E(X+Y) \) 、および分散 \( V(X+Y) \) は、\[
E(X+Y ) = \left[ \ \ \ サ \ \ \ \right] \ \ \ V(X+Y) = \frac{ \left[ \ \ \ シス \ \ \ \right] }{ \left[ \ \ \ セ \ \ \ \right] }
\]となる。

 

ここで、\( Y = 6X + 5 \) とする。

このとき、\( Y \) の平均 \( E(Y) \)、および分散 \( V(Y) \) は\[
E(Y) = \left[ \ \ \ ソタ \ \ \ \right] \ \ \ V(Y) =\left[ \ \ \ チツテ \ \ \ \right]\]となる。

 

7.練習問題の答え

※ 実際のセンター試験では、ここまで丁寧に途中式を書く必要はありません。答えさえ出せればOKです。

 

サイコロで1の目が出る確率 \( P(X=1) \) は、6通りの出目(1〜6)の中から1(1通り)が出る確率なので、\[
P(X=1) = \frac{1}{6}
\]となる。(ア:1 イ:6)

 

また、大きいサイコロ、小さいサイコロの出目の合計が5となる確率 \( P(X + Y) = 5 \) は、36通り(6通り×6通り)の中から和が5となる組み合わせ、つまり
 (大,小) = (1,4), (2,3), (3,2), (4,1)
の4通りが出る確率なので、\[
P(X + Y =5) = \frac{4}{36} = \frac{1}{9}
\]となる。(ウ:1 エ:9)

 

また、平均 \( E(X) \) は 1, 2, 3, 4, 5, 6 の出目がそれぞれ 1/6 の確率で出るので、\[\begin{align*}
E(X) & = \frac{1}{6} (1+2+3+4+5+6)
\\ & = \frac{7}{2}
\end{align*}\]となる。(オ:7 カ:2)

 

また、2乗の平均 \( E(X^2) \) は、\[\begin{align*}
E(X) & = \frac{1}{6} (1^2+2^2+3^2+4^2+5^2+6^2)
\\ & = \frac{1}{6} \cdot 91
\\ & = \frac{91}{6}
\end{align*}\]となるので、分散 \( V(X) \) は\[\begin{align*}
V(X) & = E ( X^2 ) - \left\{ E(X) \right\}^2
\\ & = \frac{91}{6} - \left( \frac{7}{2} \right)^2
\\ & = \frac{91}{6} - \frac{49}{4}
\\ & = \frac{182}{12} - \frac{147}{12}
\\ & = \frac{35}{12}
\end{align*}\]と求めることができる。
(キク:35 ケコ:12)

 

また、\( E(X) = E(Y) \), \( V(X) = V(Y) \)(どちらも同じサイコロ)なので、\[\begin{align*}
E(X+Y) & = E(X) + E(Y)
\\ & = E(X) + E(X)
\\ & = 7
\end{align*}\](サ:7)

 

\[\begin{align*}
V(X+Y) & = V(X) + V(Y)
\\ & = V(X) + V(X)
\\ & = \frac{35}{6}
\end{align*}\]となる。(シス:35 セ:6)

 

ここで、\( Y = 6X + 5 \) としたときの期待値 \( E(Y) \)、分散 \( V(Y) \) はそれぞれ\[\begin{align*}
E(Y) & = E(6X+5)
\\ & = E(6X) + 5
\\ & = 6E(X) + 5
\\ & = 6 \cdot \frac{7}{2} + 5
\\ & = 26
\end{align*}\](ソタ:26)
\[\begin{align*}
V(Y) & = V(6X+5)
\\ & = V(6X)
\\ & = 6^2 V(X)
\\ & = 36 \cdot \frac{35}{12}
\\ & = 3 \cdot 35
\\ & = 105
\end{align*}\]となる。(チツテ:105)

 

8.さいごに(復習)

今回は、数Bの「確率分布と統計的な推測」の確率分布の基礎について説明しました。

次回は、「二項分布」について説明していきたいと思います。

 

下に復習コーナーを設けているので参考までにどうぞ!

(1) 平均・分散・標準偏差

ある確率変数 \( X \) の平均 \( E(X) \)、分散 \( V(X) \)、標準偏差 \( \sigma (X) \) は、

平均 E(X)

「それぞれの \( X \) の取りうる値 × \( X \) となる確率」をすべて足したもの\[\begin{align*}
E(X) & = \sum^{n}_{k = 1} x_k p_k
\\ & = x_1 p_1 + x_2 p_2 + \cdots + x_n p_n
\end{align*}\]

 

分散 V(X)

それぞれの「(\( X \) と平均 \( m \) の差)の2乗 × \( X \) となる確率」をすべて足したもの\[\begin{align*}
V(X) & = \sum^{n}_{k = 1} (x_k - m)^2 p_k
\end{align*}\]もしくは「それぞれの \( X^2 \) の取りうる値 × 確率をすべて足した \( E(X^2) \) から平均の2乗 \( ( E(X) )^2 \) を引いたもの\[
V(X)  = E(X^2) - \left\{ E(X) \right\}^2
\]

 

標準偏差 σ(X)

分散 \( V(X) \) のルートを取ったもの、つまり\[
\sigma(X) = \sqrt{ V(X) }
\]

(2) 確率変数X, Y があるときの平均 / 分散 / 標準偏差 

平均

\[
E(aX) = aE(X) \\ 
E(X + b) = E(X) + b \\
E(aX + b) = aE(X) + b
E(X+Y) = E(X) + E(Y)
\]は常に成立、\( X \) と \( Y \) が独立であれば\[
E(XY) = E(X) + E(Y)
\]も成立。

分散

\[ V(aX) = a^2 V(X) \\
V (X + b) = V(X) \\
V(aX + b) = a^2 V(X) \\
\]また、\( X \) と \( Y \) が独立であれば\[
V(X+Y) = V(X) + V(Y)
\]も成立。

標準偏差(分散とほぼ同じなので覚える必要はない)

上から2番目と3番目だけを頭に入れておけばOK。それ以外は分散と基本同じ。

\[ \sigma(aX) = a \sigma V(X) \\
\sigma (X + b) =\sigma (X) \\
\sigma (aX + b) = a \sigma (X) \\
\]また、\( X \) と \( Y \) が独立であれば\[
\sigma (X+Y) =\sigma (X) +\sigma (Y)
\]も成立。

*1:今まで数学で出てきた \( x \), \( y \) などの変数は「1/5の確率で1、それ以外の確率で0」みたいなことにはなりませんよね。そのため、確率変数という独自の変数が用いられるのです。

*2:というのも、「確率」の部分を難しくしてしまうと、この科目のメインディッシュである「統計的な推測」部分が誰も解けなくなってしまって意味がなくなるからです。

*3:単純に \( X \) の取りうる値の平均が期待値だと思えばOKです。

*4:データの分析による「分散」では、最後にデータ数 \( n \) で割る必要があるが、「確率分布と統計的な推測」の場合はデータ数に相応するものが確率の合計(確率の合計は必ず1)となるため、データ数で割る必要はなくなります。

*5:例えば、\( X \) の単位が \( \mathrm{m} \) なら分散 \( V(X) \) の単位は \( \mathrm{m}^2 \) となります。

*6:計算を楽にするために、それぞれの \( X \) における人数が小数にならず、かつ全体の人数がなるべく少ない人数になるように、全体をなるべく小さい数でかけるのがポイントです。例えば、今回の場合は4を掛けることで0回の人が1人、1回の人が2人、2回の人が1人と小数にならず、かつ少ない人数になっていますよね。

おすすめの記事