確率・統計 - 工業大学生ももやまのうさぎ塾 (Momousagi Academy)

10日で完成！　うさぎでもわかる統計的な推測　8日目　イカサマを見抜け！　仮説検定のいろは

ももうさ — Sun, 27 Oct 2024 16:31:02 +0000

こんにちは、ももうさです。

前回までの統計的推測では、区間推定（母平均、母比率）について勉強していきました。

今回からは、統計的な推測の最終テーマ「仮説検定」について3回に分けて学習していきましょう！

正規分布表

例題、練習問題を解く際にお使いください。

正規分布表ダウンロード

1. 仮説検定とは

まず、初めに「そもそも仮説検定とはなにか？」から説明していきます。

例えば、あなたが友達とコイントス勝負をしたとしましょう。

コイントス勝負のルール

友達がコインを投げます。
表が出ると、あなたは友達にご飯を奢らなければなりません。
裏が出ると、友達があなたにご飯を奢ってくれます。

この勝負で5回連続で表が出たとします。

すると、「このコインは表が出やすいイカサマコインなのではないか？」と疑いたくなりますよね。

しかし、何も根拠がないのに「イカサマだ！」と言うのは良くないです。単なる偶然の可能性もありえるからです。

そこで、登場するのが仮説検定です。

仮説検定では、まるで背理法のような方法で、表が出やすいイカサマコインであることを、示します。

2. 仮説検定で使う用語紹介

では、ここからは仮説検定で使う用語を見ていきましょう。

(1) 帰無仮説

帰無仮説は、仮説検定において最初に設定する仮説です。記号で \( H_0 \) と書くこともあります。

これは、背理法における仮定を立てる部分に相当します。

例えば、「このコインは表が出やすいイカサマコインなのではないか？」という疑問を調べるためには、まず「コインは公平である（表と裏が出る確率は等しい）」という仮説を立てます。

(2) 対立仮説

対立仮説は、帰無仮説と反する主張です。記号で \( H_1 \) と書くこともあります。

この主張は、帰無仮説が誤りと判定されたときに示したいものを表します。

例えば、「表が出やすいイカサマコインかどうか」を検定したい場合は、対立仮説は「表が出る確率が50%よりも大きいコインである」と設定します。

(3) 棄却

帰無仮説が誤りであること、帰無仮説を棄却すると言います。

補足

帰無仮説が誤りでないと明確には言えない場合、「帰無仮説を採択する」と表現されることがあります。ここでの「採択」は、帰無仮説が正しいとするのではなく、現時点ではそれを棄却するだけの十分な証拠がないという意味です。これは誤りとは言えないが、真であるとも証明されていない状態を示します。

(4) p値

帰無仮説が正しいと仮定したときに、その事象が起こる確率を表します。

例えば、「5連続表が出たときに、表が出やすいかを検定すること」を考えてみましょう。

帰無仮説で表が出る確率が \( \frac{1}{2} \) であると仮定したとき、5連続で表が出る確率は \( \left( \frac{1}{2} \right)^5 = \frac{1}{32} \) と求められます。

この \( \frac{1}{32} \) がこの検定のp値となります。

(5) 有意水準

有意水準は、帰無仮説が正しいとしたときに、観測された値が得られる確率がどの程度以下であれば、帰無仮説を棄却するかを示す基準です。一般的には5%（0.05）や1%（0.01）が用いられます。

例えば、有意水準を5%に設定した場合、帰無仮説が正しいと仮定したときに、観察されたデータが得られる確率が5%未満となった場合、帰無仮説を棄却します。

(6) 棄却域

仮説検定において帰無仮説を棄却するための基準となる範囲です。この範囲にデータが入ると、帰無仮説が誤りであると判断されます。

3. 仮説検定の流れ

ここからは、実際に例題を通じて仮説検定の流れを確認していきましょう。

例題1

ある硬貨を投げたときに、表が出やすいかどうか仮説検定により確認したい。

(1) 帰無仮説と対立仮説を述べなさい。
(2) コインを4回投げたところ、4回とも表が出た。この結果をもとに、有意水準5%で仮説検定をし、結論を示しなさい。
(3) コインを5回投げたところ、5回とも表が出た。この結果をもとに、有意水準5%で仮説検定をし、結論を示しなさい。

解説1

Step1. 帰無仮説・対立仮説の設定

仮説検定を行う際、最初にすることは「帰無仮説」と「対立仮説」の設定です。

帰無仮説 \( H_0 \)

帰無仮説は、仮説検定を行うための基準となる仮定を立てます。

この問題では、硬貨が公平であると仮定します。つまり、表が出る確率は裏が出る確率と等しいとします。

そのため、いったん表と裏が出る確率が等しいコインであると仮定をします。

そのため、帰無仮説は「硬貨を投げたときに表が出る確率が \( \frac{1}{2} \) である」となります。

対立仮説 \( H_1 \)

対立仮説では、帰無仮説が誤りと判定されたときに示したいものを表すのでしたね。

ここで、今回の目標は表が出やすいコインかどうかを確認することです。

そのため、対立仮説は「硬貨を投げたときに表が出る確率が \( \frac{1}{2} \) より大きい」となります。

例題1(1)の解答

帰無仮説 \( H_0 \)
硬貨を投げたときに、表が出る確率が \( \frac{1}{2} \) である。

対立仮説 \( H_1 \)
硬貨を投げたときに、表が出る確率が \( \frac{1}{2} \) より大きい。

Step2. 帰無仮説が正しいと仮定したときの確率の計算

つぎに、帰無仮説「硬貨を投げたときに表が出る確率が \( \frac{1}{2} \) である」が正しいと仮定したときの確率の計算をします。

(2) 硬貨を4回投げて、4回とも表が出る確率

\[
\left( \frac{1}{2} \right)^4 = \frac{1}{16}
\]

(3) 硬貨を5回投げて、5回とも表が出る確率

\[
\left( \frac{1}{2} \right)^5 = \frac{1}{32}
\]

Step3. 結果の判定

Step2で求めた確率と、有意水準を比べて仮説検定の結論を出します。

(2) 硬貨を4回投げて、4回とも表が出た場合

求めた確率 \( \frac{1}{16} \) を、有意水準5%と比較します。\[
\frac{1}{16} > \frac{1}{20} = 5 \%
\]

このため、帰無仮説を棄却することはできません。（仮説が誤りであるとは言えない。）

例題1(2)の解答

硬貨を投げたときに表が出る確率が \( \frac{1}{2} \) より大きいとは言えない。

理由: 硬貨を4回投げて、4回とも表が出る確率は \( \frac{1}{16} \) と、5% ( \( \frac{1}{2} \) ) よりも大きいため。

(3) 硬貨を5回投げて、5回とも表が出た場合

(2)と同様に、求めた確率 \( \frac{1}{32} \) を、有意水準5%と比較します。\[
\frac{1}{32} < \frac{1}{20} = 5 \%
\]

このため、帰無仮説を棄却することができます。（仮説が誤りであると言える。）

例題1(3)の解答

硬貨を投げたときに表が出る確率が \( \frac{1}{2} \) より大きい言える。

理由: 硬貨を4回投げて、4回とも表が出る確率は \( \frac{1}{16} \) と、5% ( \( \frac{1}{2} \) ) より小さいため。

仮説検定の手順まとめ

ここで、仮説検定の手順について振り返りましょう。

先ほどの例題（硬貨投げの仮説検定）の場合、仮説検定の手順は以下の通りとなります。

仮説検定の手順を、背理法と比較してみましょう。

仮説検定の手順	仮説検定	対応する背理法の手順
帰無仮説の設定 (仮説検定をするための仮定)	公平なコインである（表が出る確率: 50%）	\( \sqrt{3} \) は有理数
対立仮説の設定 (問題で示したいもの)	表が出やすいコイン（表が出る確率: 50%）	\( \sqrt{3} \) は無理数
仮定が正しいとしたときの確率の計算	確率 3.125%	仮定が正しいとしたときに矛盾を示す
結果の判断	3.125%が有意水準(5%)より小さいので仮定を棄却	矛盾が発生しているため仮定は誤り
結論	表が出やすいコイン	\( \sqrt{3} \) は無理数

4. 片側検定と両側検定

仮説検定には、片側検定と両側検定の2つがあります。どちらの検定をするかによって、対立仮説の決め方が変わってきます。

この章では、それぞれの検定方法の違いについて学習していきましょう。

(1) 片側検定

両側検定は、「表が出やすいとき」や「裏が出やすいとき」のように、期待値から特定の方向に逸脱しているかどうかを検証する方法です。

片側検定の例

ある硬貨を投げたときに、表が出やすいかどうか仮説検定により確認したい。

帰無仮説: ある硬貨を投げたときに表が出る確率が \( \frac{1}{2} \) である
対立仮説: ある硬貨を投げたときに表が出る確率が \( \frac{1}{2} \) より大きい

→ この仮説検定では、表が出やすい場合のみに着目します。表が出にくい場合は考慮しません。

ある硬貨を投げたときに、表が出にくいかどうか仮説検定により確認したい。

帰無仮説: ある硬貨を投げたときに表が出る確率が \( \frac{1}{2} \) である
対立仮説: ある硬貨を投げたときに表が出る確率が \( \frac{1}{2} \) より小さい

→ この仮説検定では、表が出にくい場合のみに着目します。表が出やすい場合は考慮しません。

片側検定の場合、帰無仮説を仮定して事象が起こる確率を計算し、その確率が有意水準より小さければ仮説を棄却します。

(2) 両側検定

両側検定は、「コインが公平（表と裏が出る確率が異なる）」のように、データが期待値からどちらの方向にも逸脱しているかどうかを検証する方法です。

両側検定の例

ある硬貨が公平（表と裏が出る確率が異なる）ではないかどうかを検証したい。

帰無仮説: ある硬貨を投げたときに表が出る確率が \( \frac{1}{2} \) である
対立仮説: ある硬貨を投げたときに表が出る確率が \( \frac{1}{2} \) ではない

→ この仮説検定では、表が出にくいとき、表が出やすいときの両方に着目します。

両側検定では、有意水準を2つの側に半分ずつ分けます。たとえば、全体の有意水準を5%に設定した場合、各側の有意水準は2.5%（0.025）となります。

(3) 例題で確認！

実際に、片側検定と両側検定でどのように検定方法が変わるか、例題で確認しましょう。

例題2

ある硬貨を5回投げたところ、5回とも表が出た。

(1) 表が出やすい硬貨と言えるか、有意水準5%で検定しなさい。

(2) 公平でない硬貨と言えるか、有意水準5%で検定しなさい。

解説2

(1) 片側検定の場合

Step1. 帰無仮説・対立仮説の設定

帰無仮説: ある硬貨を投げたときに表が出る確率が \( \frac{1}{2} \) である
対立仮説: ある硬貨を投げたときに表が出る確率が \( \frac{1}{2} \) より大きい

Step2. 帰無仮説が正しいと仮定したときの確率の計算

硬貨を5回投げたときに、5回とも表が出る確率は次の通りです。

\[
\left( \frac{1}{2} \right)^5 = \frac{1}{32}
\]

Step3. 結果の判定

確率 \( \frac{1}{32} \) を、有意水準5%と比較します。\[
\frac{1}{32} < \frac{1}{20} = 5\%
\]

このため、帰無仮説は棄却されます。（5回とも表が出る確率が、5%よりも小さいため）

したがって、「表が出やすい硬貨である」と結論づけられます。

(2) 両側検定の場合

Step1. 帰無仮説・対立仮説の設定

帰無仮説: ある硬貨を投げたときに表が出る確率が \( \frac{1}{2} \) である
対立仮説: ある硬貨を投げたときに表が出る確率が \( \frac{1}{2} \) ではない

Step2. 帰無仮説が正しいと仮定したときの確率の計算

ある硬貨を5回投げたところ、5回とも表が出る確率は、次の通り求められます。

\[
\left( \frac{1}{2} \right)^5 = \frac{1}{32}
\]

Step3. 結果の判定

両側検定では、有意水準を2つの側に分けます。

5%の有意水準の場合、各側の有意水準は2.5%（0.025）になります。

確率 \( \frac{1}{32} \) を、2.5%と比較します。\[
\frac{1}{32} > \frac{1}{40} = 2.5\%
\]

このため、帰無仮説は棄却されません。（5回とも表が出る確率が、2.5%よりも大きい）

したがって、「公平でない硬貨であるとは言えない」と結論づけられます。

4. 二項分布と仮説検定

二項分布の知識を組み合わせて仮説検定を実施する問題は、テストに頻出です。

実際に例題で解き方を確認しましょう。

例題を解いてみよう

例題3

ある硬貨を100回投げたところ、59回表が出た。

表が出やすい硬貨と言えるか、有意水準5%で検定しなさい。

解説3

Step1. 帰無仮説・対立仮説の設定

帰無仮説: ある硬貨を投げたときに表が出る確率が \( \frac{1}{2} \) である
対立仮説: ある硬貨を投げたときに表が出る確率が \( \frac{1}{2} \) より大きい

Step2. 帰無仮説が正しいと仮定したときの確率の計算

59回以上表が出る確率を、下の式にように直接計算するのは難しいです。

\[
{}_{100} \mathrm{C} _{59} \times \left( \frac{1}{2} \right)^{59} \times \left( 1 - \frac{1}{2} \right)^{41} + {}_{100} \mathrm{C} _{60} \times \left( \frac{1}{2} \right)^{60} \times \left(1 - \frac{1}{2} \right)^{40} + \cdots
\]

そこで、二項分布を用いて確率を計算します。

まず、100回の硬貨投げにおける表が出る回数を \( X \) としましょう。

すると、\( X \) の平均 \( E(X) \)、分散 \( V(X) \)、標準偏差 \( \sigma (X) \) は次のように計算ができます。

\[\begin{align*}
E(X) & = 100 \times \frac{1}{2}
\\ & = 50
\end{align*}\]

\[\begin{align*}
V(X) & = 100 \times \frac{1}{2} \times \left( 1 - \frac{1}{2} \right)
\\ & = 100 \times \frac{1}{2} \times \frac{1}{2}
\\ & = 25
\end{align*}\]

\[\begin{align*}
\sigma(X) & = \sqrt{ V(X) }
\\ & = \sqrt{25}
\\ & = 5
\end{align*}\]

よって、表が出る回数 \( X \) は平均50、標準偏差5の二項分布に従うことが分かります。

ここで、硬貨投げの試行回数が100と大きいため、二項分布を正規分布で近似することができます。

つぎに、59回以上表が出る確率を標準正規分布（平均0、標準偏差1の正規分布）に変換します。

ここで、\( X \) は平均50、標準偏差5ということは、つぎの式で標準正規分布に変換が出来ます。\[
Z = \frac{X - 50}{5}
\]

ここで、\( X = 59 \) に対応する \( Z \) の値は \( Z = 1.8 \) となります。\[\begin{align*}
Z & = \frac{59 - 50}{5}
\\ & = 1.8
\end{align*}\]

59回以上表が出る確率 \( P(X \geqq 59) \) は、標準偏差1.8個分以上大きくなる確率 \( P(Z \geqq 1.8) \) と等しいです。\[
P(X \geqq 59) = P(Z \geqq 1.8)
\]

この確率 \( P(Z \geqq 1.8) \) は、つぎの計算により求めることが出来ます。

また、確率 \( P(0 \leqq Z \leqq 1.8) \) は正規分布表から 0.4641 と求められます。

よって、59回以上表が出る確率は 0.0359 と求められます。

Step3. 結果の判定

確率 0.0359 は、有意水準5% (0.05) よりも小さいです。

このため、帰無仮説は棄却されます。（59回以上表が出る確率が5%よりも小さいため）

したがって、「表が出やすい硬貨である」と結論づけられます。

別解：\( Z \) で結果の判定をする方法

まず、表が出る回数59回に対応する \( Z \) の値を \( z \) とします。\[\begin{align*}
Z & = \frac{59 - 50}{5}
\\ & = 1.8
\end{align*}\]

つぎに、有意水準5%に対応する \( z_0 \) の値を求めます。ここで、\( z_0 \) とは、\( P( Z \geqq z_0 ) = 0.05 \) を満たす点です。

つぎに、\( z_0 \) の値を求めるために、次の変形を実施します。

ここで、\( P( 0 \leqq Z \leqq z_0 ) = 0.45 \) を満たす点を正規分布表から探すと、\( z_0 = 1.64 \) と分かります。

つまり、\( z \) の値が \( z_0 = 1.64 \) より大きければ仮説を棄却します。

ここで、\( z \) と \( z_0 \) の値を比較しましょう。\[
Z = 1.8 > 1.64 = z_0
\]

このため、帰無仮説は棄却されます。

したがって、「表が出やすい硬貨である」と結論づけられます。

5. 練習問題にチャレンジ

最後に、仮説検定について練習問題を解いてみましょう。共通テスト形式としています。

練習問題

1の目が出やすいと言われているサイコロがある。

このサイコロに対して、1の目が出やすいか有意水準5%で仮説検定を実施する。

(1)

帰無仮説と対立仮説を設定する。すると、以下のようになる。

帰無仮説: 1の目が出る確率は [[　ア　]]
対立仮説: 1の目が出る確率は [[　イ　]]

[[　ア　]]・[[　イ　]] の解答群

※ 同じ選択肢を2度以上選んでもよい。

⓪ \( \frac{1}{6} \) である。
① \( \frac{1}{6} \) でない。
② \( \frac{1}{6} \) より大きい。
③ \( \frac{1}{6} \) より小さい。

(2)

サイコロを3回振ったところ、1の目が2回出た。

ここで、1の目が出る回数を \( X \) とする。帰無仮説が正しいと仮定したとき、つぎのように確率が計算できる。\[ P(X = 2) = \frac{ [ \ \ \ \text{ウ} \ \ \ ] }{ [ \ \ \ \text{エオ} \ \ \ ] } \]\[ P(X = 3) = \frac{ [ \ \ \ \text{カ} \ \ \ ] }{ [ \ \ \ \text{キクケ} \ \ \ ] } \]\[ P(X \geqq 2) = \frac{ [ \ \ \ \text{コ} \ \ \ ] }{ [ \ \ \ \text{サシ} \ \ \ ] } \]

よって、\( P(X \geqq 2) \) は [[　ス　]] なので、1の目が [[　セ　]]。

(3)

サイコロを720回振ったところ、1の目が137回出た。

1の目が出る回数を \( Y \) とする。帰無仮説が正しいと仮定したとき、\( Y \) は平均 [　ソタチ　]、標準偏差 [　ツテ　] の二項分布に従う。

ここで、720回は十分に大きいと考えて良いので、\( Y \) は正規分布に近似的に従う。さらに、\( Z \) を次のようにおく。\[
Z = \frac{ Y - [ \ \ \ \text{ソタチ} \ \ \ ] }{ [ \ \ \ \text{ツテ} \ \ \ ] }
\]

すると、以下の式が成立する。\[\begin{align*}
P( X \geqq 127 ) & = P( Z \geqq [ \ \ \ \text{ト} \ \ \ ]. [ \ \ \ \text{ナニ} \ \ \ ] )
\\ & = 0.[ \ \ \ \text{ヌネノ} \ \ \ ]
\end{align*}\]

よって、\( P(X \geqq 3) \) は [[　ハ　]] なので、1の目が [[　ヒ　]]。

[[　ス　]]・[[　ハ　]] の解答群

※ 同じ選択肢を2度以上選んでもよい。

⓪ 5%より大きい
① 5%より小さい
② 2.5%より大きい
③ 2.5%より小さい

[[　セ　]]・[[　ヒ　]] の解答群

※ 同じ選択肢を2度以上選んでもよい。

⓪ \( \frac{1}{6} \) で出ると言える
① \( \frac{1}{6} \) で出るとは言えない
② 出やすいと言える
③ 出やすいとは言えない
④ 出にくいと言える
⑤ 出にくいと言えない

6. 練習問題の答え

(1) 帰無仮説と対立仮説の設定

★ 解答

ア: 0 ( \( \frac{1}{6} \) である。)
イ: 4 ( \( \frac{1}{6} \) より大きい。)

★ 解説

帰無仮説 \( H_0 \)

仮説検定をするために、1の目が他の目と同じ確率で出ることを仮定します。

対立仮説 \( H_1 \)

今回は「1の目が出やすいことを」を確認したいので、対立仮説は「\( \frac{1}{6} \) より大きい。」となります。(片側検定)

(2) 試行回数が少ないとき

★ 解答

ウ, エオ: 5, 72 ( \frac{5}{72} )
カ, キクケ: 1, 216 ( \frac{1}{216} )
コ, サシ: 2, 27 ( \frac{2}{27} )
ス: 0 (5%より大きい)
セ: 3 (出やすいとは言えない)

★ 解説

\[\begin{align*}
P(X=2) & = {}_3 \mathrm{C} _2 \times \left( \frac{1}{6} \right)^{2} \times \left( 1- \frac{1}{6} \right)^{1}
\\ & = 3 \times \frac{1}{36} \times \frac{5}{6}
\\ & = \frac{15}{216}
\\ & = \frac{5}{72}
\end{align*}\] (ウ … 5、エオ … 72)

\[\begin{align*}
P(X=3) & = {}_3 \mathrm{C} _3 \times \left( \frac{1}{6} \right)^{3} \times \left( 1- \frac{1}{6} \right)^{0}
\\ & = \left( \frac{1}{6} \right)^{3}
\\ & = \frac{1}{216}
\end{align*}\] (カ … 1、キクケ … 216)

\[\begin{align*}
P(X \geqq 2) & = P(X=2) + P(X=3)
\\ & = \frac{5}{72} + \frac{1}{216}
\\ & = \frac{16}{216}
\\ & = \frac{2}{27}
\end{align*}\] (コ … 2、サシ … 27)

片側検定なので、\( P( X \geqq 2 ) \) が有意水準5%よりも大きいか小さいか確認します^[1]もし両側検定（1の目が出る確率が偏っているかどうかを調べたい場合）をする場合は、有意水準2.5%よりも大きいか小さいかを確認します。。\[
P(X \geqq 2) = \frac{2}{27} > \frac{1.35}{27} = 5\%
\](ス … 0)

よって、確率 \( P(X \geqq 2) \) は、「ス. ⓪ 5%より大きい」です。

このため、帰無仮説は棄却されません。（2回以上表が出る確率が、5%よりも小さいため）

したがって、1の目が「③ 出やすいとは言えない」と結論づけられます。

(3) 試行回数が多いとき

★ 解答

ソタチ: 120
ツテ: 10
ト.ナニ: 1.70
ヌネノ: 045
ハ: 1 (5%より小さい)
ヒ: 4 (出やすいと言える)

★ 解説

サイコロを720回振ったとき、1の目が出る回数を \( Y \) とすると、\( Y \) は二項分布に従います。

ここで、帰無仮説が正しいと仮定したとき、\( Y \) の平均 \( E(Y) \) 、分散 \( V(Y) \)、標準偏差 \( \sigma (Y) \) は次のように計算できます。\[\begin{align*}
E(Y) & = 720 \times \frac{1}{6}
\\ & = 120
\end{align*}\](ソタチ … 120)

\[\begin{align*}
V(Y) & = 720 \times \frac{1}{6} \times \left( 1 - \frac{1}{6} \right)
\\ & = 720 \times \frac{1}{6} \times \frac{5}{6}
\\ & = 100
\end{align*}\]

\[\begin{align*}
\sigma (Y) & = \sqrt{V(Y)}
\\ & = \sqrt{100}
\\ & = 10
\end{align*}\](ツテ … 10)

つぎに、以下の式の通り \( Z \) をおきます。\[
Z = \frac{X - 120}{10}
\]

ここで、\( X = 137 \) に対応する \( Z \) の値は、\[\begin{align*}
Z & = \frac{137 - 120}{10}
\\ & = 1.7
\end{align*}\]となります。

よって、サイコロで137回以上1の目が出る確率 \( P( X \geqq 137) \) は、標準偏差1.7個分以上大きくなる確率 \( P(Z \geqq 1.70) \) と等しくなります。\[
P( X \geqq 137) = P(Z \geqq 1.70)
\](トナニ … 170)

この確率 \( P(Z \geqq 1.70) は、つぎの計算により求めることが出来ます。

ここで、確率 \( P(0 \leqq Z \leqq 1.70) \) は正規分布表から 0.4554 と求められます。

よって、137回以上表が出る確率は 0.045 と求められます。(ヌネノ … 045)

Step3. 結果の判定

確率 \( P( X \geqq 137) = 0.0446 \) は、有意水準「① 5%より小さい」です。

このため、帰無仮説は棄却されます。（137回以上表が出る確率が5%よりも小さいため）

したがって、1の目が「② 出やすいと言える」と結論づけられます。

注釈[+]

注釈
↑1	もし両側検定（1の目が出る確率が偏っているかどうかを調べたい場合）をする場合は、有意水準2.5%よりも大きいか小さいかを確認します。

うさぎでもわかる確率・統計　重回帰分析

ももうさ — Wed, 16 Oct 2024 15:30:36 +0000

回帰分析は、ある要素を、他の要素を用いて関係を要約するための方法で、統計検定2級では頻出の分野です。

本記事では、ある要素を、2つ以上の要素を用いて関係を要約する重回帰分析について、学習していきましょう。

※ 本記事は単回帰分析を前提にしているため、事前に単回帰分析について学んでおくことをお勧めします。

↓↓↓単回帰分析の記事はこちら↓↓↓

うさぎでもわかる確率・統計　単回帰分析

回帰分析とは、ある要素を、他の要素を用いて関係を要約するための方法で、統計検定2級では頻出の分野です。本記事では、回帰分

1. 重回帰分析とは

単回帰分析では、下の式のように1つの説明変数から目的変数の値を推測してきました。

しかし、1つの説明変数だけで目的変数を説明するのは、現実的に十分ではないことが多いです。

例えば、テストの点数が勉強時間だけで決まるとは限りません。他にもさまざまな要因が関与しているはずです。睡眠時間、塾に通っているかなど…。

そこで、下のように単回帰分析で出てくる式を拡張し、複数の説明変数を使って目的変数の関係を表現する方法が考えられました。この方法が重回帰分析です。

2. 用語説明

まずは、重回帰分析で出てくる用語を見ていきましょう。

※ 単回帰分析で既に登場したものもあります。

(1) 目的変数と説明変数 (単回帰分析と同じ)

説明変数は、目的変数を表現する道具となる変数です。記号では \( x_1 \), \( x_2 \), \( x_3 \), … と表記されます。

目的変数は、説明変数から予測される結果を表します。記号では \( y \) と表記します。

例えば、以下の式では、勉強時間、睡眠時間、塾通学有無からテストの点数を予測します。

上の例では、説明変数を3つとしていますが、説明変数の数は自由に増減することができます。

補足

参考書などでは、説明変数の数が \( n \) 個と一般化して、重回帰分析モデルの式を次のように表していることが多いです。\[\begin{align*}
y & = \alpha + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_n x_n
\\ & = \alpha + \sum^{n}_{k=1} \beta_k x_k
\end{align*}\]

(2) 切片と偏回帰係数

切片（定数項）\( \alpha \) は、説明変数 \( x_1 \), \( x_2 \), \( x_3 \), … が0のときの目的変数 \( y \) の値を表します。

また、\( \beta_1 \), \( \beta_2 \), \( \beta_3 \), … は偏回帰係数（傾き）と呼ばれ、それぞれの説明変数 \( x_1 \), \( x_2 \), …, \( x_n \) が1変化すると、目的変数 \( y \) がどの程度変化するかを表します。

※ 単回帰分析で出てきた回帰係数の重回帰分析バージョンが、偏回帰係数だと思っていただけたらOKです。

※ 偏回帰係数を単に「回帰係数」と記載している参考書もあります。

(3) ダミー変数

説明変数には、時間や重さなどの量的データだけでなく、「塾通学の有無」のような数値でないデータを使うこともできます。

数値でないデータをモデルの式に追加する際には、次のように0と1の2つの値に変換します。

0 … 塾通学なし
1 … 塾通学あり

このように、数値でないデータを0と1の2つの値に変換して説明変数としたものを、ダミー変数と呼びます。

(4) 重回帰モデルと誤差

重回帰モデルにおいて、説明変数の数を増やしても、目的変数との関係を完全に表現することは非常に難しいです。

実際には、観測された値 \( y \) と、モデルによって予測された値 \( \alpha + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_n x_n \) の間には誤差が生じます。

そこで、実際の観測値と予測値の違いを考慮して、以下のような形で重回帰分析のモデルを表現します。\[
y = \alpha + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_n x_n + u
\]

ここで \( u \) は誤差項と呼ばれ、モデルによる誤差を表します。

この式を重回帰式と呼ぶことにしましょう。

(5) 最小2乗法による偏回帰係数の導出

※ 重回帰分析の誤差の計算では最小2乗法を使うのですが、この手法の理解には線形代数（行列）の知識が必要です。もし、詳しく勉強したい方は下の記事をご覧ください。なお、統計2級では行列を用いた偏回帰係数の導出はほぼ出題されないため、読み飛ばしてもOKです。

うさぎでもわかる線形代数　応用編第9羽　行列を使って最小2乗法を解いてみよう！

こんにちは、ももやまです。前回の第08羽では、逆行列＼( A^{-1} ＼) を持たない行列に対して、無理やり逆行列っぽいもの（擬似逆行

重回帰分析でも、実際に、偏回帰係数 \( \alpha \), \( \beta_1 \), \( \beta_2 \), … \( \beta_n \) の値を推定する際には、各データごとの誤差 \( u \) を最小にすることを目指します。

具体的には、観測された値と予測された値との差（残差）の2乗和が最小となるように、偏回帰係数を決定します。この方法を最小2乗法と呼びます。

最小2乗法を用いることで、\( \alpha \), \( \beta_1 \), \( \beta_2 \), … \( \beta_n \) を次のように求めることが出来ます。

回帰直線と最小2乗法

重回帰式は、次のように表される。\[
y = \alpha + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_n x_n
\]

このモデルの偏回帰係数 \( \alpha \), \( \beta_1 \), \( \beta_2 \), … \( \beta_n \) は、最小2乗法を使うことで、次のように求めることが出来る。

ここで、行列 \( A \) および、ベクトル \( \vec{x} \), \( \vec{b} \) を次のように定義する。\[
A = \left( \begin{array}{cc} 1 & x_{11} & x_{12} & \cdots & x_{1n} \\ 1 & x_{21} & x_{22} & \cdots & x_{2n} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & x_{m1} & x_{m2} & \cdots & x_{mn} \end{array} \right), \ \ \ \vec{x} = \left( \begin{array}{cc} \alpha \\ \beta_1 \\ \beta_2 \\ \vdots \\ \beta_n \end{array} \right), \ \ \ \vec{b} = \left( \begin{array}{cc} y_1 \\ y_2 \\ \vdots \\ y_m \end{array} \right)
\]

【変数の意味】

\( x_{pq} \) … \( p \) 番目のデータにおける説明変数 \( x_q \) の値
\( y_p \) … \( p \) 番目のデータにおける目的変数 \( y \) の真値

【重回帰式の変数と各観測データの対応表】

番目	\( y \)	\( x_1 \)	\( x_2 \)	\( \cdots \)	\( x_n \)
1	\( y_1 \)	\( x_{11} \)	\( x_{12} \)	\( \cdots \)	\( x_{1n} \)
2	\( y_2 \)	\( x_{21} \)	\( x_{22} \)	\( \cdots \)	\( x_{2n} \)
\( \vdots \)	\( \vdots \)	\( \vdots \)	\( \vdots \)	\( \ddots \)	\( \vdots \)
\( m \)	\( y_m \)	\( x_{m1} \)	\( x_{m2} \)	\( \cdots \)	\( x_{mn} \)

例)

\( x_{12} \): 1番目のデータにおける説明変数 \( x_{2} \) の値を指す。
\( x_{31} \): 3番目のデータにおける説明変数 \( x_{1} \) の値を指す。
\( y_4 \): 4番目のデータの目的変数 \( y \) の値を指す

すると、連立方程式 \( A \vec{x} = \vec{b} \) の形に持ち込める。

ここで、誤差 \( \| A \vec{x} - \vec{b} \| \) を最小にするような \( \vec{x} \) は、\( A \) の擬似逆行列 \( A^+ = (A^{\top} A)^{-1} A^{\top} \) で計算できる。\[\begin{align*}
\vec{x} & = (A^{\top} A)^{-1} A^{\top} \vec{b}
\\ & = A^+ \vec{b}
\end{align*}\]

※ \( A^{\top} \) は行列 \( A \) の転置行列を表す。

この \( \vec{x} \) が偏回帰係数となる。

3. 重回帰分析の結果の見方

統計検定2級などの試験では、表形式やRの出力から重回帰分析の結果を読み取り、それに基づいて問題を解答することが求められます。

言い換えれば、重回帰分析の結果を正しく解釈できれば、試験で得点を確実に稼ぐことができます。

基本的なデータの読み取り方は重回帰分析でも単回帰分析と同様ですが、重回帰分析特有のポイントがいくつかありますので、以下ではそれに重点を置いて説明します。\[
\mathrm{売上} \ = \alpha + \beta_1 \times \mathrm{評価} + \beta_2 \times \mathrm{広告費} + \beta_3 \times \mathrm{駅からの距離} + \beta_4 \times \mathrm{オンライン販売の有無}
\]

★ Rの出力結果例

Call:
lm(formula = test_scores ~ study_hours + sleep_hours + attends_cram_school, 
    data = data)

Residuals:
    Min      1Q  Median      3Q     Max 
-4.0632 -1.3898 -0.6929  1.0240  5.8699 

Coefficients:
                    Estimate Std. Error t value Pr(>|t|)    
(Intercept)           16.573      6.388   2.594   0.0196 *  
study_hours            6.003      1.167   5.143 9.83e-05 ***
sleep_hours            3.364      1.415   2.378   0.0302 *  
attends_cram_school    5.189      3.031   1.712   0.1062    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 3.031 on 16 degrees of freedom
Multiple R-squared:  0.9799,	Adjusted R-squared:  0.9762 
F-statistic: 260.6 on 3 and 16 DF,  p-value: 8.651e-14

※ e+n は \( 10^n \)、e-n は \(10^{-n} \) を表します。例えば、4.23e-08 は \( 4.23 \times 10^{-8} \) を表しています。

Rで出力される内容

回帰分析での出力結果は、つぎの4つに分けることが出来ます。

(1) Call: 結果を出すために使ったコマンド

※ 単回帰分析と同じです。

Call:
lm(formula = test_scores ~ study_hours + sleep_hours + attends_cram_school, 
    data = data)

このセクションには、結果を生成するために使用したコマンドが表示されます。

解析結果そのものには影響しないため、特に重要視される部分ではありません。

(2) Residuals: 残差の四分位数

※ 単回帰分析と同じです。

残差の四分位数（最小値、第一四分位数、中央値、第三四分位数、最大値）が表示され、データのばらつき具合を把握するのに役立ちます。

※「残差」とは、各データの実際の観測値と回帰式によって予測された値との差のことを指します。

今回の出力結果からは、残差の四分位数を以下にように読み取ることができます。

最小値	第1四分位数	中央値	第3四分位数	最大値
-4.0632	-1.3898	-0.6929	1.0240	5.8699

補足：残差の平均値は必ず0です。これは、最小二乗法で回帰分析を行った場合、残差が正負で相殺されるためです。

(3) Coefficients: 偏回帰係数の推定結果

切片 \( \alpha \) および偏回帰係数 \( \beta_1 \), \( \beta_2 \), \( \beta_3 \), … の推定結果が示されています。

単回帰分析では説明変数が1つだけですが、重回帰分析では複数の説明変数があるため、表示される偏回帰係数の数が増えています。

Coefficients:
                    Estimate Std. Error t value Pr(>|t|)    
(Intercept)           16.573      6.388   2.594   0.0196 *  
study_hours            6.003      1.167   5.143 9.83e-05 ***
sleep_hours            3.364      1.415   2.378   0.0302 *  
attends_cram_school    5.189      3.031   1.712   0.1062    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

[i] Estimate: 推定値

重回帰分析において求められた切片 (Intercept) \( \alpha \)、および各説明変数の偏回帰係数 \( \beta_1 \), \( \beta_2 \), \( \beta_3 \), … の推定値です。

これらの推定値は、重回帰モデルの式に具体的に数値として表されます。

重回帰分析のモデル式での、\( \alpha \), \( \beta_1 \), \( \beta_2 \), … を具体的に数値として表しています。\[
y = \alpha + \beta_1 x_1 + \beta_2 x_2 + \beta_3 x_3 + \cdots
\]

単回帰分析に比べて説明変数が増えるため、モデルの複雑さが増しますが、読み取り方は基本的に同じです。

[ii] Std. Error: 標準誤差

各偏回帰係数の推定値がどの程度の不確かさを持っているかを示す指標です。値が小さいほど、推定値の信頼性が高いことを意味します。

単回帰分析に比べて表示される説明変数が増える点以外は、読み取り方は同じです。

※ 標準誤差の導出式は統計検定2級レベルでは不要なので、覚えなくてOKです。

[iii] t value, Pr(>|t|): t値、p値

t値は、各説明変数の偏回帰係数が0であるかどうかを検証するための統計量です^[1]定数項に対するt値も出力されますが、定数項が0ではないかどうかを検証することは、実務的にはあまり意味がない場合が多いです。。

また、p値は各t値に基づいて、その結果が偶然生じる確率を示しています。言い換えると、p値は「各説明変数の偏回帰係数が0である確率」を表しています。

t値の出力結果を見ることで、「説明変数が目的変数に有意な影響を与えているか」を確認できます。

具体的には、重回帰分析では、各説明変数ごとに以下の仮説検定が行われます。

帰無仮説 \( H_0 \): 仮説検定をするにあたる仮定
→ \( k \) 番目の説明変数の係数 \( \beta_k \) が0である。つまり \( \beta_k = 0 \)。
対立仮説 \( H_1 \): 帰無仮説を否定することで示したいもの。
→ 各説明変数の係数 \( \beta_k \) が0ではない。つまり \( \beta_k \not = 0 \)。

この検定で帰無仮説が棄却された説明変数は、目的変数に有意な影響を与えていると考えられます。逆に棄却されなければ、その説明変数は目的変数に有意な影響を与えないと解釈でき、モデルに含める必要がないとされます。

なお、p値の右側に表示されている記号はp値の大小を表しています。

★ t値の自由度

※ 単回帰分析と自由度が異なることに注意が必要です。

t値の自由度 \( k_t \) は、サンプルサイズ \( \textcolor{green}{n} \) からモデルのパラメータ数（切片 \( \alpha \) と偏回帰係数 \( \beta_1 \), \( \beta_2 \), …, \( \beta_k \)）を引いたもので決まります。この自由度は、サンプルデータの中で自由に変動できる観測点の数を反映しています。

ここで、切片の数は常に1つです。さらに、偏回帰係数の数（つまり説明変数の数）を \( \textcolor{blue}{k} \) 個とすると、自由度 \( k_t \)は次の式で計算されます。\[\begin{align*}
k_t & = \textcolor{green}{n} - (\textcolor{blue}{k} + \textcolor{red}{1})
\\ & = \textcolor{green}{n} - \textcolor{blue}{k} -\textcolor{red}{1}
\end{align*}\]

今回のデータの場合、20人のデータから、説明変数が3つの回帰分析を行っているため、自由度 \( k_t \) は次のように計算されます。\[\begin{align*}
k_t & = \textcolor{green}{20} - \textcolor{blue}{3} - \textcolor{red}{1}
\\ & = 16
\end{align*}\]

★ t値の計算方法

t値は次の式で計算できます。単回帰分析と同様です。

※ 帰無仮説で偏回帰係数を0と仮定しているため、分子に "-0" を記載しています^[2]例えば、偏回帰係数が2であると帰無仮説で仮定した場合、分子の "-0" の部分は "-2" となります。。

※ 式内の "偏回帰係数" は、ツールで計算した結果が入ります。

実際に、勉強時間 (study_hours) に対するt値を計算すると、Rで出力されたt値と一致することが分かりますね。

※ t値の自由度、および推定値、標準誤差、t値の関係は統計検定2級で頻出です。頭に入れておきましょう。

(4) 回帰モデルそのものの分析情報

この欄では、重回帰分析全体の結果に対する統計的な分析結果が示されています。

表示の見方、および考え方については単回帰分析のときと同様です。

Residual standard error: 3.031 on 16 degrees of freedom
Multiple R-squared:  0.9799,	Adjusted R-squared:  0.9762 
F-statistic: 260.6 on 3 and 16 DF,  p-value: 8.651e-14

具体的には、「分析全体のパフォーマンスを評価するための指標」や「重回帰モデルの当てはまりの良さが出力」されています。これらの結果は、回帰モデルそのものがデータをどの程度説明しているか、またモデルが有意であるかを示しています。

★ 分散分析と回帰分析

※ 重回帰分析における分散分析の考え方は、単回帰分析と同じです。

目的変数の各値 \( y_k \) は、回帰モデルによって予測される値 \( \alpha + \beta_1 x_{1k} + \beta_2 x_{2k} + \beta_3 x_{3k} \cdots \) と回帰モデルでは説明できないズレ \( u_k \) の和で表すことが出来ます。

【変数の意味】

\( x_{pq} \) … \( p \) 番目のデータにおける説明変数 \( x_q \) の値
\( y_p \) … \( p \) 番目のデータにおける目的変数 \( y \) の真値

これは、各観測値 \( y_k \) を、「予測値 \( \alpha + \beta_1 x_{1k} + \beta_2 x_{2k} + \beta_3 x_{3k} \cdots \)」と「モデルが説明できない誤差（残差） \( u_k \)」の2つに分解することができる、ということです。

ここで、回帰モデルによって予測される値を \( \hat{y}_k \) とすると、

回帰モデルでは説明できないズレ \( u_k \) は、目的変数の各値 \( y_k \) から回帰モデルによって予測される値 \( \hat{y}_k \) を引いたものとして表されます。

したがって、式を次のように書き換えることが出来ます。

つぎに、目的変数の各データ値 \( y_k \) は、平均 \( \overline{y} \) からのばらつきを持つと考えられます。

このばらつきを明確にするため、先ほどの式を以下のように書き換えます。

この式は、観測 \( y_k \) を、「全体の平均値 \( \overline{y} \)」と「回帰モデルで説明できるズレ（説明変動）」、さらに「回帰モデルで説明できないズレ（残差変動）」の3つに分解できることを表しています。

さらに、全体の平均 \( \overline{y} \) を基準に考えるために、両辺から \( \overline{y} \) を引きましょう。

この式は、「目的変数の観測値 \( y_k \) と平均値 \( \overline{y} \) との差（全変動）」が、「回帰による変動（説明変動）」と「回帰モデルで説明できない変動（残差変動）」に分解できることを示しています。

重回帰分析全体の結果を評価する際にも、単回帰分析と同様に「回帰変動」と「残差変動」の度合いを使ってさまざまな指標を計算します。

ここで、変動を2つに分解して分析する方法と聞いて、何か思い浮かぶ言葉はありませんか？

そう、一元配置分散分析です。

一元配置分散分析を使うことで、各データの「全変動」を「回帰による変動（説明変動）」と「残差による変動」の2つに分解し、それぞれが全体の変動にどれほど寄与しているかを分析できます。

※ 一元配置分散分析がいまいちよくわからない or 一元配置分散分析ってなんだっけ、となった方は以下の記事にて復習しましょう。

うさぎでもわかる確率・統計　F分布のいろは③　一元配置分散分析

こんにちは、ももやまです。 F分布のいろは①では、「F分布とはどんなものなのか」というところから、「F分布を用いて母分散の比

★ 回帰分析と一元配置分散分析

重回帰分析における一元配置分散分析のステップを確認しましょう。ここではデータ全体の変動を「回帰変動」と「残差変動」に分けて評価します。

※ 単回帰分析と異なる部分を、色をつけて説明しています。

要因	平方和	自由度	平方平均	\( F \) 値
回帰変動	(a) \( S_A \)	\( \phi_A = \textcolor{red}{k} \)	\( V_A = \frac{ S_A }{ \phi_A } \)	\( \frac{ V_A }{ V_E } \)
残差変動	(b) \( S_E \)	\( \phi_E = \textcolor{red}{n - k - 1} \)	\( V_E = \frac{ S_E }{ \phi_E } \)	−
全変動	(c) \( S_T \)	\( \phi_T = n - 1 \)	−	−

[i] 平方和

※ 計算方法は、単回帰分析と同様です。

ここで、回帰変動、残差変動、全変動の平方和は次のように計算できます。

(a) 回帰変動：予測値 \( \hat{y}_k \) と平均値 \( \overline{y} \) の差の2乗の総和
（回帰モデルが説明できる部分の変動）

\[\begin{align*}
S_A & = \sum^{n}_{k = 1} \left( \hat{y}_k - \overline{y} \right)^2
\end{align*}\]

(b) 残差変動：観測値 \( y_k \) と予測値 \( \hat{y}_k \) の差の2乗の総和
（回帰モデルが説明できない部分の変動）

\[\begin{align*}
S_E & = \sum^{n}_{k = 1} \left( y_k - \hat{y}_k \right)^2
\end{align*}\]

\[\begin{align*}
S_T & = \sum^{n}_{k = 1} \left( y_k - \hat{y}_k \right)^2
\end{align*}\]

注意: 全体変動 \( S_T \) は、回帰変動 \( S_A \) と残差変動 \( S_E \) の和に等しくなります。\[
S_T = S_A + S_E
\]

[ii] 自由度

※ 考え方は単回帰分析と同じですが、値が変わります。

回帰変動の自由度：説明変数の数 \( k \) です。^[3]一元配置分散分析では、自由度を「グループ数 - 1」としますが、回帰分析において自由度を「説明変数 - … Continue reading。\[
\textcolor{red}{\phi_A = k}
\]

残差変動の自由度：データ数からモデルのパラメータ数を引いたもの。重回帰分析では、モデルのパラメータ数は切片1つ \( \alpha \) と、\( k \) 個の偏回帰係数 \( \beta_1 \), \( \beta_2 \), …, \( \beta_k \) の合計 \( k+1 \) 個です。そのため、自由度はサイズ \( n \) から \( k+1 \) を引いた \( n - k - 1 \) となります。^[4]回帰分析では、切片 \( \alpha \) と \( k \) 個の偏回帰係数 \( \beta_1 \), \( \beta_2 \), …, \( \beta_k \) の \( k + 1 \) … Continue reading。\[\begin{align*}
\phi_E & = n - (k+1)
\\ & = n - k - 1
\end{align*}\]

全体変動の自由度：データ数から1を引いたものです。単回帰分析と同様です。\[
\phi_T = n - 1
\]

注意: 単回帰分析と同じく、全体変動の自由度 \( k_T \) は、回帰変動の自由度 \( k_A \) と残差変動の自由度 \( k_E \) の和に等しくなります。\[
\phi_T = \phi_A + \phi_E
\]

[iii] 平方平均

※ 計算方法は、単回帰分析と同様です。

平方和を対応する自由度で割ることで、平方平均が求められます。

回帰変動の平方平均\[
V_A = \frac{ S_A }{ \phi_A }
\]

残差変動の平方平均\[
V_E = \frac{ S_E }{ \phi_E }
\]

[iv] F値

※ 計算方法は、単回帰分析と同様です。

F値は、回帰変動の平方平均 \( V_A \) を残差変動の平方平均 \( V_E \) で割ったもので計算されます。\[
F = \frac{ V_A }{ V_E }
\]

★ それぞれの出力の意味

ここでは、Rの出力で得られた結果が一元配置分散分析のどの結果に対応するかを見ていきます。

Residual standard error: 7.037 on 18 degrees of freedom
Multiple R-squared:  0.8003,	Adjusted R-squared:  0.7892 
F-statistic: 72.12 on 1 and 18 DF,  p-value: 1.037e-07

表．回帰変動、残差変動に対する一元配置分散分析の結果

要因	平方和	自由度	平方平均	\( F \) 値
回帰変動	(a) \( S_A \)	\( \phi_A = \textcolor{red}{k} \)	\( V_A = \frac{ S_A }{ \phi_A } \)	\( \frac{ V_A }{ V_E } \)
残差変動	(b) \( S_E \)	\( \phi_E = \textcolor{red}{n - k - 1} \)	\( V_E = \frac{ S_E }{ \phi_E } \)	−
全変動	(c) \( S_T \)	\( \phi_T = n - 1 \)	−	−

[i] Residual standard error:残差の標準誤差 (と自由度)

※ 単回帰分析と同様ですが、残差の自由度が単回帰分析とは異なります。

残差変動の平方平均 \( V_E \) を表しており、回帰モデルがデータをどの程度正確に説明できていないかを示します。また、自由度 \( \phi_E \) は残差変動に対する自由度です。

今回の結果は、残差平方平均 \( V_E \) が7.037、残差の自由度 \( \phi_E \) が18であることを意味しています。

表記については単回帰分析のときと同じですが、重回帰では説明変数が複数あるため、残差の自由度は「データ数 - 説明変数の数 - 1」となります。

[ii] Multiple R-squared: 決定係数

※ 単回帰分析と同様ですが、重回帰分析ならではのポイントがあります。

決定係数 \( R^2 \) は、モデルがデータの変動をどれだけ説明できているか（＝回帰モデルがデータに上手く当てはまっているか）を0から1の範囲で表します。（1に近いほど、説明力が高いと言えます。）モデルの当てはまりの良さが決定係数だと思っていただけたらOKです。

具体的に、決定係数 \( R^2 \) は全体平方和に対する回帰変動の割合で計算されます。

\[\begin{align*}
R^2 & = \frac{S_A}{S_T}
\\ & = \frac{S_T - S_E}{S_T}
\\ & = 1 - \frac{S_E}{S_T} \ \ ( \because S_A + S_E = S_T )
\end{align*}\]※ \( S_A \) は回帰平方和、\( S_E \) は残差平方和、\( S_T \) は全体平方和を表しています。

決定係数は、単回帰モデル同士でモデルの当てはまり具合を比べる際に利用されます。

例えば、今回のデータの場合、決定係数 \( R^2 \) は 0.9799 です。

つまり、このモデルはデータの97.99%の変動を説明できていると言えます。

ただし、重回帰分析では説明変数の数が増えると決定係数 \( R^2 \) は常に増加するため、モデルの当てはまりが良く見える場合があります。

★ 相関係数と決定係数の関係

相関係数は、説明変数と目的変数の間の直線的関係の強さを示す指標であり、相関係数の2乗が決定係数になります。

したがって、決定係数は説明変数が目的変数に対して持つ直線的関係の強さを示すことができます。

[iii] Adjusted R-squared: 自由度調整済み決定係数

※ 重回帰分析で最も重要なポイントです！

説明変数を増やすほど、回帰モデルで説明できる変動の割合が増加し、決定係数 \( R^2 \) は大きくなります。

しかし、すべての説明変数が目的変数に影響を与えるわけではないため、無関係な説明変数を追加することは避けるべきです。

そこで、自由度調整済み決定係数 \( R^2 \) が登場しました。これは無関係な説明変数を追加してもモデル評価が不適切に上昇しないように調整された指標です。

\[\begin{align*}
R^2_f & = 1 - \frac{ \frac{S_E}{n-k-1}}{ \frac{S_T}{n-1} }
\\ & = 1 - \frac{S_E}{S_T} \cdot \frac{n-1}{n-k-1}
\\ & = 1 - \frac{n-1}{n-k-1}\left( 1 - R^2 \right)
\end{align*}\]

※ \( n \) は回帰分析に使用したデータ数です。今回の例の場合、\( n = 20 \) です。
※ \( k \) は説明変数の数を表します。

重回帰分析でモデルの良し悪しを比べるときには、決定係数ではなく、自由度調整済み決定係数を使います。

自由度調整済み決定係数を使うことで、単に説明変数を増やすことでモデルが良くなるように見える現象を防ぐことが出来ます。

今回の出力で示された自由度調整済み決定係数 \( R^2_f \) は 0.9762 ですね。

[iv] F値

※ 単回帰分析と同様ですが、重回帰分析では複数の説明変数を考慮します。

F値は、回帰式内の説明変数が目的変数に対して有意に影響を与えているかどうかを評価するための統計量です。説明変数の効果が全体として有意かどうかを判断するために使用されます。このモデルが信頼できるものかを表していると思っていただけたらOKです。

具体的には、帰無仮説 \( H_0 \) を「説明変数の偏回帰係数が全て0である」と仮定し、この仮説が成立するかどうかをF値で確認します。

【回帰分析でのF検定】

帰無仮説 \( H_0 \): 説明変数の偏回帰係数が全て0。
（回帰モデルは無意味）
対立仮説 \( H_1 \): 説明変数の偏回帰係数に0ではないものがある。
（回帰モデルは有意）

この検定の結果が棄却されれば、モデルが信頼できるものと見なされます。一方棄却されなかった場合、このモデル自体が意味ないものと見なされる可能性があります。

今回のRの出力結果では、次の3つの情報が表示されています。

F値: 260.6
F検定で使用する自由度の組 (3,16)
※ 説明変数の自由度が3、残差の自由度が16
対応するp値: \( 8.651 \times 10^{-14} \)

この結果から、F値が非常に大きく、p値も極めて小さい（< 0.01）ため、帰無仮説は棄却され、説明変数（勉強時間）と目的変数（テストの点数）に関するこのモデルは信頼できるものと言えます。

4. 練習問題にチャレンジ！

では、最後に練習問題にチャレンジしてみましょう！

問題

桃山さんは、近隣地域のラーメン屋の売上を分析するために、次の重回帰モデルを考えた。

\[
\mathrm{売上} \ = \alpha + \beta_1 \times \mathrm{評価} + \beta_2 \times \mathrm{広告費} + \beta_3 \times \mathrm{駅からの距離} + \beta_4 \times \mathrm{オンライン販売の有無}
\]

【説明変数の意味】

説明変数	変数名	意味
評価	review_score	評価サイトの評価 [点] (※ 満点は5)
広告費	ad_budget	1ヶ月当たりに使用する広告費用 [万円]
駅からの距離	dist_from_station	最寄り駅から店舗までの距離 [分]
オンライン販売の有無	has_online_store	オンライン販売の有無 (0 … なし、1 … あり)

統計ソフトウェアRを用いて、上記の重回帰モデルを推定したところ、つぎの出力結果を得た。

Call:
lm(formula = sales ~ review_score + ad_budget + dist_from_station + has_online_store, data = data)

Residuals:
    Min      1Q  Median      3Q     Max 
-16.725  -7.675  -3.806   7.473  29.201 

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)        49.8564    63.1142   0.790 0.438829    
review_score       14.4141     3.0033   [ a ] 0.000109 ***
ad_budget           3.3419      [ b ]   5.301 3.45e-05 ***
dist_from_station  -3.9179     1.4844  -2.639 0.015724 *  
has_online_store    6.9950     5.5595   1.258 0.222808    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 13.56 on 20 degrees of freedom
Multiple R-squared:  0.7657,	Adjusted R-squared:  0.7188 
F-statistic: 16.34 on [ c ] and [ d ] DF,  p-value: 4.322e-06

つぎの(1)～(6)の問いに答えなさい。ただし、出力結果の一部を加工している。

(1) 出力結果の [ a ] ～ [ d ] に当てはまる数を答えなさい。ただし、[ a ], [ b ] は小数第4位を四捨五入して小数第3位まで、[ c ]、[ d ] は整数で答えること。

(2) 分析に用いた店舗数を答えなさい。

(3) 評価サイトの評価が4.1点、1ヶ月当たりに使用する広告費用が5万円、最寄り駅から店舗まで徒歩3分で、オンライン販売を実施している店舗の1ヶ月店舗の売上高は何万円と予測されるか。小数第2位を四捨五入し、小数第1位まで答えなさい。

(4) 有意水準を5%とする。説明変数のうち、「評価」、「広告費」、「駅からの距離」、「オンライン販売の有無」のうち、統計的に有意な説明変数はいくつあるか答えなさい。

(5) この単回帰モデルの結果から読み取れることとして、正しいものをつぎの1～5の選択肢から1つ選びなさい。

部員数のF値に対応するp値が0.05未満のため、この重回帰モデルはデータの変動をうまく説明できていると言える。
説明変数の中で、「評価」の偏回帰係数が最も大きいため、説明力が最も大きい説明変数は「評価」であると言える。
評価サイトの評価が1点上がると、売上高は約14.4万円上がる傾向がある。
「オンライン販売の有無」は量的変数ではないため、回帰分析への使用は避けるべきである。
最寄り駅から店舗までの距離が長くなると、売上高も増える傾向にある。

近隣地域のラーメン屋の売上を分析するために、評価のみを説明変数とした単回帰モデルで、単回帰分析を行った。

\[
\mathrm{売上} \ = \alpha + \beta \times \mathrm{評価}
\]

結果、つぎの出力結果を得た。

Call:
lm(formula = sales ~ review_score, data = data2)

Residuals:
    Min      1Q  Median      3Q     Max 
-37.402 -12.398  -2.752  18.054  34.012 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)    -38.751     88.007  -0.440  0.66382    
review_score    16.837      4.403   3.824  0.00087 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 20.42 on 23 degrees of freedom
Multiple R-squared:  0.3887,	Adjusted R-squared:  0.3621 
F-statistic: 14.62 on 1 and 23 DF,  p-value: 0.0008701

ここで、単回帰モデルと重回帰モデルを比較した場合、どちらがより良いモデルと言えるか。結論とその理由について述べた文章のうち、最も適切なものを1つ選びなさい。

単回帰モデルの方のF値に対応するp値がより小さい、単回帰モデルの方が良いモデルと言える。
重回帰モデルの方のF値に対応するp値がより小さい、単回帰モデルの方が良いモデルと言える。
単回帰モデルの方の決定係数がより大きいため、単回帰モデルの方が良いモデルと言える。
重回帰モデルの方の決定係数がより大きいため、重回帰モデルの方が良いモデルと言える。
単回帰モデルの方の自由度調整済み決定係数がより大きいため、単回帰モデルの方が良いモデルと言える。
重回帰モデルの方の自由度調整済み決定係数がより大きいため、重回帰モデルの方が良いモデルと言える。

5. 練習問題の答え

Call:
lm(formula = sales ~ review_score + ad_budget + dist_from_station + has_online_store, data = data)

Residuals:
    Min      1Q  Median      3Q     Max 
-16.725  -7.675  -3.806   7.473  29.201 

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)    
(Intercept)        49.8564    63.1142   0.790 0.438829    
review_score       14.4141     3.0033   [ a ] 0.000109 ***
ad_budget           3.3419      [ b ]   5.301 3.45e-05 ***
dist_from_station  -3.9179     1.4844  -2.639 0.015724 *  
has_online_store    6.9950     5.5595   1.258 0.222808    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 13.56 on 20 degrees of freedom
Multiple R-squared:  0.7657,	Adjusted R-squared:  0.7188 
F-statistic: 16.34 on [ c ] and [ d ] DF,  p-value: 4.322e-06

(1)

[ a ] 解答: 4.779

t値を計算するためには、t値の計算公式を使います。具体的には、偏回帰係数を標準誤差で割ればOKです。

\[\begin{align*}
t & = \frac{ \mathrm{偏回帰係数} \ - 0}{ \mathrm{標準誤差} }
\\ & = \frac{14.4141}{3.0033}
\\ & \fallingdotseq 4.799
\end{align*}\]したがって、[a]は 4.779 となります。

[ b ] 解答: 0.630

[a]と同様に、t値の計算公式を使います。

\[\begin{align*}
t & = \frac{ \mathrm{偏回帰係数} \ - 0}{ \mathrm{標準誤差} }
\end{align*}\]

したがって、次の式が成り立つような標準誤差を求めればOKです。\[\begin{align*}
5.301 & = \frac{3.3419 - 0}{ \mathrm{標準誤差} }
\end{align*}\]

この式を変形することで、[b]はつぎのように求められます。

\[\begin{align*}
\mathrm{標準誤差} & = \frac{3.3419 } { 5.301 }
\\ & \fallingdotseq 0.630
\end{align*}\]

つぎの出力結果の [ c ] は回帰変動の自由度、[ d ] は残差変動の自由度を表しています。

F-statistic: 16.34 on [ c ] and [ d ] DF,  p-value: 4.322e-06

[ c ] 解答: 4

回帰変動の自由度は、説明変数の数に等しいです。

今回の説明変数は、以下の4つですね。

説明変数	変数名	意味
評価	review_score	評価サイトの評価 [点] (※ 満点は5)
広告費	ad_budget	1ヶ月当たりに使用する広告費用 [万円]
駅からの距離	dist_from_station	最寄り駅から店舗までの距離 [分]
オンライン販売の有無	has_online_store	オンライン販売の有無 (0 … なし、1 … あり)

[ c ] 解答: 20

残差変動の自由度は、出力結果の on "20" degrees of freedom から読み取れます。

(2)

解答: 25

標本サイズ（分析に使用した店舗数）を求める際は、残差変動の自由度の出力に着目します。

よって、残差変動の自由度が 20 と読み取れます。

ここで残差変動の自由度は、標本サイズからモデルのパラメータ数を引くことで求められます。

今回のモデルのパラメータは切片 \( \alpha \) と説明変数4つに対応する偏回帰係数 \( \beta_1 \), \( \beta_2 \), \( \beta_3 \), \( \beta_4 \) の合計5つなので、標本サイズ \( n \) と残差の自由度 \( \phi_E \) には次の関係式が成立します。\[
\phi_E = n - 5
\]

出力結果より、残差の自由度が \( \phi_E = 20 \) と読み取れるため、標本サイズ \( n \) はつぎのように計算できます、\[\begin{align*}
n & = \phi_E + 5
\\ & = 20 + 5
\\ & = 25
\end{align*}\]よって、答えは25となります。

(3)

解答: 120.9万円

まず、各パラメータ \( \alpha \), \( \beta_1 \), \( \beta_2 \), \( \beta_3 \), \( \beta_4 \) の値は、出力結果の Estimate から読み取ることができます。

この式に、以下の方程式に与えられたデータと各パラメータの値を代入すればOKです。

評価 = 4.1
広告費 = 5
駅からの距離 = 3
オンライン販売の有無 = 1 (あり)

実際に代入すると、売上を次のように求めることができます。

\[\begin{align*}
\mathrm{売上} \ & = 49.8564 + 14.4141 \times 4.1 + 3.3419 \times 5 + (- 3.9179) \times 3 + 6.9950 \times 1
\\ & = 49.8564 + 59.09781 + 16.7095 - 11.7537 + 6.9950
\\ & = 120.90501
\end{align*}\]

小数第2位を四捨五入して、答えは 120.9 万円となります。

(4)

解答: 3つ

各説明変数のp値は、出力結果の Pr(>|t|) から読み取ることが出来ます。

各説明変数が、有意水準5%で有意となる（棄却される）か確かめましょう。

review_score: 0.000109 < 0.05: 有意（棄却される）
ad_budget: 3.45e-05 < 0.05: 有意（棄却される）
dist_from_station: 0.015724 < 0.05: 有意（棄却される）
has_online_store: 0.222808 ≧ 0.05: 有意でない（棄却されない）

結果、有意な変数は3つであるとわかります。

(5)

解答: 3

選択肢を1つずつ見ていきましょう。

1. 部員数のt値に対応するp値が0.05未満のため、この重回帰モデルはデータの変動をうまく説明できていると言える。

誤りです。F値に対応するp値は、回帰モデル全体が有意であるかどうか（＝回帰式内の説明変数が目的変数に対して有意に影響を与えているかどうか）を示すものであり、モデルがデータの変動をうまく説明しているかを示すものではありません。

2. 説明変数の中で、「評価」の偏回帰係数が最も大きいため、説明力が最も大きい説明変数は「評価」であると言える。

誤りです。偏回帰係数の大小は説明力とは関係がありません。

偏回帰係数は、説明変数が1変化すると、目的変数がどれだけ変化するかを示すパラメータです。

3. 評価サイトの評価が1点上がると、売上高は約14.4万円上がる傾向がある。

正しいです。評価（review_score）の偏回帰係数が約14.4であるため、評価が1点上昇すると、売上高は約14.4万円増加することが示されています。

4. 「オンライン販売の有無」は量的変数ではないため、回帰分析への使用は避けるべきである。

誤りです。「オンライン販売の有無」はダミー変数として扱われます。ダミー変数は、質的な情報を数値化する方法で、回帰分析においても適切に使用できます。

この場合、0（オンライン販売なし）または1（オンライン販売あり）で表され、モデル内で他の説明変数と同様に、売上に対する影響を評価することができます。

5. 最寄り駅から店舗までの距離が長くなると、売上高も増える傾向にある。

誤りです。回帰モデルの中で「駅からの距離」（dist_from_station）の偏回帰係数は負の値（約-3.92）です。

これは、距離が1分増加するごとに売上高が約3.92万円減少することを意味します。

したがって、最寄り駅からの距離が長くなると、売上高が減少する傾向があると解釈されます。

(6)

解答: 6

重回帰モデルと単回帰モデルのように、説明変数の数が異なるモデルを比較する際には、自由度調整済み決定係数の大小を比べ、より大きいモデルを選択します。

※ 通常の決定係数は説明変数を増やすだけで必ず上昇してしまうため、モデルの真の説明力を評価するには不適切です。

ここで、2つのモデルの自由度調整済み決定係数を比較すると、次の通りとなります。

重回帰モデル: 0.7188
単回帰モデル: 0.3621

よって、正解は「6. 重回帰モデルの方の自由度調整済み決定係数がより大きいため、重回帰モデルの方が良いモデルと言える。」となります。

注釈[+]

注釈
↑1	定数項に対するt値も出力されますが、定数項が0ではないかどうかを検証することは、実務的にはあまり意味がない場合が多いです。
↑2	例えば、偏回帰係数が2であると帰無仮説で仮定した場合、分子の "-0" の部分は "-2" となります。
↑3	一元配置分散分析では、自由度を「グループ数 - 1」としますが、回帰分析において自由度を「説明変数 - 1」とするのは誤りです。一元配置分散分析では、全グループの平均を求めることで自由度が1失われるため、「グループ数 - 1」としています。これに対して、回帰分析では、説明変数を使って個別の回帰直線をモデル化しています。そのため、自由度は説明変数の数そのものを使います。
↑4	回帰分析では、切片 \( \alpha \) と \( k \) 個の偏回帰係数 \( \beta_1 \), \( \beta_2 \), …, \( \beta_k \) の \( k + 1 \) つのパラメータを使ってモデルをフィットさせるため、これに対応する自由度が \(k+1 \) つ失われます。そのため、残差変動の自由度は「観測データ数 - k - 1」として計算されます。

【統計学】出口調査の仕組みを理解するためのいろは

ももうさ — Wed, 09 Oct 2024 16:02:23 +0000

こんにちは、ももやまです。

出口調査を理解するためには、統計学の基礎的な知識が必要となります。

【なぜ当選確実がすぐ出るの？】うさぎでもわかる開票速報の仕組み

こんにちは、ももやまです。皆さんは、選挙が終わった直後、まだ開票全く当選していないのに「◯◯党 △△ △△、当選確実！」と

そこで、本記事では出口調査を理解するために必要な統計学の基礎的な内容をまとめています。

※ 正規分布については、「出口調査の仕組み」でも解説をしているため、本記事では概念のみの説明となっています。

1. 確率変数

例えば、コインを投げて、表が出たら1点、裏が出たら0点とするゲームを考えてみましょう。

ここで、コインの表が出る確率は1/2、裏が出る確率も1/2です。つまり、1/2の確率で得られる点数は1点、残りの1/2の確率では0点が得られます。

このように、結果がランダムに決まり、その結果に応じて数値（今回の例の場合は点数）が変わる変数を確率変数と呼びます。確率変数は、\( X \) のような大文字で表されることが多いです。

確率変数は、どの値が取られるかは事前には決まっていませんが、それぞれの値が取られる確率はあらかじめ定まっています。

例えば、コイントスの例では、得られる点数は 1 または 0 のどちらかですが、どちらが得られるかは偶然に左右されます。この「偶然性」を確率として扱い、変数に関連づけたものが確率変数です。

2. 平均(期待値）・分散・標準偏差

確率変数 \( X \) がどれくらいの値を取るかを、それぞれの確率で説明するのは大変です。そこで、確率変数が取りうる値の特徴を、1つの数値で簡潔に表す方法として、平均、分散、標準偏差という指標を使います。

[i] 平均 (期待値)

平均とは、確率変数 \( X \) が「平均してどれくらいの値を取るか」を表す指標で、記号では \( E(X) \) などで表します。これは「期待値」とも呼ばれ、確率的な現象における「長期的に見た場合の平均値」を意味します。

平均は、各値にその値が取られる確率を掛けたものの和で計算できます。

では、実際に先ほどのコイントスで得られる点数 \(X \) を例に、平均 \( E(X) \) を求めてみましょう。

実際に平均を求めると次のように計算できます。

\[\begin{align*}
E(X) & = 0 \times \frac{1}{2} + 1 \times \frac{1}{2}
\\ & = \frac{1}{2}
\end{align*}\]

つまり、コイントスで得られる点数の期待値は \( \frac{1}{2} = 0.5 \) 点となります。

[ii] 分散

分散は、確率変数 \( X \) のばらつきの度合い表す指標で、記号では \( V(X) \) や \( \mathrm{Var} (X) \) で表します。

分散は、平均からの距離（偏差）がどれだけ大きいかを測るもので、確率変数の値が平均値の周りにどれくらい散らばっているかを示します。

分散の計算は、各値と平均の差（偏差）を2乗し、その値に確率を掛けたものの和で求めます。偏差を2乗する理由は、正負の符号を消して全ての偏差を正の数に変換し、ばらつきを正確に反映させるためです。

では実際に、先ほどのコイントスで得られる得点 \( X \) について、分散 \( V(X) \) を求めてみましょう。

実際に分散を求めると次のように計算できます。

\[\begin{align*}
V(X) & = \left( 0 - \frac{1}{2} \right)^2 \times \frac{1}{2} + \left( 1 - \frac{1}{2} \right)^2 \times \frac{1}{2}
\\ & = \frac{1}{4} \times \frac{1}{2} + \frac{1}{4} \times \frac{1}{2}
\\ & = \frac{1}{4}
\end{align*}\]

つまり、コイントスで得られる点数 \( X \) の分散は \( \frac{1}{4} = 0.25 \) 点²となります。

[iii] 標準偏差

分散 \( V(X) \) では偏差を2乗しているため、元の単位とずれた形になります。そこで、分散の平方根を取ることで、元の単位に戻した指標が標準偏差です。記号では \( \sigma (X) \) などと表現されます。

標準偏差は、分散と違って「ばらつき度合い」を元のスケールで直感的に理解できるようにしたものです。

標準偏差は、次の式のように、分散の平方根で計算できます。\[
\sigma (X) = \sqrt{ V(X) }
\]

例えば、先程のコイントスで得られる点数 \( X \) の標準偏差 \( \sigma (X) \) は次のように計算できます。\[\begin{align*}
\sigma(X) & = \sqrt{ V(X) }
\\ & = \sqrt{ \frac{1}{4} }
\\ & = \frac{ \sqrt{1} }{ \sqrt{4} }
\\ & = \frac{1}{2}
\end{align*}\]

つまり、コイントスで得られる点数の標準偏差は \( \frac{1}{2} = 0.5 \) 点となります。

point2

確率変数 \( X \) の取りうる値 \( x_1 \), \( x_2 \), … と、各取りうる値となる確率 \( p_1 \), \( p_2 \), … が次のように対応しているとする。

取りうる値	\( x_1 \)	\( x_2 \)	\( \cdots \)	\( x_n \)
確率	\( p_1 \)	\( p_2 \)	\( \cdots \)	\( p_n \)

※ 上の表の各列は対応している。例えば、\( x_1 \) となる確率は \( p_1 \)、\( x_2 \) となる確率は \( p_2 \) である。

このとき、平均（期待値）、分散、標準偏差は次のように計算ができる。

(1) 平均(期待値) \( E(X) \)
→ \( X \) が取りうる値の中心的な値を表している。

求め方: 各値にその値が取られる確率を掛けたものの和

\[\begin{align*}
E(X) & = \textcolor{deepskyblue}{x_1} \textcolor{green}{p_1} \textcolor{purple}{+} \textcolor{deepskyblue}{x_2} \textcolor{green}{p_2} \textcolor{purple}{+} \cdots \textcolor{purple}{+} \textcolor{deepskyblue}{x_n} \textcolor{green}{p_n}
\\ & = \textcolor{purple}{\sum^{n}_{k=1}} \textcolor{deepskyblue}{x_k} \textcolor{green}{p_k}
\end{align*}\]

(2) 分散 \( V(X) \)
→ \( X \) のばらつきの度合いを元の単位の2乗単位で表したもの

求め方: 各値に平均の差（偏差）を2乗し、その値に確率を掛けたものの和

※ \( m = E(X) \) とする。\[\begin{align*}
V(X) & = ( \textcolor{deepskyblue}{x_1} - \textcolor{orange}{m} )^2 \textcolor{green}{p_1} \textcolor{purple}{+} ( \textcolor{deepskyblue}{x_2} - \textcolor{orange}{m} )^2 \textcolor{green}{p_2} \textcolor{purple}{+} \cdots \textcolor{purple}{+} ( \textcolor{deepskyblue}{x_n} - \textcolor{orange}{m} )^2 \textcolor{green}{p_n}
\\ & = \textcolor{purple}{\sum^{n}_{k=1}} ( \textcolor{deepskyblue}{x_k} - \textcolor{orange}{m} )^2 \textcolor{green}{p_k}
\end{align*}\]

(3) 標準偏差 \( \sigma (X) \)
→ \( X \) のばらつきの度合いを元の単位で表したもの

求め方: 分散の平方根を取る

\[
\sigma (X) = \sqrt{ V(X) }
\]

[iv] 確率変数の変換

確率変数 \( X \) に定数を加えたり、掛けたりすると、平均、分散、標準偏差はどのように変化するのでしょうか。ここでは、それぞれの変換について説明します。

★ 確率変数Xに定数を掛けた場合

ある確率変数に定数 \( a \) を掛けると、平均、分散、標準偏差は次のように変わります。

種類	変化の仕方
平均	掛けた定数倍 (\( b \) 倍) となる
分散	掛けた定数の2乗倍 ( \( b^2 \) 倍) となる
標準偏差	掛けた定数の絶対値倍 (\( \|b\| \) 倍) となる

先ほどのコイントスの例で、なぜこのような変化の仕方をするか見て行きましょう。

まず、コイントスの得点ルールを次の通り変化します。

このときに得られる点数の確率変数を \( Y_1 \) とおきましょう。つまり、\( Y_1 = 2X \) ですね。

すると、このルール変更により、表が出た場合も裏が出た場合も、得点は2倍になります。つまり、すべての得点が2倍となっているため、平均 \( E(Y_1) \) も当然元の値 \( E(X) \) の2倍となりますよね。\[\begin{align*}
E(Y_1) & = E(2X)
\\ & = 2 E(X)
\\ & = 2 \times \frac{1}{2}
\\ & = 1
\end{align*}\]

また、ばらつき度合いを表す分散や標準偏差も同様に考えられます。すべての得点が2倍となっているということは、点数の変動も2倍となるため、ばらつき度合いも当然2倍となります。そのため、標準偏差は元の

また、表が出ようが裏が出ようがもらえる点数が2倍になるということは、ばらつき度合いも当然2倍となります。そのため、標準偏差 \( \sigma (Y_1) \) は元の値 \( \sigma(X) \) の2倍となります。\[\begin{align*}
\sigma (Y_1) & = \sigma(2 X)
\\ & = |2| \sigma(X)
\\ & = 2 \times\frac{1}{2}
\\ & = 1
\end{align*}\]

分散については、値のばらつき具合を2乗して考えるため、ばらつきが2倍になったときは、分散は 2乗されて4倍となります。\[\begin{align*}
V(Y_1) & = V(2 X)
\\ & = 2^2 V(X)
\\ & = 4 \times \frac{1}{4}
\\ & = 1
\end{align*}\]

このように、掛け算による変換は、全体のスケールをそのまま拡大するため、平均もばらつき具合も直感的に倍になることが理解できます。

★ 確率変数Xに定数を加えた場合

ある確率変数に定数 \( b \) を足すと、平均、分散、標準偏差は次のように変わります。

種類	変化の仕方
平均	足した定数 \( b \) 分増加
分散	変化なし
標準偏差	変化なし

先ほどと同じように、なぜこのような変化の仕方をするか見て行きましょう。

ここで、得点のルールを次のように変えたとします。

すると、このルール変更により、表が出た場合も裏が出た場合も、もらえる点数は元の値よりも1点増加しています。つまり、すべての得点が1点増えるため、平均 \( E(Y_2) \) も当然元の値 \( E(X) \) より1増えます。\[\begin{align*}
E(Y_2) & = E(X+1)
\\ & = E(X) + 1
\\ & = \frac{1}{2} + 1
\\ & = \frac{3}{2}
\\ & = 1.5
\end{align*}\]

しかし、ばらつき具合（分散や標準偏差）についてはどうでしょうか。ここでは、点数の差（表か裏かによる違い）には全く影響がないことが重要です。得られる点数がすべて1点増えているだけで、点数の「変動の幅」自体は変わりません。したがって、分散や標準偏差は変化しません。

\[
V(Y_2) = V(X)
\]\[
\sigma (Y_2) = \sigma (X)
\]

このように、定数を加える変換は、全体の値をシフトするだけで、ばらつきには影響を与えないため、平均だけが変わり、分散や標準偏差は変わらないことが理解できます。

point3

(1) 確率変数 \( X \) を \( a \) 倍して \( aX \) とする。このとき、[1-i], [1-ii], [1-iii] の関係が成り立つ。

[1-i] 平均 \( E(aX) \) … \( a \) 倍となる。\[
E(aX) = a E(X)
\]

[1-ii] 分散 \( V(aX) \) … \( a^2 \) 倍となる。\[
V(aX) = a^2 E(X)
\]

[1-iii] 標準偏差 \( \sigma (aX) \) … \( |a| \) 倍となる。\[
\sigma (aX) = |a| E(X)
\]

(2) 確率変数 \( X \) に \( b \) を足して \( X+b \) とする。このとき、[2-i], [2-ii], [2-iii] の関係が成り立つ。

[2-i] 平均 \( E(X+b) \) … \( b \) 増える \[
E(X+b) = E(X) + b
\]

[2-ii] 分散 \( V(X+b) \) … 変化しない。\[
V(X+b) = V(X)
\]

[2-iii] 標準偏差 \( \sigma (X+b) \) … 変化しない。\[
\sigma (X+b) = \sigma (X)
\]

3. 二項分布

先ほどのコイントスの結果（表と裏）のように、結果が2通りしかない試行を繰り返すことを考えてみましょう。

ここで、結果が2通りしかない試行を繰り返したときに、その片方の事象が起こる回数を \( X \) とします。

このとき、確率変数 \( X \) は特別な分布に従います。この分布を、二項分布と呼びます。

例えば、コイントスを50回行ったときに表が出る回数を \( X_1 \) とおくと、\( X_1 \) は二項分布に従います。

二項分布に従う確率変数は、平均、分散、標準偏差を簡単に求めることができるのが特徴です。

[i] 平均(期待値)の求め方

ある確率変数 \( X \) が二項分布に従うとき、その平均 \( E(X) \) は、試行を行った回数 \( n \) と、片方の事象が起こる確率 \( p \) の積で求めることができます。

\[\begin{align*}
E(X) & = n \times p
\\ & = np
\end{align*}\]

例えば、コイントスを100回行ったとき、表が出る回数 \( X \) の平均 \( E(X) \) は次のように計算ができます。\[\begin{align*}
E(X) & = \underbrace{ n }_{100} \times \underbrace{ p }_{ \frac{1}{2} }
\\ & = 50
\end{align*}\]よって、表が出る回数の平均は50回と求められます。

★ 平均が \( np \) となる理由

1回の試行で、事象が起こる確率を \( p \) としましょう。すると、事象が起こる回数の平均は \( p \) となりますね。

この試行を \( n \) 回繰り返すので、平均 \( p \) が \( n \) 回分足されて、\( np \) となるのです。\[\begin{align*}
E(X) & = \underbrace{ p + p + p + \cdots + p }_{ n \ \mathrm{個} }
\\ & = np
\end{align*}\]

[ii] 分散の求め方

ある確率変数 \( X \) が二項分布に従うとき、その分散 \( V(X) \) は、試行を行った回数 \( n \)、片方の事象が起こる確率 \( p \)、片方の事象が起こらない確率 \( 1-p \) の積で求めることができます。

\[\begin{align*}
V(X) & = n \times p \times (1-p)
\\ & = np (1-p)
\end{align*}\]

例えば、コイントスを100回行ったとき、表が出る回数 \( X \) の分散 \( V(X) \) は次のように計算ができます。\[\begin{align*}
V(X) & = \underbrace{ n }_{100} \times \underbrace{ p }_{ \frac{1}{2} } \times ( 1 - \underbrace{ p }_{ \frac{1}{2} } )
\\ & = 25
\end{align*}\]よって、表が出る回数の分散は25回²と求められます。

★ 分散が \( np(1-p) \) となる理由

1回の試行で、事象が起こる確率を \( p \) としましょう。すると、事象が起こる回数の分散は \( p(1-p) \) となりますね。\[\begin{align*}
(0-p)^2 (1-p) + (1-p)^2 p & = p^2 (1-p) + (1-p)^2 p
\\ & = p (1-p) \left\{ p + (1-p) \right\}
\\ & = p (1-p)
\end{align*}\]

この試行を \( n \) 回繰り返すので、分散 \( p(1-p) \) が \( n \) 回分足されて^[1]各試行は独立なときのみ、2つの試行の分散 \( p(1-p) \) を足すことができます。、\( np(1-p) \) となるのです。\[\begin{align*}
E(x) & = \underbrace{ p(1-p) + p(1-p) + p(1-p) + \cdots + p(1-p) }_{ n \ \mathrm{個} }
\\ & = np(1-p)
\end{align*}\]

[iii] 標準偏差の求め方

標準偏差 \( \sigma (X) \) は、分散 \( V(X) \) の平方根で求めることができます。

\[\begin{align*}
\sigma (X) = \sqrt{ V(X) }
\end{align*}\]

例えば、コイントスを100回行ったとき、表が出る回数 \( X \) の標準偏差 \( \sigma (X) \) は、散 \( V(X) = 25 \) を用いてつぎのように計算できます。\[\begin{align*}
\sigma (X) & = \sqrt{ V(X) }
\\ & = \sqrt{25}
\\ & = 5
\end{align*}\]よって、表が出る回数の標準偏差は5回と求められます。

4. 正規分布: 二項分布の近似

これまで、コイントスのように結果が2通りしかない試行を繰り返すと、その片方の事象が起こる回数 \( X \) は二項分布に従うことを説明しました。

次に、試行回数 \( n \) を大きくした場合の二項分布について考えてみましょう。試行回数を増やしていくと、事象の発生回数 \( X \) とその確率をグラフにプロットしたときに、興味深い形が見えてきます。

例えば、コイントスを100回行ったとき、表が出る回数を横軸に、その確率を縦軸にしてグラフを描いてみます。

すると、グラフの中央付近に一番高い山ができて、左右対称に広がっていることがわかります。これは偶然ではなく、試行回数が増えると二項分布がこのような形になるのです。

実は、試行回数 \( n \) が十分に大きくなると、この二項分布のグラフは正規分布と呼ばれる特定の形に近づきます。

言い換えると、試行回数が大きいときに、二項分布は正規分布での近似が可能です^[2]目安として、試行回数 \( n \)、事象が起こる確率 \( p \) のとき、\( np > 5 \) かつ \( n(1-p) > 5 \) が成り立つ場合に近似ができます。。

注釈[+]

注釈
↑1	各試行は独立なときのみ、2つの試行の分散 \( p(1-p) \) を足すことができます。
↑2	目安として、試行回数 \( n \)、事象が起こる確率 \( p \) のとき、\( np > 5 \) かつ \( n(1-p) > 5 \) が成り立つ場合に近似ができます。

【なぜ当選確実がすぐ出るの？】うさぎでもわかる開票速報の仕組み

ももうさ — Wed, 09 Oct 2024 15:59:48 +0000

こんにちは、ももやまです。

皆さんは、選挙が終わった直後、まだ開票全く当選していないのに「◯◯党 △△ △△、当選確実！」という速報が出るのを見て、不思議に思ったことはありませんか？

今回は、開票がまだ進んでいないにもかかわらず、メディアがどのようにして「当選確実」と判断するのか、その仕組みを解説していきます。

1. 出口調査の簡単なしくみ

(1) 全員分の投票情報を集めるのは不可能

投票した全員が誰に（どの党に）投票したかが分かれば、100%正確に当選者がわかります。

しかし、現実的に全員分が誰に投票したかを、開票せずに把握することは不可能です。

(2) 現実的な手段：味見＝出口調査

料理を振る舞う場面を想像してください。

料理を作るとき、味付けや味の濃さを確認するために少しだけ味見をしますよね^[1]料理全部を食べて確認するなんてことをしたら、振る舞う料理がなくなってしまいます。。

選挙の当選確実を出す仕組みも、この「味見」と似ています。

具体的には、投票者の一部に誰に投票したのかを選挙会場で調査（＝味見）し、その結果をもとに当選者を予測します。

(3) 調査結果の判断法には要注意

今回は、候補者4人（うさぎ、ねこ、いぬ、あざらし）の中から当選者として1人を選ぶ選挙を実施したと仮定します。

ここで、10,000人がこの選挙に投票し、そのうち100人に「誰に投票したか」を出口調査した結果、以下の表の通りの得票率となったとします。

表. 100人に出口調査したときの得票率データ

これだけ見ると、すぐに「うさぎが一番人気だな！　当選者確定！」と思うかもしれません。

しかし、ここで重要なのは、これはたった100人のデータに過ぎないという点です。実際の投票者全体（10,000人）の投票結果は、この100人のデータと一致しません。

なぜなら、100人というサンプルはあくまで「一部の投票者」に過ぎないからです、全員（10,000人）の中で本当にうさぎが一番投票されているかはわからないからです。たまたま抽出した100人がうさぎに投票した人が多かっただけかもしれません。

そのため、この調査結果から「うさぎが最も投票されている（＝当選確実）」ということを正確に判断するためには、数学の力を使った裏付けが必要です。

(4) 数学的な裏付け … 区間推定

では、どのように数学的に裏付けしていけばいいでしょうか？

100人のデータだけでは、全体の投票結果を完全に理解することはできません。つまり、たとえば「うさぎが40%の得票率だった」としても、実際に10,000人全体の得票率が40%であるとは限らないのです。

しかし、全体の得票率を正確に知ることができなくても、数学（統計学）の理論に基づいておおよその範囲を推測することはできます。たとえば、「うさぎの得票率は38%〜42%の間だろう」というように、得票率の範囲を推定することができるのです。この、得票率がどのくらいの範囲に収まるのかを推定するのが「区間推定」です。

正確な結果（真値）は不明だが、おおよその得票率は出口調査で推定できる

★ 例え話で理解しよう。

ここで少し具体的な例えを使って考えてみましょう。

例えば、クラスのテストの平均点を調べたいとき、全員に尋ねるのは大変ですよね。そこで、100人のうち10人に「テストの平均点は何点だったか？」と聞いたとしましょう。

もし、その10人が「平均点は80点だった！」と言ったとしても、クラス全体の平均点が本当に80点だとは限りません。もしかしたら、クラス全体の平均点はもっと高いかもしれないし、逆に低いかもしれません。そのため、10人だけのデータでは、全体の平均を完全には把握できません。

そこで、「この調査結果をもとに全体の平均点はおおよそ80点だろうと予測するけど、実際の平均点は70点から90点の間かもしれない」というように、範囲を設定することが大切なのです。

これと同じように、100人の調査データだけでは全体の得票率を正確に知ることはできませんが、「範囲」で示すことで、より現実的な予測をすることができるのです。

(5) 区間推定の結果と当選確実

当選確実を言うためには、得票率が一番高い候補者の得票率の範囲が他の候補者の範囲と重ならければOKです。

これは、他の候補者の信頼区間が一番高い候補者の範囲に含まれないことで、「この候補者よりも得票率が高い人はいない」と確定できるからです。

例えば、うさぎの得票率が「37%〜43%」と推定されていた場合、他の候補者の得票率がいくら高くても、その範囲が「37%」未満であれば、うさぎが最も高い得票率を得ていると確信できるわけです。

最も高い得票率を得ている候補者が誰か、出口調査の段階で確信できた段階で、各メディアは当選確実であることを視聴者に伝えます。

(6) 区間推定で必要な知識

区間推定をするにあたって、以下の知識が必要となります。

確率変数
平均（期待値）、分散、標準偏差
二項分布

これらの知識を短時間で復習するための記事を作成しています。必要な方はぜひご覧ください。

【統計学】出口調査の仕組みを理解するためのいろは

こんにちは、ももやまです。出口調査を理解するためには、統計学の基礎的な知識が必要となります。 https://www.momoyama-usagi.com/entry/mat

2. 当選確実を数学的に出す方法解説

ここからは、実際に出口調査から当選確実が言えるかどうか、正確に判断するための方法を説明していきましょう。

なおこの章では、第1章と同じ以下のデータを使用します。

候補者4人（うさぎ、ねこ、いぬ、あざらし）の中から当選者として1人を選ぶ選挙を実施
選挙の投票者は全員で10,000人
10,000人中100人に出口調査を実施、結果は以下の表の通り

表. 100人に出口調査したときの得票率データ

(1) 区間推定の流れ

まずは、当選確実かどうかを判断するために必要な区間推定をどのように実施するか、その流れを見ていきましょう。

ここから先、数式を使った話になりますが、心配しないでください。ここでは「考え方」に焦点を当てます。区間推定では、まずサンプルデータから得られた「得票率」に、ばらつき（標準偏差）を加えたり引いたりして、範囲（区間）を求めます。

区間推定の流れ

Step1: まず、出口調査での得票率（例: うさぎが40%）を求める。

Step2: Step1で求めた得票率のばらつき（標準偏差）を計算する。

Step3: Step1, Step2の結果を用いて区間推定の結果を出す。

(3) 区間推定の計算法

Step1. 出口調査での得票率の計算 … 平均

まず、100人の調査結果を使って、各候補者にに投票した人の割合（得票率）を求めます。

得票率は、次のような形で計算ができます。\[\begin{align*}
\mathrm{得票率} & = \frac{ \mathrm{各候補者に投票した人数} }{ \mathrm{調査人数} }
\end{align*}\]

たとえば、調査した100人のうち40人がうさぎに投票したとしましょう。すると、うさぎの得票率は次のように計算できます。

\[\begin{align*}
\mathrm{得票率} & = \frac{ \mathrm{うさぎに投票した人数} }{ \mathrm{調査人数} }
\\ & = \frac{40}{100}
\\ & = 0.4
\\ & = 40 [ \% ]
\end{align*}\]

Step2. 誤差の計算 … 標準偏差

次に、この得票率に基づいて、調査の結果にどれくらいの誤差があるかを計算します。

ここで、この誤差を求めるためには、二項分布という確率の理論を使います。

二項分布は、ある人が「投票する」「投票しない」のような2つの選択肢から1つを選ぶ場面で使われます。つまり、各調査対象が「各候補者に投票した」「各候補者に投票しなかった」の2通りの結果に分かれるので、このような場面にぴったり当てはまるのです。

★ 二項分布の平均と分散

調査した人数を \( n \)、ある候補者に投票された割合を \( p \) とします。この場合、得票数 \( X \) の平均 \( E(X) \)、分散 \( V(X) \) はつぎのように計算できます。

※ 投票人数が \( n \) が大きいとき、ある候補者に投票された割合 \( p \) は、出口調査での得票率と同じであるとみなして計算することができます。（大数の法則）

・平均 \( E(X) = np \)

平均は、調査した人数 \( n \) と得票率 \( p \) を掛けた数が平均です。例えば、100人を調査して、40%がうさぎに投票した場合、平均投票者数は次のように計算されます。\[\begin{align*}
E(X) & = \underbrace{ n }_{100} \times \underbrace{ p }_{0.4}
\\ & = 40
\end{align*}\]

・分散 \( V(X) = np(1-p) \)

分散とは、データがどれくらいバラついているかを示す指標で、調査した人数 \( n \)、投票された割合 \( p \)、投票されなかった割合 \( 1-p \) をすべて掛けたものです。例えば、100人を調査して、40%がうさぎに投票した場合、投票者数の分散は次のように計算されます。

\[\begin{align*}
E(X) & = \underbrace{ n }_{100} \times \underbrace{ p }_{0.4} \times ( 1 - \underbrace{ p }_{0.4} )
\\ & = 100 \times 0.4 \times 0.6
\\ & = 24
\end{align*}\]

★ 得票率のばらつき度合い（標準偏差）

次に、得票率のばらつき（誤差）を計算していきます。得票率のばらつきを示す「標準偏差」という指標を使います。標準偏差は、分散の平方根を取ったもので、データのばらつき具合を分かりやすく示します。

ここで、先程出てきた確率変数 \( X \) は、調査した人数 \( n \) に対して得票数がどれだけあるかを示したものでしたね。つまり、得票率はこの確率変数を \( n \) で割ったものとなります。

そのため、得票率の分散は、得票数の分散の \( \frac{1}{n^2} \) 倍となります^[2]あるデータを \( a \) 倍すると、その分散は \( a^2 \) となるため。今回は \( a = \frac{1}{n} \) である。。そのため、得票率の分散は次のように計算ができます。

\[\begin{align*}
V \left( \frac{X}{n} \right) & = \frac{1}{n^2} V(X)
\\ & = \frac{1}{n^2} \cdot np(1-p)
\\ & = \frac{p(1-p)}{n}
\end{align*}\]

あとは、得票率の分散の平方根を取ることで、得票率の標準偏差（＝ばらつき度合い）を求める事ができます。

\[\begin{align*}
\sigma & = \sqrt{ \mathrm{分散} }
\\ & = \sqrt{ \frac{p(1-p)}{n} }
\end{align*}\]

実際に分散、標準偏差を計算してみましょう。

たとえば、調査した100人のうち40人（= 得票率40%）がうさぎに投票したとします。

すると、調査人数 \( n = 100 \)、うさぎの得票率 \( p = 0.4 \) から、うさぎの得票率の分散、標準偏差は次のように計算できます。

\[\begin{align*}
\mathrm{分散} & = \frac{p(1-p)}{n}
\\ & = \frac{0.4 \cdot 0.6}{100}
\\ & = \frac{ 0.24 }{100}
\\ & = \frac{24}{10000}
\end{align*}\]

\[\begin{align*}
\mathrm{標準偏差} & = \sqrt{ \mathrm{分散} }
\\ & = \sqrt{ \frac{24}{10000} }
\\ & = \frac{ \sqrt{24} }{ \sqrt{10000} }
\\ & = \frac{ 2 \sqrt{6} }{ 100 }
\\ & = \frac{ \sqrt{6} }{50}
\\ & \fallingdotseq 0.0490
\end{align*}\]

Step3. 区間推定

得票率の平均と標準偏差を使って、得票率の区間推定を行います。

ここで調査人数が多い場合、得票率の分布は正規分布に近づくため、正規分布を用いて区間推定を行います。

(1) 信頼度

区間推定を行う際に、「どれくらいの確信度で範囲を推定するか」を示すのが信頼度です。

例えば、信頼度が95%で得票率が「35%〜45%」と推定された場合、「10,000人全体の投票結果の得票率が35%〜45%の範囲に入っている確率が95%」という意味になります。

信頼度が低いほど、範囲は狭くなりますが、得票率の推定に対する確信度は弱くなります。一方、信頼度が高いほど、その範囲が広くなりますが、得票率の推定に対する確信度が強くなります。

当選確実を速報する際には、嘘や誤った情報を流すと大問題となります。そのため、確実に当選確実を発表するためには高い信頼度で、区間推定を広めに取ることが重要です。

ここで、信頼度に応じて区間が具体的にどのように変わるかについては、「(2) 標準正規分布」で詳しく説明します。

(2) 標準正規分布

正規分布の中でも、平均0、標準偏差1の正規分布のことを標準正規分布と呼びます。この分布では、各値が取る範囲が具体的に決まっています。

信頼度：95%

得票率は平均 ± 標準偏差1.96個の範囲に収まります。

信頼度：99%（± 標準偏差2.58個分）

得票率は平均 ± 標準偏差2.58個の範囲に収まります。

なお、実際に範囲を計算する際には、使用する正規分布に応じて、平均0、標準偏差1の標準正規分布から、変換を行います。

変化の方法については「(3) 標準正規分布 → 正規分布の変換」にて説明します。

(3) 標準正規分布 → 正規分布の変換

区間を計算するためには、平均0、標準偏差1の標準正規分布から、使用する正規分布（平均 \( p \)、標準偏差 \( \sigma \)）に変換する必要があります。

まず、標準正規分布の値を \( \sigma \) 倍することで、平均0、標準偏差 \( \sigma \) の正規分布に変換します。

つぎに、この正規分布に値 \( p \) を加えることで、平均 \( p \) 、標準偏差 \( \sigma \) の正規分布となります。

ここで、得票率 \( p \) は調査人数 \( n \) が大きいときに、調査結果内の得票率 \( \hat{p} \) と等しいとみなせます。

よって、ある信頼度における得票率 \( p \) の範囲を、次のように導出できます。\[
\hat{p} - z_0 \times \sigma \leqq p \leqq \hat{p} + z_0 \times \sigma
\]この範囲のことを、信頼区間、もしくは信頼度の情報を足してxx%信頼区間と呼びます^[3]例えば、信頼度95%で区間推定した場合は、「95%信頼区間」と書きます。。

※ ここで信頼度95%のとき \( z_0 = 1.96 \)、信頼度99%のとき \( z_0 = 2.58 \) です。

なお \( \sigma \) は、Step2で求めた標準偏差\[
\sigma = \sqrt{ \frac{p(1-p)}{n} }
\]が入ります。

(4) 実際に計算してみる

では、(3)で導出した公式を使って、うさぎの得票率を推定してみましょう。

\[
\hat{p} - z_0 \times \sigma \leqq p \leqq \hat{p} + z_0 \times \sigma
\]

★ うさぎの得票率の区間推定

100人の調査結果でのうさぎの得票率は \( \hat{p} = 0.4 \)、標準偏差は \( \sigma = 0.0490 \) ですね。

[i] 信頼度95%のとき（\( z_0 = 1.96 \)）

\[
0.4 - 1.96 \times 0.0490 \leqq p \leqq 0.4 + 1.96 \times 0.0490
\]\[
0.304 \leqq p \leqq 0.496
\]よって、信頼度95%で区間推定した場合、うさぎの得票率は 30.4%〜49.6% となります。

[ii] 信頼度99%のとき（\( z_0 = 2.58 \)）

\[
0.4 - 1.96 \times 0.0490 \leqq p \leqq 0.4 + 1.96 \times 0.0490
\]\[
0.274 \leqq p \leqq 0.526
\]よって、信頼度99%で区間推定した場合、うさぎの得票率は 27.4%〜52.6% となります。

※ 出口調査などで得られた得票率を区間推定することで得られた推定範囲を、信頼区間と呼びます。信頼度と合わせて95%信頼区間、99%信頼区間などと呼ばれることもあります。

例えば、上の例の場合、うさぎの得票率の信頼区間は次のようになります。

95%信頼区間: 30.4%〜49.6%
99%信頼区間: 27.4%〜52.6%

★ ねこの得票率の区間推定

同じように、ねこの得票率も区間推定してみましょう。

まずは、調査した100人での投票結果から、ねこの得票率の標準偏差を求めましょう。

調査した人数 \( n = 100 \)、100人の調査内でのねこ得票率 \( \hat{p} = 0.3 \) から、標準偏差 \( \sigma \) は次のように計算できます。

\[\begin{align*}
\sigma & = \sqrt{ \frac{p(1-p)}{n} }
\\ & = \sqrt{ \frac{0.3 \times 0.7}{100} }
\\ & = \sqrt{ \frac{0.21}{100} }
\\ & = \sqrt{ \frac{21}{10000} }
\\ & = \frac{ \sqrt{21} }{ 100 }
\\ & = 0.0458
\end{align*}\]※ 計算時、\( p = \hat{p} \) としてOK。

あとは、公式を使えば、ねこの得票率も推定できます。

\[
\hat{p} - z_0 \times \sigma \leqq p \leqq \hat{p} + z_0 \times \sigma
\]

[i] 信頼度95%のとき（\( z_0 = 1.96 \)）

\[
0.3 - 1.96 \times 0.0458 \leqq p \leqq 0.3 + 1.96 \times 0.0458
\]\[
0.210 \leqq p \leqq 0.390
\]よって、信頼度95%で区間推定した場合、ねこの得票率は 21.0%〜39.0% となります。

[ii] 信頼度99%のとき（\( z_0 = 2.58 \)）

\[
0.3 - 2.58 \times 0.0458 \leqq p \leqq 0.3 + 2.58 \times 0.0458
\]\[
0.182 \leqq p \leqq 0.418
\]よって、信頼度95%で区間推定した場合、ねこの得票率は 18.2%〜41.8% となります。

★ いぬの得票率の区間推定

同じように、いぬの得票率も区間推定してみましょう。

まずは、調査した100人での投票結果から、いぬの得票率の標準偏差を求めましょう。

調査した人数 \( n = 100 \)、100人の調査内でのいぬ得票率 \( \hat{p} = 0.2 \) から、標準偏差 \( \sigma \) は次のように計算できます。

\[\begin{align*}
\sigma & = \sqrt{ \frac{p(1-p)}{n} }
\\ & = \sqrt{ \frac{0.2 \times 0.8}{100} }
\\ & = \sqrt{ \frac{0.16}{100} }
\\ & = \sqrt{ \frac{16}{10000} }
\\ & = \frac{ 4 }{ 100 }
\\ & = 0.04
\end{align*}\]※ 計算時、\( p = \hat{p} \) としてOK。

あとは、公式を使えば、いぬの得票率も推定できます。

\[
\hat{p} - z_0 \times \sigma \leqq p \leqq \hat{p} + z_0 \times \sigma
\]

[i] 信頼度95%のとき（\( z_0 = 1.96 \)）

\[
0.2 - 1.96 \times 0.04 \leqq p \leqq 0.2 + 1.96 \times 0.04
\]\[
0.122 \leqq p \leqq 0.278
\]よって、信頼度95%で区間推定した場合、いぬの得票率は 12.2%〜27.8% となります。

[ii] 信頼度99%のとき（\( z_0 = 2.58 \)）

\[
0.2 - 2.58 \times 0.04 \leqq p \leqq 0.2 + 2.58 \times 0.04
\]\[
0.097 \leqq p \leqq 0.303
\]よって、信頼度95%で区間推定した場合、いぬの得票率は 9.7%〜30.3% となります。

★ あざらしの得票率の区間推定

最後に、あざらしの得票率も区間推定してみましょう。

まずは、調査した100人での投票結果から、あざらしの得票率の標準偏差を求めましょう。

調査した人数 \( n = 100 \)、100人の調査内でのねこ得票率 \( \hat{p} = 0.1 \) から、標準偏差 \( \sigma \) は次のように計算できます。

\[\begin{align*}
\sigma & = \sqrt{ \frac{p(1-p)}{n} }
\\ & = \sqrt{ \frac{0.1 \times 0.9}{100} }
\\ & = \sqrt{ \frac{0.09}{100} }
\\ & = \sqrt{ \frac{9}{10000} }
\\ & = \frac{ 3 }{ 100 }
\\ & = 0.03
\end{align*}\]※ 計算時、\( p = \hat{p} \) としてOK。

あとは、公式を使えば、ねこの得票率も推定できます。

\[
\hat{p} - z_0 \times \sigma \leqq p \leqq \hat{p} + z_0 \times \sigma
\]

[i] 信頼度95%のとき（\( z_0 = 1.96 \)）

\[
0.1 - 1.96 \times 0.03 \leqq p \leqq 0.1 + 1.96 \times 0.03
\]\[
0.041 \leqq p \leqq 0.159
\]よって、信頼度95%で区間推定した場合、あざらしの得票率は 4.1%〜15.9% となります。

[ii] 信頼度99%のとき（\( z_0 = 2.58 \)）

\[
0.1 - 2.58 \times 0.03 \leqq p \leqq 0.1 + 2.58 \times 0.03
\]\[
0.023 \leqq p \leqq 0.177
\]よって、信頼度99%で区間推定した場合、あざらしの得票率は 2.3%〜17.7% となります。

今まで求めた結果をすべて表にすると、次の結果となります。

表. 信頼度95%での各候補者の得票率推定結果

表. 信頼度99%での各候補者の得票率推定結果

この結果を見ると、信頼度95%、99%ともに得票率1位のうさぎの信頼区間と、得票率2位のねこの信頼区間で重なっている部分がありますね。

そのため、この結果だけでは「明らかにうさぎが一番票が集まっている（＝当選確実）」とは言えません。

(5) 信頼区間を狭めるには？

出口調査などで得られた信頼区間は、得票率の推定範囲を示します。しかし、もし信頼区間が広すぎると、候補者間で得票率が重なり、誰が一番票を集めているか（つまり、誰が当選するか）を確定するのが難しくなります。これを防ぐためには、信頼区間を狭めることが必要です。

ここからは、信頼区間を狭めるために何をすればよいかを考えてみましょう。

信頼区間を狭めるためには、まず標準偏差 \( \sigma \) を小さくする必要があります。標準偏差はデータのばらつきを示す指標であり、この値が小さくなると、得票率の推定値のばらつきが小さくなり、信頼区間も狭くなります。

まず、標準偏差 \( \sigma \) は次のように計算されます。\[
\sigma = \sqrt{ \frac{p(1-p)}{n} }
\]

ここで、\( p \), \( n \) は以下のとおりです。

\( p \): 得票率
※ 出口調査での得票率 \( \hat{p} \) で計算する。
\( n \): 調査した人数

[i] 得票率 \( \hat{p} \) は操作できない

まず、\( \hat{p} \)（出口調査内での得票率）を変えることはできません。なぜなら、得票率は実際の出口調査から導かれる数値だからです。

言い換えると、候補者に対する投票がどれくらいだったかは調査結果から決まってしまっているので、得票率を操作することは不可能です。

[ii] 調査する人数 \( n \) は増やすことができる

一方で、調査人数 \( n \) は増やすことが可能です。調査人数を増やすことで、標準偏差を小さくすることができるため、信頼区間を狭くすることができます。

なぜなら、標準偏差の式を見ると、\( n \) が分母にあるため、\( n \) を大きくすると分母が小さくなり、全体の値が小さくなるからです。つ

まり、調査人数を増やすことで、標準偏差 \( \sigma \) を小さくでき、その結果、得票率の信頼区間も狭くなるのです。

具体例を見てみよう

では、調査人数 \( n \) を増やすことで、標準偏差と信頼区間がどのように変化するか、具体的に見てみましょう。

先ほど、調査人数が100人のときの、うさぎの得票率の95%信頼区間は次のように求められましたね。（30.4%〜49.6%、40.0% ± 9.6%）\[
0.304 \leqq p \leqq 0.496
\]

ここで、調査人数を4倍の400人に増やしたとしましょう（得票率は変化なし）。すると、新しい標準偏差 \( \sigma' \) は、調査内での得票率 \( \hat{p} = 0.4 \)、調査した人数 \( n = 400 \) より、次のように求められます。

\[\begin{align*}
\sigma' & = \sqrt{ \frac{p(1-p)}{n} }
\\ & = \sqrt{ \frac{0.4 \times 0.6}{400} }
\\ & = \sqrt{ \frac{0.24}{400} }
\\ & = \sqrt{ \frac{24}{40000} }
\\ & = \frac{ 2 \sqrt{6} }{ 200 }
\\ & = \frac{ \sqrt{6} }{ 100 }
\\ & = 0.0245
\end{align*}\]※ 計算時、\( p = \hat{p} \) としてOK。

よって、新しい信頼区間は、次のように計算できます。

\[
\hat{p} - z_0 \times \sigma' \leqq p \leqq \hat{p} + z_0 \times \sigma'
\]\[
0.4 - 1.96 \times 0.0245 \leqq p \leqq 0.2 + 1.96 \times 0.0245
\]\[
0.352 \leqq p \leqq 0.448
\]

よって、95%信頼区間は 35.2%〜44.8% (40.0 ± 4.8%) となり、調査人数を4倍の400人に増やすことで、信頼区間の幅が元の信頼区間 40.0% ± 9.6% の半分に狭まっていることがわかりますね。

同じように、調査人数を4倍の400人に増やした場合のうさぎの得票率の99%信頼区間、および残りの候補者（ねこ、いぬ、あざらし）の信頼区間についても求めていきましょう。

すると、次の結果が得られます。

★ 95%信頼区間結果

★ 99%信頼区間結果

この結果を見てみると、信頼度95%での区間推定では、得票率1位の「うさぎ」の信頼区間と、得票率2位の「ねこ」の信頼区間が完全に重なっていないことがわかります。具体的には、うさぎの信頼区間はねこの信頼区間の外側にあり、重なる部分が全くありません。これは、「95%の確率でうさぎが一番票を集めている」と自信を持って言えることを意味します。

しかし、信頼度99%での区間推定では、状況が異なります。うさぎの信頼区間とねこの信頼区間が一部重なっているため、「99%の確率でうさぎが一番票を集めている」という断言はできません。なぜなら、信頼度99%の範囲では、ねこが一番票を集めている可能性も含まれてしまうからです。

ここで、調査人数を増やすと、信頼区間はどのようなるかを文字式を使った形で、一般化してみましょう。

調査人数と信頼区間の関係

調査人数を \( a^2 \) 倍にすると、得票率の標準偏差は \( \frac{1}{a} \) 倍となる。

そのため、得票率の信頼区間の幅も \( \frac{1}{a} \) 倍となる。

調査人数	信頼区間
元の人数	\( \hat{p} - z_0 \sigma \leqq p \leqq \hat{p} + z_0 \sigma \) \( \hat{p} \pm z_0 \sigma \)
元の人数の \( a^2 \) 倍	\( \hat{p} - \frac{1}{a} z_0 \sigma \leqq p \leqq \hat{p} + \frac{1}{a} \sigma \) \( \hat{p} \pm \frac{1}{a} z_0 \sigma \)

★ 簡単な導出

元の人数のときの標準偏差\[
\sigma = \sqrt{ \frac{p(1-p)}{n} }
\]

人数を \( \textcolor{red}{a^2} \) 倍にした場合の標準偏差\[\begin{align*}
\sigma' & = \sqrt{ \frac{p(1-p)}{ \textcolor{red}{a^2} n} }
\\ & = \sqrt{ \frac{1}{a^2} \times \frac{p(1-p)}{ n} }
\\ & = \sqrt{ \frac{1}{a^2} } \times \sqrt{ \frac{p(1-p)}{ n} }
\\ & = \frac{1}{ \sqrt{ a^2 } } \times \sqrt{ \frac{p(1-p)}{ n} }
\\ & = \frac{1}{ a } \times \sqrt{ \frac{p(1-p)}{ n} }
\\ & = \frac{1}{ a } \sigma
\end{align*}\]

3. 確実に当選確実を出すためには何人の調査が必要？

出口調査を行う目的は、得票率を推定し、候補者の当選確実性を判断することです。

しかし、調査の結果が精度良くないと、「誰が当選するか」を確実に判断することができません

では、「確実に当選確実を出すためには、何人の調査が必要なのか？」という疑問を解決していきましょう。

(1) 得票率がある程度予測できる場合

まず、候補者の得票率がある程度わかっている場合、つまり、出口調査の初期結果からある程度の予測投票率 \( \hat{p} \) がわかっているときに、どれくらいの人数を調査すれば良いかを計算します。

例えば、事前調査にて、うさぎ、ねこ、いぬ、あざらしの得票率が40%、30%、20%、10%程度になることがわかっていたとします。

この情報を元に、信頼度99%で当選確実を言うためには、得票率が高いうさぎ、ねこの信頼区間を重複させないようにする必要があります。

ここで、事前調査でうさぎの得票率が40%、ねこの得票率が30%であると予測されているため、得票率の信頼区間が±5%と設定すれば、うさぎの得票率が約35%～45%となり、ねこの得票率が約25%～35%となるため、信頼区間が重ならないようにすることができ、うさぎの当選確実を予測することができます。

[i] 必要な調査人数の計算1

では、実際に「当選確実を出すために、どれくらいの調査人数が必要か」を計算してみましょう。

今回のケースでは、信頼度99% で「うさぎが当選する確率を確実に知りたい」という状況を考えます。目標は、99%信頼区間の幅が ±5% 以内に収まるような調査人数の最小値を求めることです。

まず、得票率 \( \hat{p} = 0.4 \) が予測できているため、標準偏差は次の式で計算できます。\[
\sigma = \sqrt{ \frac{p(1-p)}{n} }
\]

ここで、\( n \) が大きいので、\( \hat{p} = p \) で近似できます。そのため、標準偏差 \( \sigma \) を次のように求めることができます。\[\begin{align*}
\sigma & = \sqrt{ \frac{0.4 \times 0.6}{n} }
\\ & = \sqrt{ \frac{0.24}{n} }
\\ & = \sqrt{ \frac{24}{100n} }
\\ & = \frac{ \sqrt{24} }{ \sqrt{100} \times \sqrt{n} }
\\ & = \frac{ 2 \sqrt{6} }{ 10 \sqrt{n} }
\\ & = \frac{ \sqrt{6} }{ 5 \sqrt{n} }
\end{align*}\]

ここで、信頼度99%なので、\( z_0 = 2.58 \) です。そのため、信頼区間が±5%となるように、以下の不等式を満たす調査人数 \( n \) を求めます。\[
z_0 \times \sigma \leqq 0.05
\]\[
2.58 \times \frac{ \sqrt{6} }{ 5 \sqrt{n} } \leqq 0.05
\]\[
2.58 \times \frac{ \sqrt{6} }{ 5 } \leqq 0.05 \sqrt{n}
\]\[
2.58 \times \frac{ \sqrt{6} }{ 5 \times 0.05 } \leqq \sqrt{n}
\]\[
2.58 \times 4 \sqrt{6} \leqq \sqrt{n}
\]\[
\sqrt{639.014} \leqq \sqrt{n}
\]\[
n \geqq 639.014
\]

このように、信頼区間を±5%に収めるためには、調査人数が640人以上必要であることがわかります。

[ii] 必要な調査人数の計算2

同等の計算を、得票率 \( \hat{p} = 0.3 \) が予測されているねこに対しても実施します。

すると、つぎの計算式となります。\[
z_0 \times \sqrt{ \frac{ 0.3 \times 0.7 }{n} } \leqq 0.05
\]\[
2.58 \times \sqrt{ \frac{ 0.21 }{n} } \leqq 0.05
\]

この式を解くと、調査人数 \( n \) の下限は以下のように求まります。\[
n \geqq 559.138
\]

つまり、ねこの信頼区間を±5%に収めるためには、調査人数が560人以上必要であることがわかります。

結論のまとめ

[i], [ii] の結果をあわせると、調査人数を640人以上とすることで、うさぎの信頼区間、ねこの信頼区間をともに±5%に収めることができます。

そのため、調査人数を640人以上にすることで、確実に当選確実を言うことができます。

実際に、調査人数を640人にして得票率を区間推定すると、次のような結果が得られます。

確かに、99%信頼区間が重複しておらず、うさぎが当選者（＝一番投票されている）といえますね。

★ 実は、ねこの計算はしなくてもOK

なお、ねこの信頼区間を±5%に収めるための計算は、実際には不要です。理由は次の通りです。

得票率が50%に近いほど、標準偏差が大きくなるため、信頼区間が広くなります。
逆に、得票率が50%から離れるほど、標準偏差が小さくなるため、信頼区間が狭くなります。

したがって、40%のうさぎに対して640人の調査が必要であれば、30%のねこに対しては、さらに多くの調査人数が必要になることはありません。そのため、ねこに対する計算は省略可能です。

実際、ねこの信頼区間も±5%に収まるために必要な人数は「560人以上」と、640人よりも小さい値となっています。

★ 得票率が50%に近いほど、信頼区間が大きくなる理由

得票率が50%に近いほど、信頼区間が広くなる理由を確認しておきましょう。\[
\hat{p} - z_0 \times \sigma \leqq p \leqq \hat{p} + z_0 \times \sigma
\]

まず、標準偏差の式は次の通りでしたね。\[
\sigma = \sqrt{ \frac{\textcolor{red}{p(1-p)}}{n} }
\]

この式の分子部分、\( \textcolor{red}{p(1-p)} \) に注目します。これを平方完成すると、つぎの式が導出できます。\[\begin{align*}
p(1-p) & = p-p^2
\\ & = - \left( p - \frac{1}{2} \right)^2 + \frac{1}{4}
\end{align*}\]

この式から、\( p = \frac{1}{2} \) のときに \( p(1-p) \) が最大値を取ることがわかります。

したがって、得票率が50%のときに、標準偏差が最も大きくなり、信頼区間も最も広くなる事がわかります。

(2) 得票率が全く予測できない場合

候補者の得票率が全く予測できない場合、どのように対処すればよいかを考えてみましょう。

このような場合、得票率が最も不確実な状況として50%（0.5）を仮定します。

なぜなら、得票率が50%のときにばらつきが最大となり、信頼区間が最も広くなるからです。この仮定をすることで、最も広い信頼区間を確保するための最悪のケースとして取り扱うことができます。

★ 必要な調査人数の計算

では、実際に「当選確実を出すために、どれくらいの調査人数が必要か」を計算してみましょう。

前提条件として、信頼度99%で「うさぎが当選する確率を確実に知りたい」という状況を考えます。ただし、得票率が全く予測できていないため、信頼区間の幅を±3%以内に収めたいと仮定します。

まず、得票率 \( \hat{p} = 0.5 \) と仮定しているため、標準偏差は次のようにで計算できます。\[
\sigma = \sqrt{ \frac{p(1-p)}{n} }
\]

ここで、調査人数 \( n \) が大きいため、近似的に \( \hat{p} = p \) とみなすことができます。したがって、標準偏差 \( \sigma \) は次のように求められます。

\[\begin{align*}
\sigma & = \sqrt{ \frac{0.5 \times 0.5}{n} }
\\ & = \sqrt{ \frac{0.25}{n} }
\\ & = \sqrt{ \frac{1}{4n} }
\\ & = \frac{ \sqrt{1} }{ \sqrt{4} \times \sqrt{n} }
\\ & = \frac{ 1 }{ 2\sqrt{n} }
\end{align*}\]

次に信頼度99%の場合の \( z_0 = 2.58 \) を使って、信頼区間の幅が±3%に収めるために必要な調査人数 \( n \) を求めます。

つまり、信頼区間の幅が±3%であるため、次の不等式を満たすような最小の \( n \) を求めればOKです。\[
z_0 \times \sigma \leqq 0.03
\]

ここから、代入して式を整理していきます。\[
2.58 \times \frac{ 1 }{ 2\sqrt{n} } \leqq 0.03
\]\[
2.58 \times \frac{ 1 }{ 2 } \leqq 0.03 \sqrt{n}
\]\[
2.58 \times \frac{ 1 }{ 2 \times 0.03 } \leqq \sqrt{n}
\]\[
43 \leqq \sqrt{n}
\]\[
\sqrt{1849} \leqq \sqrt{n}
\]\[
n \geqq 1849
\]

したがって、得票率が全く予測できない場合に、信頼区間を±3%に収めるためには、調査人数が少なくとも1849人以上必要であることがわかります。

4. まとめ：出口調査時のポイント

今回は、出口調査から得票率を正確に抽出し、当選確実を出すための仕組みについて、数学的な視点も含めて解説しました。

出口調査は、選挙や投票後に得票率を予測する重要な手段ですが、調査の方法を誤ると、誤った結果を導くことになります。そこで、出口調査を正確に行うために、以下の重要なポイントに注意しましょう。

ポイント1. 特定の地域や年代に偏った調査とならないこと

出口調査では、いろいろな地域、年代の人に実施してもらうことが重要です。

★ 重要な理由

特定の街に住んでいる人や特定の年代の人だけに調査を行うと、その結果が全体の投票結果を正確に反映しません。

例えば、ある街の住民のみを対象に調査をすると、その地域特有の意見が全体の傾向として誤って扱われてしまいます。

そのため、出口調査の結果が偏り、実際の選挙結果と異なる誤った結論に繋がる可能性があります。

★ 対策

様々な地域、年代、性別など、さまざまな背景を持つ有権者をランダムに選んで調査を実施し、偏りをなくすようにしましょう。

ポイント2. 出口調査をする人は無作為に決めること

調査対象者をランダムに選ぶことが重要です。出口調査を実施する際に、特定の人物を意図的に選んで調査を行うと、その結果が偏り、全体の得票傾向を反映しない可能性があります。

★ 重要な理由

もし調査対象者が特定の意見を持つ人々だけに偏っていると、その結果が他の有権者層の意見を正確に反映しません。

例えば、「10人に1人おきに調査を実施する」などの方法で、無作為に調査対象者を選ぶことが基本です。

意図的に調査対象者を選ぶことで、ある候補者を支持している人だけに調査が集中することになり、調査結果が偏ってしまいます。

★ 対策

調査対象者は完全にランダムに選び、全ての有権者層を公平に反映させるようにしましょう。

ポイント3. 様々な時間帯で調査をすること

出口調査は、できるだけ多くの時間帯で実施することが求められます。投票の時間帯によって投票者の層が変わるため、特定の時間帯に偏らないように調査を行う必要があります。

★ 重要な理由

例えば、投票所が閉まる直後に調査を実施すると、昼間に投票した高齢者層や、早朝に投票した働き手層の意見が反映されにくくなります。

また、特定の時間帯にのみ調査を行うと、夜間に投票した若い人々や、昼間の時間帯に投票した主婦層など、投票者層が偏ってしまう恐れがあります。

その結果、出口調査の結果が全体の投票結果と異なる偏ったものになってしまいます。

★ 対策

投票が行われているすべての時間帯でランダムに調査を実施し、時間帯による偏りを防ぎましょう。

調査の失敗例: 1936年アメリカ大統領選挙の誤り—「リッパマンの大失敗」

1936年のアメリカ大統領選挙は、世論調査の歴史における有名な誤りの事例として広く知られています。この事例を通じて、調査における偏りがどれだけ重大な影響を与えるかを学びましょう。

この選挙では、民主党候補のフランクリン・D・ルーズベルト（以下、ルーズベルト）と、共和党候補のアルフレッド・L・ランドン（以下、ランドン）が対決しました。

当時、調査会社「リッパマン（Lippmann）」が行った世論調査では、ランドン候補が勝利し、ルーズベルト候補が敗北すると予測していました。しかし、実際にはルーズベルトが圧倒的な勝利を収め、リッパマン社の予測とは全く異なる結果が出ました。

★ なぜ予測が外れたのか？

リッパマン社の予測が外れた主な理由は、調査対象に偏りがあったことにあります。具体的には、彼らが使用した調査方法に問題がありました。

リッパマン社は、電話調査を用いて選挙の結果を予測しました。彼らは、電話を所有している層が全体の投票意向を反映していると仮定して調査を行ったのですが、これは明らかに誤りでした。

当時、電話の普及率は非常に低く、特に都市部に住む裕福な層が主に電話を所有していました。そのため、調査結果は裕福な層の意見に偏ってしまったのです。

裕福な層は共和党のランドン候補を支持していた一方、貧困層や農村部に住む有権者は、民主党のルーズベルト候補を支持していました。電話調査では、裕福な層の意見だけが反映され、貧困層や農村部の意見が十分に調査に含まれなかったため、リッパマン社の予測が外れたのです。

この事例からもわかるように、出口調査を行う際には調査対象の偏りを避けることが非常に重要です。以下の3つのポイントを守ることで、偏りのない調査が実現できます。

★ 3つのポイント

ポイント1. 特定の地域や年代に偏った調査とならないこと
様々な地域や年代の人々から均等にサンプルを取ることが重要です。特定の地域や年代に偏ると、全体の投票結果を正確に反映できません。

ポイント2. 出口調査をする人は無作為に決めること
出口調査の対象者は無作為に選び、意図的に特定の人々を調査対象にしないようにしましょう。これによって、偏りがなくなり、より正確な結果が得られます。

ポイント3. 様々な時間帯で調査を実施すること
投票所が開いている時間帯によって、有権者の属性が異なる可能性があります。したがって、調査は様々な時間帯で行うべきです。特定の時間帯にだけ調査を行うと、特定の有権者層に偏った結果が得られます。

注釈[+]

注釈
↑1	料理全部を食べて確認するなんてことをしたら、振る舞う料理がなくなってしまいます。
↑2	あるデータを \( a \) 倍すると、その分散は \( a^2 \) となるため。今回は \( a = \frac{1}{n} \) である。
↑3	例えば、信頼度95%で区間推定した場合は、「95%信頼区間」と書きます。

うさぎでもわかる確率・統計　単回帰分析

ももうさ — Sun, 29 Sep 2024 10:34:24 +0000

回帰分析とは、ある要素を、他の要素を用いて関係を要約するための方法で、統計検定2級では頻出の分野です。

本記事では、回帰分析の中でも最も基本的な「単回帰分析」について勉強していきましょう。

1. 単回帰分析とは

単回帰分析は、ある要素（目的変数と呼びます）を1つの要素（説明変数と呼びます）を使って、目的変数との関係をモデル化する手法です。

実際にどんなものなのかは、見てもらった方がはやいと思うので、実際に見てみましょう。

ここに、20人分の「テストの点数」と「勉強時間」をまとめたデータがあります。

学生番号	勉強時間 (h)	点数 (点)	学生番号	勉強時間 (h)	点数 (点)
1	2.1	48	11	4.7	80
2	3.5	76	12	3.8	55
3	1.0	34	13	2.4	66
4	4.2	70	14	6.5	82
5	5.0	72	15	7.0	86
6	6.1	80	16	4.0	62
7	2.9	60	17	1.5	40
8	3.0	53	18	5.5	74
9	7.5	79	19	6.9	75
10	5.8	80	20	3.2	55

このデータをプロットしてみましょう。勉強時間を横軸（X軸）に、テストの点数を縦軸（Y軸）に取って、データポイントを散布図として描きます。

すると、勉強時間とテストの点数に対して、このような直線的な関係が成り立ちそうに見えますね。

このように、「説明変数と目的変数の関係を1本の直線的な関係で要約」するのが単回帰分析なのです。

2. 単回帰分析の数式化（単回帰式）

単回帰分析では、2つの要素を、次のような直線的な関係で表します。

ここで、\( x \) は説明変数と呼ばれ、予測に使用されます。また、\( y \) は目的変数と呼ばれ、説明変数から予測される結果を表します。

また、モデルの式は、説明変数 \( x \) が変わるとどのように目的変数 \( y \) が変わるか示しています。

ここで、式の中の \( \alpha \) は切片（定数項）と呼ばれ、説明変数 \( x \) が0のときの目的変数 \( y \) の値を表します。また、\( \beta \) は回帰係数（傾き）と呼ばれ、説明変数 \( x \) が1変化すると、目的変数 \( y \) がどの程度変化するかを表します。

例えば、説明変数を「勉強時間」、目的変数を「テストの点数」とした場合、次のような関係を想定できます。

勉強時間が0のとき、テストの点数は \( \alpha \) となる。
1時間勉強時間を増やすと、テストの点数は \( \beta \) 増える。

★ 単回帰モデルと誤差

単回帰モデルで2つの要素の関係を完璧に表すことは極めて難しいです。

実際には、直線的な関係で示す際に、実際には観測された値 \( y \) とモデルによって予測された値 \( \alpha + \beta x \) に誤差が生じます。

そこで、直線的な関係に誤差 \( u \) を加えてつぎのように表した形単回帰分析のモデルとなります。\[
y = \alpha + \beta x + u
\]このモデルを単回帰式と呼ぶことにしましょう。

単回帰分析の基本的なモデル（単回帰式）

\[
y = \alpha + \beta x + u
\]

【変数の意味】

\( \alpha \): 切片（定数項）。つまり \( x = 0 \) のときの \( y \) の値。
\( \beta \): 傾き。説明変数 \( x \) が1増えたときに、\( y \) がどれくらい変化するか。
\( u \): 誤差。実際の値 \( y \) と推定結果 \( \alpha + \beta x \) との差。

最小2乗法によるαとβの導出

実際に、単回帰式の \( \alpha \), \( \beta \) の値を推定する際には、各データごとの誤差 \( u \) を最小にすることを目指します。

具体的には、観測された値と予測された値との差（残差）の2乗和が最小となる用に、\( \alpha \), \( \beta \) を決定します。この方法を最小2乗法と呼びます。

最小2乗法を用いることで、\( \alpha \), \( \beta \) を次のように求めることが出来ます。

最小2乗法を用いたαとβの導出

単回帰分析の基本的なモデル\[
y = \alpha + \beta x + u
\]は、最小2乗法を使うことで、次のように求めることが出来る。

\[
\alpha = \overline{y} - \beta \overline{x}
\]

\[\begin{align*}
\beta & = \frac{ \sum^{n}_{k=1} (x_k - \overline{x})(y_k - \overline{y}) }{ \sum^{n}_{k=1} (x_k - \overline{x})^2 }
\\ & = \frac{ s_{xy} }{ s_x^2 }
\end{align*}\]

【変数の意味】

\( x_k \): 説明変数 \( x \) に関する \( k \) 番目のデータの値
\( y_k \): 目的変数 \( y \) に関する \( k \) 番目のデータの値
\( \overline{x} \): 説明変数 \( x \) の平均値
\( \overline{y} \): 目的変数 \( y \) の平均値
\( s_x^2 \): 説明変数 \( x \) の標本分散（不偏分散ではない）
\( s_{xy} \): 説明変数 \( x \) と目的変数 \( y \) の共分散

3. 単回帰分析の結果の見方

統計検定2級などの試験では、表形式やRの出力から単回帰分析の結果を読み取り、それに基づいて問題を解答することが求められます。

Call:
lm(formula = test_scores ~ study_hours, data = data)

Residuals:
     Min       1Q   Median       3Q      Max 
-10.5372  -3.9049  -0.3117   2.8181  15.0902 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  35.8608     3.9739   9.024 4.23e-08 ***
study_hours   7.1569     0.8428   8.492 1.04e-07 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 7.037 on 18 degrees of freedom
Multiple R-squared:  0.8003,	Adjusted R-squared:  0.7892 
F-statistic: 72.12 on 1 and 18 DF,  p-value: 1.037e-07

※ e+n は \( 10^n \)、e-n は \(10^{-n} \) を表します。例えば、4.23e-08 は \( 4.23 \times 10^{-8} \) を表しています。

言い換えれば、単回帰分析の結果を正しく解釈できれば、試験で得点を確実に稼ぐことができます。

この章では、Rで出力される単回帰分析の結果の見方について紹介していきます。

Rで出力される内容

回帰分析での出力結果は、つぎの4つに分けることが出来ます。

(1) Call: 結果を出すために使ったコマンド

Call:
lm(formula = test_scores ~ study_hours, data = data)

このセクションには、結果を生成するために使用したコマンドが表示されます。

試験においては、解析結果そのものには影響しないため、特に重要視される部分ではありません。

(2) Residuals: 残差の四分位数

Residuals:
     Min       1Q   Median       3Q      Max 
-10.5372  -3.9049  -0.3117   2.8181  15.0902

「残差」とは、各データの実際の観測値と回帰式によって予測された値との差のことを指します。

このセクションでは、残差の四分位数（最小値、第一四分位数、中央値、第三四分位数、最大値）が表示され、データのばらつき具合を把握するのに役立ちます。

今回の出力結果からは、残差の四分位数を以下にように読み取ることができます。

最小値	第1四分位数	中央値	第3四分位数	最大値
-10.5372	-3.9049	-0.3117	2.8181	15.0902

この結果（四分位数の分布）から、残差のばらつきがどれくらい広がっているかを確認できます。

例えば、今回のデータでは残差が-10.5372から15.0902までの範囲に分布していることが分かります。

補足：残差の平均値は必ず0です。これは、最小二乗法で回帰分析を行った場合、残差が正負で相殺されるためです。

(3) Coefficients: 回帰係数の推定結果

ここでは、切片 \( \alpha \) および回帰係数 \( \beta \) の推定結果が示されています。

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  35.8608     3.9739   9.024 4.23e-08 ***
study_hours   7.1569     0.8428   8.492 1.04e-07 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

[i] Estimate: 推定値

単回帰分析において求められた切片 \( \alpha \)、回帰係数 \( \beta \) の推定値です。

単回帰分析のモデル式\[
y = \alpha + \beta x
\]における \( \alpha \), \( \beta \) を具体的に数値として表しています。

今回の推定結果を見ると、\( \alpha = 35.8608 \)、\( \beta = 7.1569 \) ですね。これらの結果から、以下の2つのことが分かります。

勉強時間が0 ( \( x = 0 \) ) のとき、テストの点数は約35.86点となること
勉強時間が1単位(1時間)増えると、テストの点数が約7.16点上昇すること

[ii] Std. Error: 標準誤差

標準誤差は、回帰係数の推定値がどの程度の不確かさを持っているかを表す指標です。値が小さいほど、推定値の信頼性が高いことが分かります。

※ 標準誤差の導出式は統計検定2級レベルでは不要なので、覚えなくてOKです。

[iii] t value, Pr(>|t|): t値、p値

t値は、説明変数の回帰係数が0であるかどうかを検証するための統計量です^[1]定数項に対するt値も出力されますが、定数項が0ではないかどうかを検証することは、実務的にはあまり意味がない場合が多いです。。

また、p値はt値に基づいて、その結果が偶然生じる確率を示しています。言い換えると、p値は「説明変数の回帰係数が0である確率」を表しています。

t値の出力結果を見ることで、「説明変数が目的変数に有意な影響を与えているか」を確認することができます。

具体的には、単回帰分析では以下の仮説検定が行われます。

帰無仮説 \( H_0 \): 仮説検定をするにあたる仮定
→ 説明変数の係数 \( \beta \) が0である。つまり \( \beta = 0 \)。
対立仮説 \( H_0 \): 帰無仮説を否定することで示したいもの。
→ 説明変数の係数 \( \beta \) が0ではない。つまり \( \beta \not = 0 \)。

この検定で帰無仮説が棄却されれば、説明変数は目的変数に有意な影響を与えていると考えられます。逆に棄却されなければ、その説明変数は目的変数に有意な影響を与えないため、モデルに含める必要がないと解釈できます。

【今回の例の場合】

勉強時間の回帰係数に対するt値は 8.492、p値は \( 1.04 \times 10^{-7} \) とp値が一般的な有意水準の5%よりも非常に小さい値を示しています。

そのため、帰無仮説「勉強時間の係数 \( \beta \) が0である」という仮説は棄却され、勉強時間はテストの点数に有意に影響を与えていると結論づけられます。

補足：p値の右側に記載の記号は、p値の大小を表しています。

★ t値の自由度

t値の自由度 \( k_t \) は、サンプルサイズ \( n \) からモデルのパラメータ数（切片 \( \alpha \) と回帰係数 \( \beta \)）を引いたもので決まります^[2]サンプルデータの中で自由に変動できる観測点の数とも言えますね。。

具体的には、以下の式で計算されます。\[
k_t = n - 2
\]

今回のデータの場合、20人のデータから回帰分析を行っているため、自由度 \( k_t \) は次のように計算されます。\[\begin{align*}
k_t & = 20 - 2
\\ & = 18
\end{align*}\]

★ t値の計算方法

t値はつぎの式で計算できます。

※ 帰無仮説で回帰係数を0と仮定しているため、分子に "-0" を記載しています^[3]例えば、回帰係数が2であると帰無仮説で仮定した場合、分子の "-0" の部分は "-2" となります。。

※ 式内の "回帰係数" は、ツールで計算した結果が入ります。

実際に、勉強時間 (study_hours) に対するt値を計算すると、Rで出力されたt値と一致することが分かりますね。

※ t値の自由度、および推定値、標準誤差、t値の関係は統計検定2級で頻出です。頭に入れておきましょう。

(4) 回帰モデルそのものの分析情報

この欄では、単回帰分析全体の結果に対する統計的な分析結果が示されています。

Residual standard error: 7.037 on 18 degrees of freedom
Multiple R-squared:  0.8003,	Adjusted R-squared:  0.7892 
F-statistic: 72.12 on 1 and 18 DF,  p-value: 1.037e-07

具体的には、「分析全体のパフォーマンスを評価するための指標」や「単回帰モデルの当てはまりの良さが出力」されています。これらの結果は、回帰モデルそのものがデータをどの程度説明しているか、またモデルが有意であるかを示しています。

★ 分散分析と回帰分析

目的変数の各値 \( y_k \) は、回帰モデルによって予測される値 \( \alpha + \beta x_k \) と回帰モデルでは説明できないズレ \( u_k \) の和で表すことが出来ます。

言い換えると、各観測値 \( y_k \) を、「予測値 \( \alpha + \beta x_k \)」と「モデルが説明できない誤差（残差） \( u_k \)」の2つに分解することができる、ということです。

ここで、回帰モデルによって予測される値を \( \hat{y}_k \) としましょう。

すると、回帰モデルでは説明できないズレ \( u_k \) は、目的変数の各値 \( y_k \) から回帰モデルによって予測される値 \( \hat{y}_k \) を引いたものとして表されます。

したがって、式を次のように書き換えることが出来ます。

つぎに、目的変数の各データ値 \( y_k \) というのは、平均 \( \overline{y} \) からのばらついていると考えることが出来ます。

このばらつきを明確にするため、先ほどの式をつぎのように書き換えてみましょう。

この式は、観測 \( y_k \) を、「全体の平均値 \( \overline{y} \)」と「回帰モデルで説明できるズレ（説明変動）」、そして「回帰モデルで説明できないズレ（残差変動）」の3つに分解できることを表しています。

さらに、全体の平均 \( \overline{y} \) を基準に考えるために、両辺から \( \overline{y} \) を引きましょう。

回帰変動と残差変動の図示

単回帰分析全体の結果を評価する際には、「回帰変動」と「残差変動」の度合いを使ってさまざまな指標を計算します。

ここで、変動を2つに分解して分析する方法と聞いて、何か思い浮かぶ言葉はありませんか？

そう、一元配置分散分析です。

一元配置分散分析を使うことで、各データの「全変動」を、「回帰による変動（説明変動）」と「残差による変動」の2つに分解し、それぞれが全体の変動にどれほど寄与しているかを分析できるのです。

※ 一元配置分散分析がいまいちよくわからない or 一元配置分散分析ってなんだっけ、となった方は以下の記事にて復習しましょう。

うさぎでもわかる確率・統計　F分布のいろは③　一元配置分散分析

こんにちは、ももやまです。 F分布のいろは①では、「F分布とはどんなものなのか」というところから、「F分布を用いて母分散の比

★ 回帰分析と一元配置分散分析

実際に、回帰分析における一元配置分散分析のステップを確認しましょう。

ここではデータ全体の変動を「回帰変動」と「残差変動」に分けて評価します。

要因	平方和	自由度	平方平均	\( F \) 値
回帰変動	(a) \( S_A \)	\( \phi_A = 1 \)	\( V_A = \frac{ S_A }{ \phi_A } \)	\( \frac{ V_A }{ V_E } \)
残差変動	(b) \( S_E \)	\( \phi_E = n - 2 \)	\( V_E = \frac{ S_E }{ \phi_E } \)	−
全変動	(c) \( S_T \)	\( \phi_T = n - 1 \)	−	−

[i] 平方和

ここで、回帰変動、残差変動、全変動の平方和は次のように計算できます。

(a) 回帰変動：予測値 \( \hat{y}_k \) と平均値 \( \overline{y} \) の差の2乗の総和
（回帰モデルが説明できる部分の変動）

\[\begin{align*}
S_A & = \sum^{n}_{k = 1} \left( \hat{y}_k - \overline{y} \right)^2
\end{align*}\]

(b) 残差変動：観測値 \( y_k \) と予測値 \( \hat{y}_k \) の差の2乗の総和
（回帰モデルが説明できない部分の変動）

\[\begin{align*}
S_E & = \sum^{n}_{k = 1} \left( y_k - \hat{y}_k \right)^2
\end{align*}\]

\[\begin{align*}
S_T & = \sum^{n}_{k = 1} \left( y_k - \hat{y}_k \right)^2
\end{align*}\]

注意: 全体変動 \( S_T \) は、回帰変動 \( S_A \) と残差変動 \( S_E \) の和に等しくなります。\[
S_T = S_A + S_E
\]

[ii] 自由度

回帰変動の自由度：説明変数の数です。単回帰分析では、説明変数が1つなので常に1です^[4]一元配置分散分析では、自由度を「グループ数 - 1」としますが、回帰分析において自由度を「説明変数 - 1 = … Continue reading。\[
\phi_A = 1
\]

残差変動の自由度：データ数からモデルのパラメータ数を引いたもの。単回帰分析では、モデルのパラメータ数は2つ（切片 \( \alpha \) と回帰係数 \( \beta \)）なので、常に \( n-2 \) です^[5]回帰分析では、切片 \( \alpha \) と回帰係数 \( \beta \) … Continue reading。\[
\phi_E = n - 2
\]

全体変動の自由度：データ数から1を引いたもの。\[
\phi_T = n - 1
\]

注意: 全体変動の自由度 \( k_T \) は、回帰変動の自由度 \( k_A \) と残差変動の自由度 \( k_E \) の和に等しくなります。\[
\phi_T = \phi_A + \phi_E
\]

[iii] 平方平均

平方和を対応する自由度で割ることで、平方平均が求められます。

回帰変動の平方平均\[
V_A = \frac{ S_A }{ \phi_A }
\]

残差変動の平方平均\[
V_E = \frac{ S_E }{ \phi_E }
\]

[iv] F値

F値は、回帰変動の平方平均 \( V_A \) を残差変動の平方平均 \( V_E \) で割ったもので計算されます。\[
F = \frac{ V_A }{ V_E }
\]

F値が大きければ、回帰モデルが全体的な変動をうまく説明していることを意味します。

★ それぞれの出力の意味

ここでは、Rの出力で得られた結果が一元配置分散分析のどの結果に対応するかを見ていきます。

Residual standard error: 7.037 on 18 degrees of freedom
Multiple R-squared:  0.8003,	Adjusted R-squared:  0.7892 
F-statistic: 72.12 on 1 and 18 DF,  p-value: 1.037e-07

表．回帰変動、残差変動に対する一元配置分散分析の結果

要因	平方和	自由度	平方平均	\( F \) 値
回帰変動	\( S_A \)	\( \phi_A = 1 \)	\( V_A = \frac{ S_A }{ \phi_A } \)	\( F = \frac{ V_A }{ V_E } \)
残差変動	\( S_E \)	\( \phi_E = n- 2 \)	\( V_E = \frac{ S_E }{ \phi_E } \)	−
全体	\( S_T \)	\( \phi_T = n - 1 \)	−	−

[i] Residual standard error:残差の標準誤差 (と自由度)

今回の結果は、残差平方平均 \( V_E \) が7.037、残差の自由度 \( \phi_E \) が18であることを意味しています。

[ii] Multiple R-squared: 決定係数

具体的に、決定係数 \( R^2 \) は全体平方和に対する回帰変動の割合で計算されます。

決定係数は、単回帰モデル同士でモデルの当てはまり具合を比べる際に利用されます。

例えば、今回のデータの場合、決定係数 \( R^2 \) は 0.8003 です。

つまり、このモデルはデータの80.03%の変動を説明できていると言えます。

★ 相関係数と決定係数の関係

相関係数は、説明変数と目的変数の間の直線的の強さを示す指標です。

実は、相関係数の2乗が決定係数となります。

このため、決定係数は説明変数の目的変数の直線的関係の強さを説明しているとも言えます。

[iii] Adjusted R-squared: 自由度調整済み決定係数

※ この項目は重回帰分析で主に使用されます。

説明変数を増やせば増やすほど、回帰モデルで説明できる変動の割合が増えるため、決定係数 \( R^2 \) は、説明変数を増やしていくと大きくなります。

しかし、すべての説明変数が実際に目的変数に影響を与えるわけではないため、意味のない説明変数をやみくもに追加するのは良くありません。

そこで、やみくもに無関係な説明変数を追加してもモデルの評価が不適切に上昇しないように、自由度調整済み決定係数 \(R^2_f \) が登場しました。

\[\begin{align*}
R^2_f & = 1 - \frac{ \frac{S_E}{n-k-1}}{ \frac{S_T}{n-1} }
\\ & = 1 - \frac{S_E}{S_T} \cdot \frac{n-1}{n-k-1}
\\ & = 1 - \frac{n-1}{n-k-1}\left( 1 - R^2 \right)
\end{align*}\]

※ \( n \) は回帰分析に使用したデータ数です。今回の例の場合、\( n = 20 \) です。
※ \( k \) は説明変数の数を表します。単回帰分析の場合は必ず \( k = 1 \) です。

自由度調整済み決定係数を使うことで、単に説明変数を増やすことでモデルが良くなるように見える現象を防ぐことが出来ます^[6]単回帰モデル同士を比較する場合は、説明変数が1つしかないため、自由度調整済み決定係数は使わないことが一般的です。。

今回の出力で示された自由度調整済み決定係数 \( R^2_f \) は 0.7892 ですね。

[iv] F値

F値は、回帰分析において説明変数が目的変数に影響を与えているかどうかを有意であるかどうかを評価するための統計量です。このモデルが信頼できるものかを表していると思っていただけたらOKです。

具体的には、帰無仮説 \( H_0 \) を「説明変数の回帰係数が全て0である」と仮定し、この仮説が成立するかどうかをF値で確認します。

【回帰分析でのF検定】

帰無仮説 \( H_0 \): 説明変数の係数が全て0。つまり \( \beta = 0 \)。
（回帰モデルは無意味）
対立仮説 \( H_1 \): 説明変数の係数に0ではないものがある。つまり \( \beta \not = 0 \)。
（回帰モデルは有意）

この検定の結果が棄却されれば、このモデルが信頼できるものと言えます。一方棄却されなかった場合、このモデル自体が意味ないものだったとも言えてしまいます。

今回のRの出力結果では、次の3つの情報が表示されています。

F値: 72.12
F検定で使用する自由度の組 (1,18)
※ 説明変数の自由度が1、残差の自由度が18
対応するp値: \( 1.037 \times 10^{-7} \)

★ 単回帰モデルにおけるF値とt値の関係

単回帰分析では、F値と t値の関係は次の通りです。

(1) 単回帰分析において F値は説明変数 \( \beta \) に対するt値の2乗となります。
→ 実際に今回の例を見ると、説明変数 \( \beta \) に対するt値は 8.492 です。このt値を2乗すると、\( 8.492^2 = 72.12 \) となり、F値と一致しています。

(2) F検定のp値はt検定のp値と等しくなります。
→ 実際に、F検定のp値は \( 1.04 \times 10^{-7} \) と等しくなっています。

このことから、単回帰分析におけるF検定とt検定の結果は、同じ情報を提供していると言えます。したがって、単回帰分析では、F検定はt検定の結果と同等であるため、あまり独立した役割を果たさないことが多いです。

4. 練習問題にチャレンジ！

では、最後に練習問題にチャレンジしてみましょう！

問題

桃山さんは、ある大学の文化祭の模擬店の売り上げデータを用いて、次の単回帰モデルを推定した。

\[
\mathrm{売上} \ = \alpha + \beta \times \mathrm{部員数}
\]

ここで、「売上」は1日当たりの模擬店の売り上げ（1単位100円）、「部員数」はサークルの部員数を表す。

統計ソフトウェアRを用いて、上記の単回帰モデルを推定したところ、つぎの出力結果を得た。この単回帰モデルをモデル桃山とする。

Call:
lm(formula = sales ~ member, data = data)

Residuals:
    Min      1Q  Median      3Q     Max 
-307.17 -113.49  -29.82  112.01  236.44 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)  307.135    132.697   [ a ]   0.0363 *
member        10.465      [ b ]   2.293   0.0378 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 158.5 on 14 degrees of freedom
Multiple R-squared:  0.2731,	Adjusted R-squared:  0.2211 
F-statistic:[ c ] on [ d ] and [ e ] DF, p-value: 0.03783

ここで、member は部員数を表す変数である。また、出力結果の一部を加工している。つぎの(1)～(6)の問いに答えなさい。

※ 必要であれば、こちらから片側t分布表をダウンロードできます。統計検定受験の方は、こちらの表をお使いください。

※ 必要であれば、こちらから両側t分布表をダウンロードできます。

(1) 出力結果の [ a ] ～ [ e ] に当てはまる数を答えなさい。ただし、[ a ] ～ [ c ] は小数第4位を四捨五入して小数第3位まで、[ d ]、[ e ] は整数で答えること。

(2) 分析に用いたサークル数を答えなさい。

(3) 部員数が50人のサークルの場合、模擬店の売上高は何円と予測されるか。10円単位を四捨五入し、100円単位で答えなさい。

(4) \( \beta \) の値が約20であるという主張が上田さんからあった。この説を検証するため、帰無仮説 \( \beta = 20 \)、対立仮説 \( \beta \not = 20 \) の仮説検定を実施することにした。この仮説検定が棄却される有意水準として、最も小さいものを1～5の中から1つ選びなさい。

(5) この単回帰モデルの結果から読み取れることとして、正しいものをつぎの1～5の選択肢から1つ選びなさい。

残差の中央値は、平均値よりも大きい。
部員数のt値に対応するp値が0.05未満のため、この単回帰モデルはデータの変動をうまく説明できていると言える。
この回帰分析のF値に対応するp値が0.05未満のため、この単回帰モデルはデータの変動をうまく説明できていると言える。
決定係数の値が0.2731なので、この回帰モデルは約27%の確率で売り上げを予測できると言える。
部員数が増えると、売上も上がる傾向がある。

(6) 上田さんは、ある大学の文化祭の模擬店の売り上げデータを、桃山さんとは異なる単回帰モデルで推定した。この単回帰モデルをモデル上田とする。

\[
\mathrm{売上} \ = \alpha + \beta \times \mathrm{部員数}
\]

上田さんの方法で、上記の単回帰モデルを推定したところ、つぎの出力結果を得た。

Call:
lm(formula = sales ~ promtime, data = df)

Residuals:
    Min      1Q  Median      3Q     Max 
-132.15  -97.53  -13.68   82.99  171.74 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   243.85      59.56   4.094  0.00109 ** 
promtime       80.96      13.50   5.999 3.26e-05 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 108.3 on 14 degrees of freedom
Multiple R-squared:  0.7199,	Adjusted R-squared:  0.6999 
F-statistic: 35.98 on 1 and 14 DF,  p-value: 3.262e-05

ここで、モデル桃山とモデル上田を比較した場合、どちらがより良いモデルと言えるか。結論とその理由について述べた文章のうち、最も適切なものを1つ選びなさい。

モデル上田の説明変数 promtime の回帰係数が80.96、モデル桃山の説明変数 member の回帰係数 10.465 なので、説明変数の回帰係数が大きいモデル上田を採用すべきである。
モデル上田の説明変数 promtime の標準誤差が59.56、モデル桃山の説明変数 member の標準誤差が 132.697 なので、説明変数の標準誤差が小さいモデル上田を採用すべきである。
モデル上田の説明変数 promtime のp値が \( 3.26 \times 10^{-5} \) 、モデル桃山の説明変数 member のp値が 0.0363 なので、説明変数のp値が小さいモデル上田を採用すべきである。
モデル上田の決定係数 \( R^2 \) が 0.7199、モデル桃山の決定係数 \( R^2 \) が 0.2731 なので、決定係数がより大きいモデル上田を採用すべきである。
モデル上田のモデルのF検定のp値が \( 3.26 \times 10^{-5} \) 、モデル桃山の説明変数 member のp値が 0.0363 なので、説明変数のp値がより小さいモデル上田がを採用すべきである。

5. 練習問題の答え

Call:
lm(formula = sales ~ member, data = data)

Residuals:
    Min      1Q  Median      3Q     Max 
-307.17 -113.49  -29.82  112.01  236.44 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)  307.135    132.697   [ a ]   0.0363 *
member        10.465      [ b ]   2.293   0.0378 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 158.5 on 14 degrees of freedom
Multiple R-squared:  0.2731,	Adjusted R-squared:  0.2211 
F-statistic:[ c ] on [ d ] and [ e ] DF, p-value: 0.03783

(1)

[a] 解答: 2.315

t値の計算公式を使います。

\[\begin{align*}
t & = \frac{ \mathrm{回帰係数} \ - 0}{ \mathrm{標準誤差} }
\\ & = \frac{307.135}{132.697}
\\ & \fallingdotseq 2.3146
\\ & = 2.315
\end{align*}\]したがって、[a]は 2.315 となります。

[b] 解答: 4.564

[a]と同様に、t値の計算公式を使います。

\[\begin{align*}
t & = \frac{ \mathrm{回帰係数} \ - 0}{ \mathrm{標準誤差} }
\end{align*}\]

したがって、次の式が成り立つような標準誤差を求めればOKです。\[\begin{align*}
2.293 & = \frac{ 10.465 - 0}{ \mathrm{標準誤差} }
\end{align*}\]

この式を変形することで、[b]はつぎのように求められます。

\[\begin{align*}
\mathrm{標準誤差} & = \frac{ 10.465 } { 2.293 }
\\ & = 4.564
\end{align*}\]

つぎの出力結果の [ c ] は回帰分析でのF値、[ d ] は回帰変動の自由度、[ e ] は残差変動の自由度を表しています。

F-statistic:[ c ] on [ d ] and [ e ] DF, p-value: 0.03783

解答: [ c ] 5.258

単回帰分析において、F値は回帰係数のt値の2乗に等しいです。

ここで、説明変数 (member) のt値は、member 行の t value 列より、2.293 と読み取れます。

            Estimate Std. Error t value Pr(>|t|)  
(Intercept)  307.135    132.697   [ a ]   0.0363 *
member        10.465      [ b ]   2.293   0.0378 *

そのため、F値は次のように求められます。\[\begin{align*}
F & = 2.293^2
\\ & = 5.258
\end{align*}\]

したがって、[ c ]には5.258が入ります。

解答: [d] 1

回帰変動の自由度は、説明変数の数に等しいです。

単回帰分析では説明変数は常に1つなので、回帰変動の自由度は1となります。

よって、回帰変動の自由度は1となり、[d]には1が入ります。

ここで、回帰係数のt値は、member 行の t value 列より、2.293 と読み取れます。

解答: [e] 1

残差変動の自由度は、出力結果の on "14" degrees of freedom から読み取れます。

よって、[e] には14が入ります。

(2)

解答: 16

標本サイズ（サークル数）を求める際は、残差変動の自由度の出力に着目します。

出力結果の on "14" degrees of freedom から、残差変動の自由度が 14 と読み取れます。

ここで残差変動の自由度は、標本サイズからモデルのパラメータ数を引くことで求められます。

単回帰分析の場合、モデルのパラメータは切片 \( \alpha \) と回帰係数 \( \beta \) の2つなので、標本サイズ \( n \) と残差の自由度 \( \phi_E \) には次の関係式が成立します。\[
\phi_E = n - 2
\]

出力結果より、残差の自由度が \( \phi_E = 14 \) と読み取れるため、標本サイズ \( n \) はつぎのように計算できます、\[\begin{align*}
n & = \phi_E + 2
\\ & = 14 + 2
\\ & = 16
\end{align*}\]よって、答えは16となります。

(3)

売上の予測値は、単回帰式に部員数を代入して計算できます。

ここで、\( \alpha \), \( \beta \) の値は、出力結果の Estimate から読み取ることができます。

今回の問題の場合、\( \alpha = 307.135 \), \( \beta = 10.465 \) ですね。

よって、以下の方程式に「部員数 = 50」を代入すればOKですね。

\[
\mathrm{売上} \ = 307.135 + 10.465 \times \mathrm{部員数}
\]

実際に代入すると、売上を次のように求めることができます。

\[\begin{align*}
\mathrm{売上} \ & = 307.135 + 10.465 \times 50
\\ & = 830.385
\end{align*}\]

よって、売上高は 830.385 (×100円単位) とわかるので、答えは83,000円となります。

回帰モデルにおける売上の予測値は、回帰方程式に部員数を代入して計算できます。今回の回帰モデルは以下の通りです。

(4)

帰無仮説「回帰係数が20である」という仮定をもとに、t値をつぎの式で計算します。

\[
t = \frac{ \textcolor{deepskyblue}{\mathrm{回帰係数(出力結果)}} -\textcolor{magenta}{20} }{ \textcolor{orange}{\mathrm{標準誤差}} }
\]

ここで、回帰係数(出力結果)、標準誤差は出力結果の member 行から読み取ります。

よって、t値はつぎのように計算できます。

\[\begin{align*}
t & = \frac{ \textcolor{deepskyblue}{\mathrm{回帰係数(出力結果)}} -\textcolor{magenta}{20} }{ \textcolor{orange}{\mathrm{標準誤差}} }
\\ & = \frac{ \textcolor{deepskyblue}{10.465} -\textcolor{magenta}{20} }{ \textcolor{orange}{4.564} }
\\ & = \frac{- 9.535}{4.564}
\\ & = -2.089
\end{align*}\]

ここで、t値の自由度は、標本サイズから回帰モデルのパラメータ数を引いて求めます。標本サイズは16、単回帰モデルのパラメータは切片 \( \alpha \) と回帰係数 \( \beta \) の2つなので、つぎのようにt値の自由度 \( k_t \) を計算できます。\[\begin{align*}
k_t & = 16 - 2
\\ & = 14
\end{align*}\]

つぎ、t分布表の自由度14に対応するt分布の臨界値 \( t_0 \) をt分布表から確認し、\( -t_0 \leqq t \leqq t_0 \) の範囲にt値 \( t \) が含まれない場合は、仮説を棄却します。

選択肢は1%, 5%, 10%, 20%の4つなので、この4つの有意水準に対応する値をt分布表から読み取ります。

有意水準	臨界値となる t値 \( t_0 \)	結論
1%	2.977	棄却されない。 \( - 2.977 \leqq t \leqq 2.977 \) のため。
5%	2.145	棄却されない。 \( - 2.145 \leqq t \leqq 2.145 \) のため。
10%	1.761	棄却される。 \( - 1.761 > t \) のため。
20%	1.345	10%で棄却されるため確認不要。

注意: この検定は両側検定です。そのため、片側t分布表から臨界値 \( t_0 \) を調べる場合は、有意水準を半分とした値が \( \alpha \) となる点に注意が必要です。例えば、有意水準5%となるような \( t_0 \) を読み取るときは、下の図のように \( \alpha = 0.100 \) 列に対応するt値を読み取ります。

したがって、有意水準5%では棄却されませんが、有意水準10%で棄却されることが確認できるため、答えは「3. 10%」です。

(5)

選択肢を1つずつ見ていきましょう。

1. 残差の中央値は平均値よりも大きい

誤りです。今回の残差の中央値は、Residuals のMedian から -29.82 と読み取れます。

ここで、残差の平均値は常に0なので、残差の中央値 (-29.82) は平均値 (0) より小さくなります。

2. 部員数のt値に対応するp値が0.05未満のため、この単回帰モデルはデータの変動をうまく説明できていると言える。

誤りです。t値に対応するp値は、回帰係数が0ではない確率を示すもの（＝説明変数が目的変数に有意な影響を与えているかどうか）であり、モデルがデータの変動をどの程度うまく説明しているかを直接示すものではありません。

3. この回帰分析のF値に対応するp値が0.05未満のため、この単回帰モデルはデータの変動をうまく説明できていると言える。

誤りです。F値に対応するp値も、回帰モデル全体が有意であるかどうかを示すものであり、モデルがデータの変動をうまく説明しているかを示すものではありません。

4. 決定係数の値が0.2731なので、この回帰モデルは約27%の確率で売り上げを予測できると言える。

誤りです。決定係数の値は、モデルの当てはまり度合い（＝データの変動をどれくらいうまく説明しているか）を表しています。予測の正確性を表しているわけではありません。

5. 部員数が増えると、売上も上がる傾向がある。

正しいです。出力結果を見ると、回帰係数 \( beta \) は 10.465 で、正の値を示しています。

そのため、部員数が増えると売上も上がる傾向があると言えます。

(6)

単回帰モデル同士でモデルの良し悪しを比べるときは、決定係数に着目します。

具体的には、決定係数の大小を確認し、より大きい決定係数となるモデルを良いモデルとして選択します。

よって、「4. モデル上田の決定係数 \( R^2 \) が 0.7199、モデル桃山の決定係数 \( R^2 \) が 0.2731 なので、決定係数がより大きいモデル上田が優れていると言える。」が答えとなります。

外挿に注意！

練習問題の(3)にて、算出された単回帰式に、説明変数（勉強時間）を代入して目的変数（テストの点数）を予測することをしました。

このとき、説明変数の観測範囲を超えた範囲で目的変数を予測することを「外挿」と呼びます。一方、説明変数の観測範囲内で目的変数を予測することは内挿と呼びます。

外挿を行う際には、予測の精度が低下する可能性があるため注意が必要です。単回帰式は与えられたデータの範囲内で計算されており、範囲外のデータでも同じ傾向が続くとは限らないからです。

今回紹介した勉強時間とテストの点数の関係の例でいうと、勉強時間が1～8時間のときのデータはありますが、勉強時間が1時間未満の場合や、8時間以上の場合のデータはありません。

そのため、勉強時間が1時間未満の場合や、8時間以上の場合のときにテストの点数を予測することは外挿となります。

注釈[+]

注釈
↑1	定数項に対するt値も出力されますが、定数項が0ではないかどうかを検証することは、実務的にはあまり意味がない場合が多いです。
↑2	サンプルデータの中で自由に変動できる観測点の数とも言えますね。
↑3	例えば、回帰係数が2であると帰無仮説で仮定した場合、分子の "-0" の部分は "-2" となります。
↑4	一元配置分散分析では、自由度を「グループ数 - 1」としますが、回帰分析において自由度を「説明変数 - 1 = 0」とするのは誤りです。一元配置分散分析では、「全グループの平均」を求めることで自由度が1失われるため、「グループ数 - 1」としていました。これに対して、回帰分析では、グループごとの平均に相当するものが与えられているわけではなく、説明変数を使って個別の回帰直線をモデル化しています。そのため、回帰分析では説明変数に対する自由度をそのまま使い、自由度から1を引く必要はありません。
↑5	回帰分析では、切片 \( \alpha \) と回帰係数 \( \beta \) の2つのパラメータを使ってモデルをフィットさせるため、これに対応する自由度が2つ失われます。そのため、残差変動の自由度は「観測データ数 - 2」として計算されます。
↑6	単回帰モデル同士を比較する場合は、説明変数が1つしかないため、自由度調整済み決定係数は使わないことが一般的です。

【標本分散はなぜ n ではなくn-1 で割るの？】うさぎでもわかる確率・統計　不偏推定量

ももうさ — Wed, 11 Sep 2024 14:46:17 +0000

こんにちは、ももやまです。

高校生のデータの分析では、分散を求めるときに、値と平均の差を2乗したものを足して \( n \) で割って求めていましたね。\[
\frac{1}{n} \sum^{n}_{k=1} X_k
\]

しかし、大学で確率・統計や、基礎実験論を学習する際に、標本の分散を計算するとき下のように \( n-1 \) で割った謎の分散が出てきて、頭を困惑させてきます。

でも、ご安心ください。

今回の不偏推定量に関する知識を学ぶことで、標本の分散を求めるときに、何故 \( n \) ではなく \( n - 1 \) で割る分散が必要かが分かるようになります！

1. 推定量とは

母集団内のあるパラメータ（例: 平均 \( \mu \) や分散 \( \sigma^2 \)）の値を知りたいとします。

しかし、パラメータの正解値を知ることは通常ほぼ不可能です。正解値を知るためには、母集団すべてのデータを調べる必要がありますが、全データの収集には多大な時間やコストがかかることが多いからです。

そこで、現実的なアプローチとして、母集団から一部のデータ（＝標本）を無作為に取り出し、その標本から母集団のパラメータを推定します。

このとき、標本データから計算されるパラメータの推定値のことを、推定量と呼びます。表記としては、あるパラメータ \( \theta \) の推定量を \( \hat{\theta} \) のように、元のパラメータに ^ を付けた形で表現します。

2. 不偏推定量とは

例えば、工業で作ったある製品の重さから、「この製品はだいたいこのくらいの重さだな」と推定することを考えます。

このとき、出来る限り偏り（ズレ）なく正確に重さを推定したいですよね。

ここで登場するのが不偏推定量です。不偏推定量とは、推定量の期待値（長期的に何度も標本を取り直して計算した場合の平均値）が、推定対象である母集団の真のパラメータと一致する推定量のことを指します。

言い換えると、推定量の「平均」を複数回標本取って計算してみたとき、その値が母集団の値に一致するような性質を持つものを、不偏推定量と呼びます。

数式で表すと、不偏推定量の次のようになります。\[
E ( \hat{\theta} ) = \theta
\]ここで、\( \theta \) は母集団のパラメータ、\( \hat{\theta} \) はその推定量となります。また、\( E ( \hat{\theta} ) \) は、推定量の期待値を意味します。

この不偏推定量を推定に使うことで、偏り（ズレ）を最小限に抑え、より正確な推定が可能になります。

不偏推定量

母集団のパラメータ \( \theta \) を推定する際に、その推定量と呼び、通常 \( \hat{\theta} \) で表す。

このとき、推定量 \( \hat{\theta} \) の期待値 \( E( \hat{\theta} ) \) が母集団のパラメータ \( \theta \) と等しくなる、すなわち\[
E( \hat{\theta} ) = \theta
\]が成立する推定量を不偏推定量と呼ぶ。

3. 母平均の推定量、母分散の推定量

ここからは、実際に不偏推定量の例として母集団の平均、分散の不偏推定量を確認していきましょう。

(1) 母平均 \( \mu \) の推定量

平均 \( \overline{X} \) は各データ \( \overline{X}_1 \), \( \overline{X}_2 \), … \( \overline{X}_n \) をすべて足してから、データの数 \( n \) で割ることで求めることができます。\[\begin{align*}
\overline{X} & = \frac{1}{n} ( \overline{X}_1 + \overline{X}_2 + \cdots + \overline{X}_n )
\\ & = \frac{1}{n} \sum^{n}_{k = 1} \overline{X}_k
\end{align*}\]

実際に、標本から計算した平均 \( \overline{X} \) が不偏推定量となるか、確認していきましょう。

不偏推定量であることを言うためには、標本平均 \( \overline{X} \) の期待値 \( E ( \overline{X} ) \) が、母平均 \( \mu \) と一致すること、つまり以下の式が成り立つことを示せればOKです。\[
E ( \overline{X} ) = \mu
\]

[i] まずは3つのデータで試してみる

母集団としてつぎの3つの値を持つ集団を考えます。

0, 2, 4

このとき、母平均 \( \mu \) は次のように求められます。\[\begin{align*}
\mu & = \frac{1}{3} (0+ 2+ 4)
\\ & = 2
\end{align*}\]

次に、この母集団から2つのデータを取り出して（復元抽出）標本を作ります。

可能な標本の組み合わせは次の9つです。

データ1	データ2	標本平均
0	0	\[ \frac{1}{2} (\textcolor{red}{0}+\textcolor{blue}{0}) = 0 \]
0	2	\[ \frac{1}{2} (\textcolor{red}{0}+\textcolor{blue}{2}) = 1 \]
0	4	\[ \frac{1}{2} (\textcolor{red}{0}+\textcolor{blue}{4}) = 2 \]
2	0	\[ \frac{1}{2} (\textcolor{red}{2}+\textcolor{blue}{0}) = 1 \]
2	2	\[ \frac{1}{2} (\textcolor{red}{2}+\textcolor{blue}{2}) = 2 \]
2	4	\[ \frac{1}{2} (\textcolor{red}{2}+\textcolor{blue}{4}) = 3 \]
4	0	\[ \frac{1}{2} (\textcolor{red}{4}+\textcolor{blue}{0}) = 2 \]
4	2	\[ \frac{1}{2} (\textcolor{red}{4}+\textcolor{blue}{2}) = 3 \]
4	4	\[ \frac{1}{2} (\textcolor{red}{4}+\textcolor{blue}{4}) = 4 \]

この3つの標本平均の期待値 \( E ( \overline{X} ) \) は、つぎのように求められます。\[\begin{align*}
E ( \overline{X} ) & = \frac{1}{9} \left( 0+1+2+1+2+3+2+3+4 \right)
\\ & = \frac{1}{9} \cdot 18
\\ & = 2
\end{align*}\]

よって母平均 \( \mu = 2 \) と、標本平均の期待値 \( E( \overline{X} ) = 2 \) が一致していることが確認できます。

そのため、不偏推定量の条件 \( E ( \overline{X} ) = \mu \) を満たすことが確認できました。

[ii] 一般化へ

では、一般化した状態で確かめていきましょう。

まず、\( \overline{X} \) を分解します。\[
E ( \overline{X} ) = E \left( \frac{1}{n} ( X_1 + X_2 + \cdots + X_n ) \right)
\]

ここで、期待値の式内にある定数倍は、外に出すことができる性質 \( E(aX) = a E(X) \) を使って、つぎのように式変形ができます。\[
E \left( \frac{1}{n} ( X_1 + X_2 + \cdots + X_n ) \right) = \frac{1}{n} E \left( X_1 + X_2 + \cdots + X_n \right)
\]

さらに、期待値には加法性 \( E( X + Y) = E(X) + E(Y) \) が成り立つので、つぎの式変形も可能です。\[
\frac{1}{n} E \left( X_1 + X_2 + \cdots + X_n \right) = \frac{1}{n} \left\{ E( X_1 ) + E( X_2 ) + \cdots + E( X_n ) \right\}
\]

また、各標本 \( X_k \) の期待値 \( E(X_k) \) は母集団の平均 \( \mu \) に等しいため^[1]各表は、母集団の各要素から等しい確率で選ばれるため（無作為抽出しているため）、標本 \( X_1 \), \( X_2 \), … , \( X_n \) の期待値は \( \mu \) … Continue reading、次のように変形ができます。\[\begin{align*}
\frac{1}{n} \left\{ E( X_1 ) + E( X_2 ) + \cdots + E( X_n ) \right\} & = \frac{1}{n} ( \underbrace{ \mu + \mu + \cdots + \mu }_{ n \ \mathrm{個} } )
\\ & = \frac{1}{n} \cdot \mu n
\\ & = \mu
\end{align*}\]

よって、一般化した状態でも不偏推定量の条件 \( E ( \overline{X} ) = \mu \) が成立することが確認できましたね。

母平均の不偏推定量

母平均 \( \mu \) の不偏推定量は、標本平均 \( \overline{X} \) で表される。

ここで、\( \overline{X} \) は各標本 \( X_k \) を用いて、次のように計算できる。\[\begin{align*}
\overline{X} & = \frac{1}{n} ( X_1 + X_2 + \cdots + X_n )
\\ & = \frac{1}{n} \sum^{n}_{k=1} X_k
\end{align*}\]※ \( n \) は標本サイズを表す。

(2) 母分散 \( \sigma \) の推定量

分散 \( S^2 \) は、標本データの値 \( X_1 \), \( X_2 \), …, \( X_n \) から平均 \( \overline{X} \) との差の2乗を取り、その和を標本の大きさ \( n \) で割ったもので求められます。

\[\begin{align*}
S^2 & = \frac{1}{n} \left\{ ( X_1 - \overline{X} )^2 + ( X_2 - \overline{X} )^2 + \cdots + ( X_n - \overline{X} )^2 \right\}
\\ & = \frac{1}{n} \sum^{n}_{k = 1} ( X_k - \overline{X} )
\end{align*}\]

実際に、標本から計算した分散（標本分散） \( S^2 \) が不偏推定量となるか、確認していきましょう。

不偏推定量であることを言うためには、標本分散 \( S^2 \) の期待値 \( E ( S^2 ) \) が、母分散 \( \sigma^2 \) と一致すること、つまり以下の式が成り立つことを示せればOKです。\[
E ( S^2 ) = \sigma^2
\]

[i] まずは3つのデータで試してみる

先ほどと同じ、つぎの3つの値を持つ集団を考えます。

0, 2, 4

このとき、母平均が \( \mu = 2 \) となることから、母分散 \( \sigma^2 \) は次のように求められます。\[\begin{align*}
\sigma^2 & = \frac{1}{3} \left\{ (0-2)^2 + (2-2)^2 + (4-2)^2 \right\}
\\ & = \frac{1}{3} \cdot 8
\\ & = \frac{8}{3}
\end{align*}\]

ここで、この母集団から2つのデータを取り出し（復元抽出）て標本を作ります。

可能な標本の組み合わせは次の9つです。

データ1	データ2	標本平均	標本分散
0	0	0	\[ \frac{1}{2} \left\{ ( \textcolor{red}{0} - \textcolor{green}{0} )^2 + ( \textcolor{blue}{0} - \textcolor{green}{0} )^2 \right\} = 0 \]
0	2	1	\[ \frac{1}{2} \left\{ ( \textcolor{red}{0} - \textcolor{green}{1} )^2 + ( \textcolor{blue}{2} - \textcolor{green}{1} )^2 \right\} = 1 \]
0	4	2	\[ \frac{1}{2} \left\{ ( \textcolor{red}{0} - \textcolor{green}{2} )^2 + ( \textcolor{blue}{4} - \textcolor{green}{2} )^2 \right\} = 4 \]
2	0	1	\[ \frac{1}{2} \left\{ ( \textcolor{red}{2} - \textcolor{green}{1} )^2 + ( \textcolor{blue}{0} - \textcolor{green}{1} )^2 \right\} = 1 \]
2	2	2	\[ \frac{1}{2} \left\{ ( \textcolor{red}{2} - \textcolor{green}{2} )^2 + ( \textcolor{blue}{2} - \textcolor{green}{2} )^2 \right\} = 0 \]
2	4	3	\[ \frac{1}{2} \left\{ ( \textcolor{red}{2} - \textcolor{green}{3} )^2 + ( \textcolor{blue}{4} - \textcolor{green}{3} )^2 \right\} = 1 \]
4	0	2	\[ \frac{1}{2} \left\{ ( \textcolor{red}{4} - \textcolor{green}{2} )^2 + ( \textcolor{blue}{0} - \textcolor{green}{2} )^2 \right\} = 4 \]
4	2	3	\[ \frac{1}{2} \left\{ ( \textcolor{red}{4} - \textcolor{green}{3} )^2 + ( \textcolor{blue}{2} - \textcolor{green}{3} )^2 \right\} = 1 \]
4	4	4	\[ \frac{1}{2} \left\{ ( \textcolor{red}{4} - \textcolor{green}{4} )^2 + ( \textcolor{blue}{4} - \textcolor{green}{4} )^2 \right\} = 0 \]

よって、標本分散 \( S^2 \) の期待値 \( E ( S^2 ) \) は、つぎのように求められます。\[\begin{align*}
E ( S^2 ) & = \frac{1}{9} \left( 0+1+4+1+0+1+4+1+0 \right)
\\ & = \frac{1}{9} \cdot 12
\\ & = \frac{4}{3}
\end{align*}\]

あれ？　母分散 \( \sigma^2 = \frac{8}{3} \) と、標本平均の期待値 \( E( S^2 ) = \frac{4}{3} \) が一致しませんね。

よって、不定推定量 \( E( \sigma^2 ) = S^2 \) を満たさないので、不偏推定量とは言えませんね。

[ii] 一般化した状態で確認

一般化した状態でも計算してみましょう。

まず、\( X_k - \overline{X} \) を2つの項 \( a \), \( b \) に分解します。\[
X_k - \overline{X} = \underbrace{ (X_k - \mu) }_{a} - \underbrace{ ( \overline{X} - \mu ) }_{b}
\]

ここから、\( E ( S^2 ) \) を3つの項に分解していきます。\[\begin{align*}
E ( S^2 ) & = E \left( \frac{1}{n} \sum^{n}_{k=1} (X_k - \overline{X} )^2 \right)
\\ & = E \left( \frac{1}{n} \sum^{n}_{k=1} \left\{ \underbrace{ (X_k - \mu) }_{a} - \underbrace{ ( \overline{X} - \mu ) }_{b} \right\}^2 \right)
\\ & = E \left( \frac{1}{n} \sum^{n}_{k=1} (a^2 - 2ab + b^2) \right)
\\ & = E \left( \frac{1}{n} \sum^{n}_{k=1} a^2 - \frac{2}{n} \sum^{n}_{k=1} ab + \frac{1}{n} \sum^{n}_{k=1} b^2 \right)
\\ & = E \left( \frac{1}{n} \sum^{n}_{k=1} (X_k - \mu)^2 \right) - E \left( \frac{2}{n} \sum^{n}_{k=1} (X_k - \mu)( \overline{X} - \mu) \right) + E \left( \frac{1}{n} \sum^{n}_{k=1} ( \overline{X} - \mu )^2 \right)
\end{align*}\]

ここで、分解した3つの項を期待値を順番に求めていきます。

1項目:

1項目の式は母分散の定義式そのものなので、次のように計算ができます。\[
E \left( \frac{1}{n} \sum^{n}_{k=1} (X_k - \mu )^2 \right) = \sigma^2
\]

2項目:

まずは、期待値の中の和の部分を、つぎのように変形します。\[\begin{align*}
\sum^{n}_{k=1} (X_k - \mu)( \overline{X} - \mu) & = ( \overline{X} - \mu) \sum^{n}_{k=1} (X_k - \mu)
\\ & = ( \overline{X} - \mu) \left( \sum^{n}_{k=1} X_k - \textcolor{red}{ \sum^{n}_{k=1} } \mu \right)
\\ & = ( \overline{X} - \mu) \left( n \cdot \textcolor{blue}{ \frac{1}{n} \sum^{n}_{k=1} X_k } - \textcolor{red}{n} \mu \right) \ \ \ \ \ \textcolor{red}{ \left( \because \sum^{n}_{k=1} 1 = n \right)}
\\ & = ( \overline{X} - \mu) \left( n \cdot \ \textcolor{blue}{ \overline{X} } - n \mu \right) \ \ \ \ \ \textcolor{blue}{ \left( \because \frac{1}{n} \sum^{n}_{k=1} X_k = \overline{X} \right)}
\\ & = n ( \overline{X} - \mu)^2
\end{align*}\]

ここで、\( E ( ( \overline{X} - \mu)^2 ) \) は標本平均 \( \overline{X} \) と母平均 \( \mu \) の2乗誤差の期待値です。これは、まさに分散の定義式なので、つぎの式が成り立ちます。\[
E ( ( \overline{X} - \mu)^2 ) = V ( \overline{X} )
\]

また、\( V ( \overline{X} ) \) はつぎのように求められます。\[\begin{align*}
V ( \overline{X} ) & = V \left( \textcolor{red}{\frac{1}{n} } (X_1 + X_2 + \cdots + X_n ) \right)
\\ & = \textcolor{red}{\frac{1}{n^2}} V \left( X_1 + X_2 + \cdots + X_n \right) \ \ \ \left( \because V(\textcolor{red}{a}X) = \textcolor{red}{a^2} V(x) \right)
\\ & = \frac{1}{n^2} \left\{ \underbrace{ V ( X_1 ) + V ( X_2 ) + \cdots + V ( X_n ) }_{ n \ \mathrm{個} } \right\}
\\ & = \frac{1}{n^2} \cdot n \sigma^2 \ \ \ \ ( \because V(X_k) = \sigma^2 )
\\ & = \frac{1}{n} \sigma^2
\end{align*}\]※ \( X \), \( Y \) が独立のとき、分散の分解 \( V(X \pm Y) = V(X) + V(Y) \) が可能^[2]\( X \), \( Y \) が独立ではない場合は、 \( V(X \pm Y) = V(X) + V(Y) \pm 2 Cov(X,Y) \) [復号同順] となる点に注意。※ \( Cov(X,Y) \) は \( X \), \( Y \) の共分散。 \。

そのため、標本平均 \( \overline{X} \) の分散 \( V ( \overline{X} ) \) が \( \frac{ \sigma^2 }{ n } \) であるという等式が成り立ちます。\[\begin{align*}
E ( ( \overline{X} - \mu)^2 ) & = V ( \overline{X} )
\\ & = \frac{1}{n} \sigma^2
\end{align*}\]

よって、2項目の期待値は、次のように計算できます。

\[\begin{align*}
E \left( \frac{2}{n} \sum^{n}_{k=1} (X_k - \mu)( \overline{X} - \mu) \right) & = \frac{2}{n} E \left( \sum^{n}_{k=1} (X_k - \mu)( \overline{X} - \mu) \right)
\\ & = \frac{2}{n} E \left( n ( \overline{X} - \mu)^2 \right)
\\ & = 2 E \left( ( \overline{X} - \mu)^2 \right)
\\ & = 2 \cdot \frac{ \sigma^2}{n}
\end{align*}\]

3項目:

3項目の期待値も、中心極限定理の公式\[
E \left( ( \overline{X} - \mu)^2 \right) = \frac{ \sigma^2}{n}
\]を利用することで、次のように期待値を計算できます。

\[\begin{align*}
E \left( \frac{1}{n} \sum^{n}_{k=1} ( \overline{X} - \mu )^2 \right) & = E \left( \frac{1}{n} \cdot n ( \overline{X} - \mu )^2 \right)
\\ & = E \left( ( \overline{X} - \mu )^2 \right)
\\ & = \frac{ \sigma^2}{n}
\end{align*}\]

これら3つの式を全て組み合わせることで、標本分散の期待値 \( E(S^2) \) をつぎのように導出することができます。

\[\begin{align*}
E ( S^2 ) & =E \left( \frac{1}{n} \sum^{n}_{k=1} (X_k - \mu)^2 \right) - E \left( \frac{2}{n} \sum^{n}_{k=1} (X_k - \mu)( \overline{X} - \mu) \right) + E \left( \frac{1}{n} \sum^{n}_{k=1} ( \overline{X} - \mu )^2 \right)
\\ & = \sigma^2 - 2 \cdot \frac{ \sigma^2}{n}+ \frac{ \sigma^2}{n}
\\ & = \frac{n-1}{n} \sigma^2
\end{align*}\]

あれ？　実際の期待値の \( \frac{n-1}{n} \) 倍となってしまいました。

このままでは不偏推定量とは言えませんね。

[iii] 不偏推定量となる分散を考えてみる

ここで、母分散の不偏推定量となる新たな分散を考えてみましょう。

標本分散の期待値 \( E(S^2) \) が、母分散の \( \frac{n-1}{n} \) 倍となるということは、標本分散 \( S^2 \) を \( \frac{n}{n-1} \) 倍とした分散\[ \begin{align*}
s^2 & = \frac{n}{n-1} S^2
\\ & = \frac{n}{n-1} \cdot \frac{1}{n} \sum^{n}_{k = 1} ( X_k - \overline{X} )^2
\\ & = \frac{1}{n-1} \sum^{n}_{k = 1} ( X_k - \overline{X} )^2
\end{align*}\]で計算してあげれば、期待値 \( E( s^2) \) が、実際の期待値と一致しそうですね。

実際に計算していきましょう。 \[\begin{align*}
E(s^2) & = E \left( \frac{n}{n-1} S^2 \right)
\\ & = \frac{n}{n-1} E \left( S^2 \right)
\\ & = \frac{n}{n-1} \cdot \frac{n-1}{n} \sigma^2
\\ & = \sigma^2
\end{align*}\]

よって、\( s^2 \) で定義した分散は、母分散の不偏推定量となりましたね。この \( s^2 \) の分散のことを不偏分散と呼びます。]

大学以降で習う確率・統計では、母分散を正確に推定するために、標本の分散を求めるときには不偏分散 \( s^2 \) を使うことが多いです^[3]母分散は今まで通り \( n \) で割ってください。誤って \(n-1 \) で割らないように！。

※ 本記事では、高校で習う分散の公式（標本分散）を \( S^2 \)、不偏分散を \( s^2 \) と表記を使い分けています。

母平均の不偏推定量

母平均 \( \mu \) の不偏推定量は、不偏分散 \( s^2 \) で表される。

ここで、\( s^2 \) は各標本 \( X_k \) を用いて、次のように計算できる。\[\begin{align*}
s^2 & = \frac{1}{n-1} \left\{ ( X_1 - \overline{X} )^2 + ( X_2 - \overline{X} )^2
+ \cdots + ( X_n - \overline{X} )^2 \right\}
\\ & = \frac{1}{n-1} \sum^{n}_{k = 1} ( X_k - \overline{X} )^2
\end{align*}\]※ \( n \) は標本サイズを表す。

実際に、[1]で計算した標本分散を、不偏分散として計算しなおしてみましょう。

データ1	データ2	標本平均	標本分散
0	0	0	\[ \frac{1}{2-1} \left\{ ( \textcolor{red}{0} - \textcolor{green}{0} )^2 + ( \textcolor{blue}{0} - \textcolor{green}{0} )^2 \right\} = 0 \]
0	2	1	\[ \frac{1}{2-1} \left\{ ( \textcolor{red}{0} - \textcolor{green}{1} )^2 + ( \textcolor{blue}{2} - \textcolor{green}{1} )^2 \right\} = 2 \]
0	4	2	\[ \frac{1}{2-1} \left\{ ( \textcolor{red}{0} - \textcolor{green}{2} )^2 + ( \textcolor{blue}{4} - \textcolor{green}{2} )^2 \right\} = 8 \]
2	0	1	\[ \frac{1}{2-1} \left\{ ( \textcolor{red}{2} - \textcolor{green}{1} )^2 + ( \textcolor{blue}{0} - \textcolor{green}{1} )^2 \right\} = 2 \]
2	2	2	\[ \frac{1}{2-1} \left\{ ( \textcolor{red}{2} - \textcolor{green}{2} )^2 + ( \textcolor{blue}{2} - \textcolor{green}{2} )^2 \right\} = 0 \]
2	4	3	\[ \frac{1}{2-1} \left\{ ( \textcolor{red}{2} - \textcolor{green}{3} )^2 + ( \textcolor{blue}{4} - \textcolor{green}{3} )^2 \right\} = 2 \]
4	0	2	\[ \frac{1}{2-1} \left\{ ( \textcolor{red}{4} - \textcolor{green}{2} )^2 + ( \textcolor{blue}{0} - \textcolor{green}{2} )^2 \right\} = 8 \]
4	2	3	\[ \frac{1}{2-1} \left\{ ( \textcolor{red}{4} - \textcolor{green}{3} )^2 + ( \textcolor{blue}{2} - \textcolor{green}{3} )^2 \right\} = 2 \]
4	4	4	\[ \frac{1}{2-1} \left\{ ( \textcolor{red}{4} - \textcolor{green}{4} )^2 + ( \textcolor{blue}{4} - \textcolor{green}{4} )^2 \right\} = 0 \]

よって、不偏分散 \( s^2 \) の期待値 \( E ( s^2 ) \) は、つぎのように求められます。\[\begin{align*}
E ( s^2 ) & = \frac{1}{9} \left( 0+2+8+2+0+2+8+2+0 \right)
\\ & = \frac{1}{9} \cdot 24
\\ & = \frac{8}{3} \end{align*}\]

不偏分散 \( s^2 \) で分散を計算すると、母分散 \( \sigma^2 = \frac{8}{3} \) と、不偏分散の期待値 \( E( s^2 ) = \frac{8}{3} \) が一致していることが確認できますね。

4. 練習問題

練習1.

練習1

ある高校の生徒5人を標本として抽出したとき、身長[cm]は以下の通りであった。

176, 179, 167, 169, 159

つぎの問いに答えなさい。

(1) 母平均の不偏推定量を求めなさい。
(2) 母分散の不偏推定量を求めなさい。

練習2.

練習2

母平均 \( \mu \) の母集団から、標本 \( X_1 \), \( X_2 \), …, \( X_n \) を取り出した。

ここで、\( \mu \) の推定量としてつぎ \( \hat{\mu}_1 \), \( \hat{\mu}_2 \), \( \hat{\mu}_3 \) を考えた。

\[
\hat{\mu}_1 = X_1
\]

\[
\hat{\mu}_2 = \sum^{n}_{k=1} (X_k + 1)
\]

\[
\hat{\mu}_3 = \sum^{n}_{k=1} X_k^2
\]

(1)～(3)の問いに答えなさい。

(1) \( \hat{\mu}_1 \) は母平均 \( \mu \) の不偏推定量かどうか確認しなさい。
(2) \( \hat{\mu}_2 \) は母平均 \( \mu \) の不偏推定量かどうか確認しなさい。
(3) \( \hat{\mu}_3 \) は母平均 \( \mu \) の不偏推定量かどうか確認しなさい。

練習3.

練習3

母平均 \( \mu \)、母分散 \( \sigma^2 \) の母集団から、標本 \( X_1 \), \( X_2 \), …, \( X_n \) を取り出す。

ここで、母平均の不偏推定量 \( \overline{X} \) と、不偏分散の不偏推定量 \( s^2 \) は次のように計算できる。\[
\overline{X} = \frac{1}{n} \sum^{n}_{k=1} X_k
\]\[
s^2 = \frac{1}{n-1} \sum^{n}_{k = 1} ( X_k - \overline{X} )^2
\]

つぎの問いに答えなさい。

(1) 期待値 \( E( \overline{X}^2) \) を求めなさい。
(2) \( \mu^2 \) の不偏推定量 \( \hat{\mu^2} \) を求めなさい。

練習問題の答え

解答1.

(1)

母平均の不偏推定量は、標本平均 \( \overline{X} \) によって推定できます。\[\begin{align*}
\overline{X} & = \frac{1}{n} (X_1 + X_2 + \cdots + X_n)
\\ & = \frac{1}{n} \sum^{n}_{k=1} X_k
\end{align*}\]※ \( X_k \) … \( k \) 番目の標本の値、\( n \) は標本サイズ

与えられた5つのデータの標本平均は、つぎの式で計算できます。計算を楽にするために、\( a = 170 \) とおきましょう。\[\begin{align*}
\overline{X} & = \frac{1}{5} \left\{ (a + 6) + (a+9) + (a-3) + (a-1) + (a-11) \right\}
\\ & = \frac{1}{5} \cdot 5a
\\ & = a
\\ & = 170
\end{align*}\]よって、母平均の不偏推定量は 170 と求められます。

(2)

母分散の不偏推定量は、不偏分散 \( s^2 \) によって推定できます。\[\begin{align*}
s^2 & = \frac{1}{n-1} \left\{ ( X_1 - \overline{X} )^2 + ( X_2 - \overline{X} )^2
+ \cdots + ( X_n - \overline{X} )^2 \right\}
\\ & = \frac{1}{n-1} \sum^{n}_{k = 1} ( X_k - \overline{X} )^2
\end{align*}\]※ \( X_k \) … \( k \) 番目の標本の値、\( n \) は標本サイズ、\( \overline{X} \) は標本平均。

与えられた5つのデータの不偏分散は、つぎの式で計算できます。\[\begin{align*}
\overline{X} & = \frac{1}{5-1} \left\{ (176-170)^2 + (179-170)^2 + (167-170)^2 + (169-170)^2 + (159-170)^2 \right\}
\\ & = \frac{1}{4} \left\{ 6^2 + 9^2 + (-3)^2 + (-1)^2 + (-11)^2 \right\}
\\ & = \frac{1}{4} (36 + 81 + 9 + 1 + 121)
\\ & = \frac{1}{4} \cdot 248
\\ & = 62
\end{align*}\]よって、母分散の不偏推定量は 62 と求められます。

解答2.

不偏推定量かどうかを確認する前に、不定推定量の確認で使う公式の紹介を復習しましょう。

不偏推定量の確認で使う公式

[1] 期待値の中の定数倍は、期待値の外に出すことが出来る。\[
E(aX) = aE(X)
\]

[2] 期待値の足し算、引き算を分解することが出来る。\[
E(X+Y) = E(X) + E(Y)
\]\[
E(X-Y) = E(X) - E(Y)
\]

[3] 標本 \( X_k \) の期待値 \( E(X_k) \)、分散 \( V(X_k) \) は、母集団の期待値 \( \mu \)、分散 \( \sigma^2 \) と一致する。\[
E(X_k) = \mu
\]\[
V(X_k) = \sigma^2
\]

[4] 標本平均 \( \overline{X} \) の期待値 \( E( \overline{X}) \) は、母集団の母平均 \( \mu \) と等しい。\[
E( \overline{X} ) = \mu
\]

[5] 標本平均 \( \overline{X} \) の分散 \( V( \overline{X}) \) は、標本平均 \( \overline{X} \) と母集団の母平均 \( \mu \) の差の2乗の期待値であり、母集団の母分散 \( \sigma^2 \) を標本サイズ \( n \) で割ったものとなる。\[\begin{align*}
V( \overline{X} ) & = E \left( ( \overline{X} - \mu )^2 \right)
\\ & = \frac{ \sigma^2 }{n}
\end{align*}\]

(1)

\( X_1 \) は、母集団からの標本なので、期待値 \( E(X_1) \) は、母平均 \( \mu \) に等しいです。\[\begin{align*}
E( \hat{\mu}_1 ) & = E(X_1)
\\ & = \mu
\end{align*}\]

よって、\( \hat{\mu}_1 \) は不偏推定量です。

(2)

\[\begin{align*}
E( \hat{\mu}_2 ) & = E \left( \frac{1}{n} \sum^{n}_{k = 1} (X_k + 1) \right)
\\ & = \frac{1}{n} E \left( \sum^{n}_{k = 1} (X_k + 1) \right)
\\ & = \frac{1}{n} \sum^{n}_{k = 1} E \left( X_k + 1 \right)
\\ & = \frac{1}{n} \sum^{n}_{k = 1} E \left( X_k \right) + \frac{1}{n} \sum^{n}_{k = 1} \underbrace{ E(1) }_{1}
\\ & = \mu +\frac{1}{n} \cdot n
\\ & = \mu + 1 \not = \mu
\end{align*}\]

よって、\( \hat{\mu}_2 \) は不偏推定量ではありません。

(3)

まず、分散は、2乗の期待値から期待値の2乗を引いた差分で求められるため、つぎの公式が成立します。\[
\underbrace{ V(X_k^2) }_{\sigma^2} = E(X_k^2) - \left\{ \underbrace{E(X_k)}_{\mu} \right\}^2
\]

よって、期待値 \( E( X_k^2) をつぎのように導出できます。\[\begin{align*}
E(X_k^2) & = \underbrace{ V(X_k^2) }_{\sigma^2} + \left\{ \underbrace{E(X_k)}_{\mu} \right\}^2
\\ & = \sigma^2 + \mu^2
\end{align*}\]

あとは、上の計算結果を用いて、各標本の2乗 \( X_k^2 \) の期待値 \( E( X_k^2) \) を求めていきます。\[\begin{align*}
E( \hat{\mu}_3 ) & = E \left( \frac{1}{n} \sum^{n}_{k = 1} X_k^2 \right)
\\ & = \frac{1}{n} E \left( \sum^{n}_{k = 1} X_k^2 \right)
\\ & = \frac{1}{n} \sum^{n}_{k = 1} (\sigma^2 + \mu^2)
\\ & = \frac{1}{n} \cdot n (\sigma^2 + \mu^2)
\\ & = \sigma^2 + \mu^2 \not = \mu
\end{align*}\]

よって、\( \hat{\mu}_3 \) は不定推定量ではありません。

解答3.

(1)

分散は、2乗の期待値から期待値の2乗を引いた差分で求められるため、つぎの公式が成立します。

\[
V( \overline{X} ) = E ( \overline{X}^2 ) - \left\{ E( \overline{X} ) \right\}^2
\]

よって、\( E ( \overline{X}^2 ) \) はつぎの式で求められます。\[
E ( \overline{X}^2 ) = V( \overline{X} ) +\left\{ E( \overline{X} ) \right\}^2
\]

ここで、\( E( \overline{X}) \), \( V ( \overline{X} ) \) はそれぞれ次のように計算できます。

\[\begin{align*}
E ( \overline{X} ) & = E \left( \frac{1}{n} ( X_1 + X_2 + \cdots + X_n ) \right)
\\ & = \frac{1}{n} E \left( X_1 + X_2 + \cdots + X_n \right)
\\ & = \frac{1}{n} \underbrace{ \left\{ E \left( X_1 \right) + E \left( X_2 \right) + \cdots + E \left( X_n \right) \right\} }_{ n \ \mathrm{個} }
\\ & = \frac{1}{n} \cdot n \mu \ \ \ \left( \because E(X_k) = \mu \right)
\\ & = \mu
\end{align*}\]

\[\begin{align*}
V ( \overline{X} ) & = V \left( \textcolor{red}{\frac{1}{n} } (X_1 + X_2 + \cdots + X_n ) \right)
\\ & = \textcolor{red}{\frac{1}{n^2}} V \left( X_1 + X_2 + \cdots + X_n \right) \ \ \ \left( \because V(\textcolor{red}{a}X) = \textcolor{red}{a^2} V(x) \right)
\\ & = \frac{1}{n^2} \left\{ \underbrace{ V ( X_1 ) + V ( X_2 ) + \cdots + V ( X_n ) }_{ n \ \mathrm{個} } \right\}
\\ & = \frac{1}{n^2} \cdot n \sigma^2 \ \ \ \ ( \because V(X_k) = \sigma^2 )
\\ & = \frac{1}{n} \sigma^2
\end{align*}\]※ 分散の分解 \( V(X \pm Y) = V(X) + V(Y) \) は、\( X \), \( Y \) が独立のとき可能。

よって、\( E ( \overline{X}^2 ) \) はつぎのように計算できます。\[\begin{align*}
E ( \overline{X}^2 ) & = V( \overline{X} ) +\left\{ E( \overline{X} ) \right\}^2
\\ & = \frac{1}{n} \sigma^2 + \mu^2
\\ & = \mu^2 + \frac{1}{n} \sigma^2
\end{align*}\]

(2)

\( \mu^2 \) の不偏推定量 \( \hat{\mu^2} \) は、つぎの関係式を満たすような \( \hat{\mu^2} \) を計算することで求めることが出来ます。\[
E( \hat{\mu^2} ) = \mu^2
\]

ここで、(1)の結果より次の関係式が成り立ちますね。\[
E ( \overline{X}^2 ) = \mu^2 + \frac{1}{n} \sigma^2
\]

両辺から \( \frac{1}{n} \sigma^2 \) を引くと、次の関係式が成り立ちます。\[
E ( \overline{X}^2 ) - \frac{1}{n} \sigma^2 = \mu^2
\]

ここで、不偏分散 \( s^2 \) は、\( \sigma^2 \) の不偏推定量なので、次の式が成り立ちます。\[
E (s^2) = \sigma^2
\]

よって、つぎの変形で \( E( \hat{\mu^2} ) = \mu^2 \) の形することができます。\[
E ( \overline{X}^2 ) - \frac{1}{n} E (s^2) = \mu^2
\]\[
E ( \overline{X}^2 ) - E \left( \frac{1}{n} s^2 \right) = \mu^2
\]\[
E \left( \overline{X}^2 - \frac{1}{n} s^2 \right) = \mu^2
\]

よって、\( \mu^2 \) の不偏推定量 \( \hat{\mu^2} \) はつぎの通りに求められます。\[
\hat{\mu^2} = \overline{X}^2 - \frac{1}{n} s^2
\]

注釈[+]

注釈
↑1	各表は、母集団の各要素から等しい確率で選ばれるため（無作為抽出しているため）、標本 \( X_1 \), \( X_2 \), … , \( X_n \) の期待値は \( \mu \) となります。
↑2	\( X \), \( Y \) が独立ではない場合は、 \( V(X \pm Y) = V(X) + V(Y) \pm 2 Cov(X,Y) \) [復号同順] となる点に注意。※ \( Cov(X,Y) \) は \( X \), \( Y \) の共分散。 \
↑3	母分散は今まで通り \( n \) で割ってください。誤って \(n-1 \) で割らないように！

うさぎでもわかるラスパイレス指数・パーシェ指数・フィッシャー指数

ももうさ — Sat, 31 Aug 2024 12:08:26 +0000

こんにちは、ももやまです。

今回は、物価の変動度合いを表す3つの指数

ラスパイレス指数
パーシェ指数
フィッシャー指数

がどのようなものなのか、またどのように計算できるかを、実際に見ていきましょう。

1. ラスパイレス指数

ラスパイレス指数は、基準時点（基準年、基準月など）の数量をベースとして、基準地点に対する比較時点（比較年、比較月など）の物価の変化度合いを、比率（基準値: 100）で表したものです。

具体的には、ラスパイレス指数 \( P_L \) は次のように定義されます。

ラスパイレス指数

ラスパイレスは、次の式により計算できる。

※ 比較時数量は計算に使わないのがポイント！！

上の式を文字式で書くと、次の通りとなる。

\[
P_L = \frac{ \sum^{n}_{k = 1} \textcolor{orange}{ p_{1k} } \textcolor{deepskyblue}{ q_{0k} } }{ \sum^{n}_{k = 1} \textcolor{green}{p_{0k}} \textcolor{deepskyblue}{ q_{0k} } } \times 100
\]

--- 文字式内の記号の意味 ---

基準時のパラメータ
- \( \textcolor{green}{p_{0k} } \) … \( k \) 番目の項目における基準時の価格
- \( \textcolor{deepskyblue}{q_{0k}} \) … \( k \) 番目の項目における基準時の数量
比較時のパラメータ
- \( \textcolor{orange}{ p_{1k} } \) … \( k \) 番目の項目における比較時の価格
- \( \textcolor{magenta}{ q_{1k} } \) … \( k \) 番目の項目における比較時の数量
\( n \) … 項目の数

実際のラスパイレス指数の計算例を、例題で確認しましょう。

例題1

桃山研究室では、毎年大学の文化祭でハンバーガーショップの模擬店を開いている。2023年を基準とした2024年の物価の変動具合を計算するために、模擬店の売上データを確認したところ、以下の表の通りであることがわかった。

このデータをもとに、ラスパイレス指数 \( P_L \) を計算しなさい。結果は小数第1位まで示すこと。

	価格 (ハンバーガー)	数量 (ハンバーガー)	価格 (チーズバーガー)	数量 (チーズバーガー)
基準年 (2023年)	200	100	250	80
比較年 (2024年)	180	50	200	120

解説1

ラスパイレス指数の公式に、与えられたデータの値を与えて計算しましょう。

	価格 (ハンバーガー)	数量 (ハンバーガー)	価格 (チーズバーガー)	数量 (チーズバーガー)
基準年 (2023年)	200	100	250	80
比較年 (2024年)	180	50	200	120

実際に計算すると、ラスパイレス指数 \( P_L \) は次のように計算できます。

\[\begin{align*}
P_L & = \frac{ \textcolor{orange}{180} \times \textcolor{deepskyblue}{100} + \textcolor{orange}{200} \times \textcolor{deepskyblue}{80} }{ \textcolor{green}{200} \times \textcolor{deepskyblue}{100} + \textcolor{green}{250} \times \textcolor{deepskyblue}{80} } \times 100
\\ & = \frac{ 18000 + 16000 }{ 20000 + 20000 } \times 100
\\ & = \frac{ 34000 }{ 40000 } \times 100
\\ & = 0.85 \times 100
\\ & = 85
\end{align*}\]

よって、ラスパイレス指数は 85.0 と求められます。

ラスパイレス指数の注意点．

ラスパイレス指数は、基準時点と比較時点の数量のうち、基準時点の数量のみを計算に使用します。そのため、比較時点の数量はラスパイレス指数に一切影響しません。

このため、消費者が価格上昇に対して購入量を減らすという現実の行動を反映せず、価格上昇を過大評価する傾向がある点に注意が必要です^[1] … Continue reading。

2. パーシェ指数

パーシェ指数は、比較時点の数量をベースとして、基準地点に対する比較時点の物価の変動具合を比率（基準値: 100）で表したものです。

具体的には、パーシェ指数 \( P_P \) は次のように定義されます。

パーシェ指数

パーシェ指数は、次の式により計算できる。

※ 基準時数量は計算に使わないのがポイント！！

上の式を文字式で書くと、次の通りとなる。

\[
P_L = \frac{ \sum^{n}_{k = 1} \textcolor{orange}{ p_{1k} } \textcolor{magenta}{ q_{1k} } }{ \sum^{n}_{k = 1} \textcolor{green}{p_{0k}} \textcolor{magenta}{ q_{1k} } } \times 100
\]

--- 文字式内の記号の意味 ---

基準時のパラメータ
- \( \textcolor{green}{p_{0k} } \) … \( k \) 番目の項目における基準時の価格
- \( \textcolor{deepskyblue}{q_{0k}} \) … \( k \) 番目の項目における基準時の数量
比較時のパラメータ
- \( \textcolor{orange}{ p_{1k} } \) … \( k \) 番目の項目における比較時の価格
- \( \textcolor{magenta}{ q_{1k} } \) … \( k \) 番目の項目における比較時の数量
\( n \) … 項目の数

パーシェ指数の計算例を、先ほどと同じように例題で確認しましょう。

例題2

このデータをもとに、パーシェ指数 \( P_P \) を計算しなさい。結果は小数第1位まで示すこと。

	価格 (ハンバーガー)	数量 (ハンバーガー)	価格 (チーズバーガー)	数量 (チーズバーガー)
基準年 (2023年)	200	100	250	80
比較年 (2024年)	180	50	200	120

解説2

パーシェ指数の公式に、与えられたデータの値を与えて計算しましょう。

	価格 (ハンバーガー)	数量 (ハンバーガー)	価格 (チーズバーガー)	数量 (チーズバーガー)
基準年 (2023年)	200	100	250	80
比較年 (2024年)	180	50	200	120

\[\begin{align*}
P_P & = \frac{ \textcolor{orange}{180} \times \textcolor{magenta}{50} + \textcolor{orange}{200} \times \textcolor{magenta}{120} }{ \textcolor{green}{200} \times \textcolor{magenta}{50} + \textcolor{green}{250} \times \textcolor{magenta}{120} } \times 100
\\ & = \frac{ 9000 + 24000 }{ 10000 + 30000 } \times 100
\\ & = \frac{ 33000 }{ 40000 } \times 100
\\ & = 0.825 \times 100
\\ & = 82.5
\end{align*}\]

よって、パーシェ指数は 82.5 と求められます。

パーシェ指数の注意点．

パーシェ指数は、基準時点と比較時点の数量のうち、比較時点の数量のみを計算に使用します。そのため、基準時点の数量はパーシェ指数に一切影響しません。

消費者は価格が上昇すると、その商品を購入する量を減らすことが多いです。パーシェ指数では、価格上昇が数量の減少によって和らげられるため、物価の変動度合いが過小に評価される点に注意が必要です^[2] … Continue reading。

3. フィッシャー指数

ラスパイレス指数、パーシェ指数は、ともに物価の変動度合いを表す指数です。しかし、ラスパイレス指数では実際よりも物価の変動度合いを過大に評価してしまう傾向が、パーシェ指数では実際よりも物価の変動度合いを過小に評価してしまう傾向があります。

そこで、ラスパイレス指数とパーシェ指数の幾何平均（相乗平均）を取った新たな指標が生まれました^[3]ラスパイレス指数 \( P_L \) 、パーシェ指数 \( P_P \) … Continue reading。この指標を、フィッシャー指数と呼びます。

フィッシャー指数

フィッシャー指数 \( P_F \) は、ラスパイレス指数と \( P_L \)、パーシェ指数 \( P_P \) の幾何平均（相乗平均）で計算できる。

\[
P_F = \sqrt{ P_L \times P_P }
\]

フィッシャー指数を使うことで、ラスパイレス指数とパーシェ指数の偏りを中和させ、パーシェより中立的でバランスの取れた方法で物価の変動度合いを確認することができます。

フィッシャー指数の計算例を、先ほどと同じように例題で確認しましょう。

例題2

	価格 (ハンバーガー)	数量 (ハンバーガー)	価格 (チーズバーガー)	数量 (チーズバーガー)
基準年 (2023年)	200	100	250	80
比較年 (2024年)	180	50	200	120

ここで、ラスパイレス指数が85.0、フィッシャー指数が82.5であることを利用して、フィッシャー指数 \( P_F \) を計算しなさい。結果は平方根が残っていても構わない。

解説3.

フィッシャー指数の公式に、

ラスパイレス指数 \( P_L = 85.0 \)
パーシェ指数 \( P_P = 82.5 \)

を代入して計算しましょう。

\[\begin{align*}
P_F & = \sqrt{ P_L \times P_P }
\\ & = \sqrt{ 85.0 \times 82.5 }
\\ & = \sqrt{ 7012.5 }
\\ & \fallingdotseq 83.7
\end{align*}\]

よって、フィッシャー指数は \( \sqrt{ 7012.5 } \) と求められます。

4. 練習問題にチャレンジ

最後に、実際に練習問題に挑戦してみましょう！

練習問題

ある市では、つぎの3種類の1日券を販売している。

券A: 地下鉄1日券
券B: バス1日券
券C: 地下鉄・バス共通1日券

以下のデータは、基準日と比較日における券A〜券Cの販売価格、および販売した数量を示している。

	券A 価格	券A 数量	券B 価格	券B 数量	券B 価格	券C 数量
基準日	600	200	500	400	800	100
比較日	800	150	700	200	900	200

このデータを元に、(1)〜(3)の問いに答えなさい。

(1) ラスパイレス指数 \( P_L \) を計算しなさい。結果は小数第1位まで示すこと。
(2) パーシェ指数 \( P_P \) を計算しなさい。結果は小数第1位まで示すこと。
(3) フィッシャー指数 \( P_F \) を計算しなさい。電卓推奨です。結果は小数第1位まで示すこと。（電卓がない場合は、ルートを外さなくてよい。）

5. 練習問題の答え

以下のデータから、(1) ラスパイレス指数、(2) パーシェ指数、(3) フィッシャー指数を計算していきます。

	券A 価格	券A 数量	券B 価格	券B 数量	券B 価格	券C 数量
基準日	600	200	500	400	800	100
比較日	800	150	700	200	900	200

(1) ラスパイレス指数 \( P_L \)

★ 公式

★ 計算過程

\[\begin{align*}
P_L & = \frac{ \textcolor{orange}{800} \times \textcolor{deepskyblue}{200} + \textcolor{orange}{700} \times \textcolor{deepskyblue}{400} + \textcolor{orange}{900} \times \textcolor{deepskyblue}{100} }{ \textcolor{green}{600} \times \textcolor{deepskyblue}{200} + \textcolor{green}{500} \times \textcolor{deepskyblue}{400} + \textcolor{green}{800} \times \textcolor{deepskyblue}{100} } \times 100
\\ & = \frac{ 160000 + 280000 + 90000 }{ 120000 + 200000 + 80000 } \times 100
\\ & = \frac{ 530000 }{ 400000 } \times 100
\\ & = 1.325 \times 100
\\ & = 132.5
\end{align*}\]より、ラスパイレス指数は 132.5。

(2) パーシェ指数 \( P_P \)

★ 公式

★ 計算過程

\[\begin{align*}
P_L & = \frac{ \textcolor{orange}{800} \times \textcolor{magenta}{100} + \textcolor{orange}{700} \times \textcolor{magenta}{200} + \textcolor{orange}{900} \times \textcolor{magenta}{200} }{ \textcolor{green}{600} \times \textcolor{magenta}{100} + \textcolor{green}{500} \times \textcolor{magenta}{200} + \textcolor{green}{800} \times \textcolor{magenta}{200} } \times 100
\\ & = \frac{ 80000 + 140000 + 180000 }{ 90000 + 100000 + 160000 } \times 100
\\ & = \frac{ 400000 }{ 320000 } \times 100
\\ & = 1.25 \times 100
\\ & = 125
\end{align*}\]より、パーシェ指数は 125.0。

(3) フィッシャー指数 \( P_F \)

\[\begin{align*}
P_F & = \sqrt{ P_L \times P_P }
\\ & = \sqrt{ 132.5 \times 125.0 }
\\ & = \sqrt{ 16562.5 }
\\ & \fallingdotseq 128.7
\end{align*}\]より、フィッシャー指数は 128.7。

6. まとめ

ラスパイレス指数、パーシェ指数の計算方法は、以下の通りです。

フィッシャー指数の計算方法は、以下の通りです。\[
\mathrm{ フィッシャー指数 } \ = \ \sqrt{ \mathrm{ ラスパイレス指数 \ \times \ パーシェ指数 } }
\]

注釈[+]

注釈
↑1	例えば、基準時点で商品Aが100円で100個売れていたが、比較時点では商品Aが200円に値上がりして80個売れているとしましょう。このとき、ラスパイレス指数は比較時点での個数の減少を無視し、そのまま値上がり分を反映してしまいます。
↑2	例えば、基準時点で商品Aが100円で100個売れていたが、比較時点では商品Aが200円に値上がりし、80個売れているとしましょう。このとき、パーシェ指数は比較時点での個数の減少をもとに、物価の変動度合いを計算してしまいます。
↑3	ラスパイレス指数 \( P_L \) 、パーシェ指数 \( P_P \) は割合（相対的な値）を表しているものなので、単純に相加平均\[ \frac{P_L+P_P}{2} \]しただけでは正しい平均が出せません。

うさぎでもわかる確率・統計　指数分布

ももうさ — Wed, 28 Aug 2024 23:23:46 +0000

こんにちは、ももやまです。

今日は、確率・統計分野の中で出てくる指数分布と、指数分布を使った確率を求める計算方法を紹介していきます。

※ 本記事では、確率・統計分野の確率密度関数、累積分布関数の知識を使用します。未学習の人や、復習したい人は、以下のリンク先の記事にて復習することをお勧めします。

1週間で完成！　うさぎでもわかる確率分布と統計的な推測　3日目　確率密度関数

今回は「1週間で完成！　うさぎでもわかる確率分布と統計的な推測」に出てくる確率密度関数についてまとめています。確率密度関

うさぎでもわかる確率・統計　累積分布関数のいろは

こんにちは、ももやまです。今日は、確率・統計に出てくる「累積分布関数」についてお勉強していきましょう！ 1. 確率密度関数の

1. 指数分布とは

指数分布は、「つぎに事象が発生するまでの時間」をモデル化した分布です。

指数分布を使うことで、つぎのような問題を解くことができます。

例題

桃山工場で生産しているご飯盛り付け機（以後、機械と表記する。）がある。この機械は、過去のデータから、故障するまでの平均日数が1,000日であることが判明している。このとき、つぎの(1), (2)の問いに答えなさい。

(1) 機械が500日以内に故障する確率を求めなさい。

(2) 機械が少なくとも1,500日間正常に稼働し続ける（＝故障が発生しない）確率を求めなさい。

2. 指数分布の公式（累積分布関数）導出

ある事象が指数分布に従う（ことを仮定できる）場合、「つぎに事象が発生するまでの時間」を以下の公式で簡単に求めることができます。

指数分布を用いた

ある事象が単位時間あたりに、平均して \( \lambda \) 回発生するとする。

このとき、次に事象が発生するまでの時間が \( t \) 以内となる確率 \( F(t) \) は、つぎの式で計算できる。\[
F(t) = 1 - e^{- \lambda t }
\]

ここで、\( t \) は単位時間に対する経過時間を、単位時間に対する倍率で示した変数である。例えば、単位時間が10分で、次に事象が発生する時間が30分の場合、\( t = \frac{30}{10} = 3 \) となる。

また、この \( F(t) \) は指数分布の累積分布関数となる^[1]累積分布関数とは、ある確率変数が特定の値以下になる確率を表す関数です。

累積分布関数の導出は、ポアソン分布を使って導出することができます。

※ ポアソン分布の復習は以下の記事から出来ます。まだ未履修な人や、ポアソン分布を忘れてしまった人はご覧ください。

うさぎでもわかる確率・統計　ポアソン分布

こんにちは、ももやまです。今日は、確率・統計分野の中で出てくるポアソン分布と、ポアソン分布を使った確率を求める計算方法

公式の導出

指数分布は「つぎに事象が発生するまでの時間が \( t \) 以内となる確率」を表しています。

この表現を言い換えると、「ある時間 \( t \) が経過するまでに、少なくとも事象が1回が発生する確率 \( P(X \geqq 1) \)」言えます。この確率は、ポアソン分布の公式から計算することができます。

この確率は、「ある時間 \( t \) が経過するまでに、事象が1回も発生しない \( P(X = 0) \) 」の補集合に相当します。つまり、つぎのように表すことが出来ます。\[
P( X \geqq 1 ) = 1 - P(X=0)
\]

ここで、ある事象が単位時間あたりに平均して \( \lambda \) 回発生するとします。このとき、\( X \) がポアソン分布に従う場合、事象が単位時間以内に \( k \) 回発生する確率は、次のように表されます。\[
P(X = \textcolor{blue}{ k } ) = \frac{\textcolor{red}{ \lambda }^{\textcolor{blue}{ k } } }{\textcolor{blue}{ k } !} e^{ - \textcolor{red}{ \lambda } }
\]

ここで、単位時間 → 時間 \( t \) におきかえてみましょう。すると、経過時間 \( t \) において事象の発生する確率は \( \lambda t \) となります。そのため、事象が \( t \) 以内に \( k \) 回発生する確率 \( P(X=k) \) は、つぎのように表されます。\[
P(X = \textcolor{blue}{ k } ) = \frac{\textcolor{red}{ \lambda t }^{\textcolor{blue}{ k } } }{\textcolor{blue}{ k } !} e^{ - \textcolor{red}{ \lambda t } }
\]

事象が1回も発生しない確率 \( P(X=0) \) が欲しいので、1つ前の式に \( k = 0 \) を代入することで、つぎのように求められます。\[\begin{align*}
P(X = \textcolor{blue}{ k } ) & = \frac{\textcolor{red}{ \lambda t }^{\textcolor{blue}{ 0 } } }{\textcolor{blue}{ 0 } !} e^{ - \textcolor{red}{ \lambda t } }
\\ & = e^{- \lambda t}
\end{align*}\]

よって、「ある時間 \( t \) が経過するまでに、少なくとも事象が1回が発生する確率 \( P(X \geqq 1) \)」がつぎのように導出できます。\[\begin{align*}
P( X \geqq 1 ) & = 1 - P(X=0)
\\ & = 1 - e^{- \lambda t}
\end{align*}\]この式が、指数分布の累積分布関数となります。

3. 例題で確認

ここからは、実際の問題例を通じて、指数分布の理解度を深めていきましょう。

例題

桃山工場で生産しているご飯盛り付け機（以後、機械と表記する。）がある。この機械は、過去のデータから、故障するまでの平均日数が1,000日であることが判明している。このとき、つぎの(1), (2)の問いに答えなさい。答えは小数第2位まで記すこと。

(1) 機械が500日以内に故障する確率を求めなさい。

(2) 機械が少なくとも1,500日間正常に稼働し続ける（＝故障が発生しない）確率を求めなさい。

※ 必要であれば、以下の表で与えられる指数関数の値を用いてもよい。

\( x \)	0.5	1.0	1.5	2.0	2.5	3.0
\( e^x \)	1.649	2.718	4.482	7.389	12.182	20.086

(1)

まず、機械の故障までの平均日数が1,000日であることから、1,000日を1単位時間としましょう。

この場合、単位時間（＝1,000日）ごとに平均1回の故障が発生するので、\( \lambda = \textcolor{red}{1} \) となります。

今回求めたい確率は、500日（＝0.5単位時間）以内に故障する確率なので、\( t = \textcolor{blue}{0.5} \) となります。

あとは、指数分布の累積分布関数\[
F(t) = 1 - e^{- \lambda t}
\]に、\( \lambda = 1 \), \( t = 0.5 \) を代入すればOKです。\[\begin{align*}
F(0.5) & = 1 - e^{- 1 \cdot 0.5}
\\ & = 1 - e^{-0.5}
\\ & = 1 - \frac{1}{e^{0.5}}
\\ & \fallingdotseq 1 - \frac{1}{1.649}
\\ & = 1 - 0.606
\\ & = 0.394
\end{align*}\]

したがって、機械が500日以内に故障する確率は 0.39 と求められます。

(2)

機械が少なくとも1,500日正常に稼働し続ける（＝故障しない）確率を求めていきます。

この確率は、1から「1,500日以内（＝1.5単位時間）に機械が壊れる確率」から引くことで求めることができます。（余事象）

1,500日以内に機械が壊れる確率は、指数分布の累積分布関数\[
F(t) = 1 - e^{- \lambda t}
\]に、\( \lambda = \textcolor{red}{1} \), \( t = \textcolor{blue}{1.5} \) を代入すれば求めることが出来ます。\[\begin{align*}
F(1.5) & = 1 - e^{- 1 \cdot 1.5}
\\ & = 1 - e^{-1.5}
\\ & = 1 - \frac{1}{e^{1.5}}
\end{align*}\]※ 指数関数は、最後に近似します。

よって、少なくとも1,500日機械が稼働する確率は、次のように計算できます。\[\begin{align*}
1 - F(1.5) & = 1 - \left( 1 - \frac{1}{e^{1.5}} \right)
\\ & = \frac{1}{e^{1.5}}
\\ & \fallingdotseq \frac{1}{4.482}
\\ & = 0.223
\end{align*}\]

したがって、機械が少なくとも1,500日正常に稼働し続ける確率は 0.22 と求められます。

4. 指数分布の確率密度関数

指数分布の累積分布関数は、次のように表されるのでしたね。\[
F(t) = 1 - e^{- \lambda t} \ \ \ (t \geqq 0)
\]

確率密度関数 \( f(t) \) は、この累積分布関数 \( F(t) \) を時間 \( t \) で微分することで求めることができます。

実際に微分すると、\[\begin{align*}
f(t) & = \frac{d}{dt} F(t)
\\ & = \frac{d}{dt} \left( 1 - e^{- \lambda t} \right)
\\ & = \lambda e^{- \lambda t}
\end{align*}\]と導出することができます。

指数分布の確率密度関数

指数分布の確率密度関数 \( f(t) \) は、以下の通りである。ただし、\( t \geqq 0 \) である。\[
f(t) = e^{- \lambda t}
\]※ \( t < 0 \) のとき、\( f(t) = 0 \)。

5. 指数分布の期待値・分散

指数分布の期待値と分散

指数分布で表される確率変数 \( X \) の期待値 \( E(X) \)、分散 \( V(X) \) は以下の通りである。\[
E(X) = \frac{1}{ \lambda} , \ \ \ V(X) = \frac{1}{ \lambda^2 }
\]

指数分布の確率密度関数\[
\lambda e^{- \lambda t} \ \ \ (t \geqq 0)
\]から、期待値と分散を導出していきましょう。

※ 導出の途中で、解析学の知識（部分積分、ロピタルの定理、広義積分）を使います。復習したい方は、以下の記事にて学習ができます。

うさぎでもわかる解析　Part1　ロピタルの定理

今回は高校生が極限計算で大好きな定理であるロピタルの定理についてまとめました。ロピタルの定理は、それこそ神の公式と思って

うさぎでもわかる解析（高校数学・数3）　Part06　部分積分（部分積分の連鎖公式：ブンブン・瞬間部分積分）

数3の微積、解析学の中でも特に計算量が多くなる部分積分についてまとめました。部分積分の基本公式、部分積分を素早く行う計算

うさぎでもわかる解析　Part11　広義積分（広義積分の基本と注意点）・優関数の原理

今回は定積分と極限が組み合わさった広義積分についてまとめています。普通の定積分と広義積分の違い、広義積分において気をつけ

(1) 期待値

確率密度関数 \( f(t) \) で表される確率変数 \( X \) の期待値 \( E(X) \) は、次のように計算できるのでしたね。\[
E(X) = \int^{\infty}_{- \infty} t f(t) \ dt
\]

実際に、指数分布をこの式に代入して計算してみましょう。\[\begin{align*}
E(X) & = \int^{\infty}_{- \infty} t f(t) \ dt
\\ & = \int^{\infty}_{0} t\lambda e^{- \lambda t} \ dt
\\ & = \lim_{R \to \infty} \int^{R}_{0} t \lambda e^{- \lambda t} \ dt
\\ & = \lim_{R \to \infty} \left[ - t e^{- \lambda t} \right]^{R}_{0} - \int^{R}_{0} - e^{- \lambda t} \ dt
\\ & = \lim_{R \to \infty} - R e^{- \lambda R} - \left( 0 \cdot e^{- \lambda \cdot 0} \right) - \int^{R}_{0} - e^{- \lambda t} \ dt
\\ & = \lim_{R \to \infty} - R e^{- \lambda R} - \left[\frac{1}{ \lambda} e^{- \lambda t} \right]^{R}_{0}
\\ & = \lim_{R \to \infty} - R e^{- \lambda R} - \left( \frac{1}{ \lambda} e^{- \lambda R} - \frac{1}{ \lambda} e^{- \lambda \cdot 0} \right)
\\ & = \lim_{R \to \infty} - R e^{- \lambda R} - \frac{1}{ \lambda} e^{- \lambda R} + \frac{1}{ \lambda} \cdot 1
\\ & = \lim_{R \to \infty} - \frac{R}{ e^{ \lambda R} } - \frac{1}{ \lambda e^{ \lambda R} } + \frac{1}{ \lambda} \cdot 1
\\ & = \lim_{R \to \infty} - \frac{ \lambda R + 1 }{\lambda e^{\lambda R}} + \frac{1}{ \lambda }
\\ & = \frac{1}{ \lambda } - \underbrace{ \lim_{R \to \infty} \frac{ \lambda R + 1 }{\lambda e^{\lambda R} } }_{ \mathrm{ロピタルの定理} }
\\ & = \frac{1}{ \lambda } - \underbrace{ \lim_{R \to \infty} \frac{ \lambda }{\lambda^2 e^{\lambda R}} }_{0}
\\ & = \frac{1}{ \lambda }
\end{align*}\]と導出できます。

よって、指数分布の期待値を\[
E(X) = \frac{1}{ \lambda }
\]と導出することができます。

(2) 分散

確率密度関数 \( f(t) \) の分散は、次のように計算できるのでしたね。\[\begin{align*}
V(X) & = E(X^2) - \left\{ E(X) \right\}^2
\\ & = \int^{\infty}_{- \infty} t^2 f(t) \ dt - \left\{ E(X) \right\}^2
\end{align*}\]

実際に、\( E(X^2) \) を計算してみましょう。\[\begin{align*}
E(X) & = \int^{\infty}_{- \infty} t^2 f(t) \ dt
\\ & = \int^{\infty}_{0} t^2 \lambda e^{- \lambda t} \ dt
\\ & = \lim_{R \to \infty } \int^{\infty}_{0} \lambda \textcolor{blue}{ \underbrace{ t^2 }_{ \mathrm{微分} } } \textcolor{red}{ \underbrace{ e^{- \lambda t} }_{ \mathrm{積分} } } \ dt
\\ & = \lim_{R \to \infty } \lambda \left[ \textcolor{blue}{ t^2 } \textcolor{red}{ \left( - \frac{1}{\lambda} e^{- \lambda t} \right) } - \textcolor{blue}{2t} \textcolor{red}{ \left( \frac{1}{\lambda^2} e^{- \lambda t} \right) } + \textcolor{blue}{2} \textcolor{red}{ \left( - \frac{1}{\lambda^3} e^{- \lambda t} \right) } \right]^{R}_{0}
\\ & = \lambda \lim_{R \to \infty} \left[ - \frac{t^2 \lambda^2 + 2t \lambda + 2}{\lambda^3 e^{\lambda t}} \right]^{R}_{0}
\\ & = \lambda \lim_{R \to \infty} - \frac{R^2 \lambda^2 + 2R \lambda + 2}{\lambda^3 e^{\lambda R}} - \left( - \frac{0^2 \lambda^2 + 2 \cdot 0 \lambda + 2}{\lambda^3 e^{\lambda \cdot 0}} \right)
\\ & = \lambda \lim_{R \to \infty} - \frac{R^2 \lambda^2 + 2R \lambda + 2}{\lambda^3 e^{\lambda R}} + \frac{2}{ \lambda^3}
\\ & = \frac{2}{ \lambda^3} \cdot \lambda - \lambda \underbrace{ \lim_{R \to \infty} \frac{R^2 \lambda^2 + 2R \lambda + 2}{\lambda^3 e^{\lambda R}} }_{_{ \mathrm{ロピタルの定理} }}
\\ & = \frac{2}{ \lambda^2} - \lambda \underbrace{ \lim_{R \to \infty} \frac{2R \lambda^2 + 2 \lambda }{\lambda^4 e^{\lambda R}} }_{ \mathrm{ロピタルの定理} }
\\ & = \frac{2}{ \lambda^2} - \lambda \underbrace{ \lim_{R \to \infty} \frac{2\lambda^2 }{\lambda^5 e^{\lambda R}} }_{0}
\\ & = \frac{2}{ \lambda^2}
\end{align*}\]※ 部分積分をする際に、省略公式（ブンブン積分）を使用しています。

よって、確率密度関数 \( f(t) \) の分散を、つぎの通りに導出できます。\[\begin{align*}
V(X) & = E(X^2) - \left\{ E(X) \right\}^2
\\ & = \frac{2}{ \lambda^2} - \left( \frac{1}{ \lambda} \right)^2
\\ & = \frac{2}{ \lambda^2} - \frac{1}{ \lambda^2}
\\ & = \frac{1}{ \lambda^2}
\end{align*}\]

指数分布の期待値と分散

指数分布で表される確率変数 \( X \) の期待値 \( E(X) \)、分散 \( V(X) \) は以下の通りである。\[
E(X) = \frac{1}{ \lambda} , \ \ \ V(X) = \frac{1}{ \lambda^2 }
\]

6. 練習問題にチャレンジ

最後に、練習問題を解いて理解が出来ているか確かめましょう。

練習問題

桃山先生が営んでいるカフェ「喫茶モモ」では、10分あたり平均1人の来店がある。このとき、(1)～(4)の問いに答えなさい。

(1) 15分以内に客が来店する確率を求めなさい。
(2) 少なくとも30分間、1人も客が来店しない確率を求めなさい。
(3) つぎの客が来るまでの時間に関する期待値 [分] と、分散 [分²]を答えなさい。
(4) つぎの客が来るまでの時間に関する中央値 [分] 、第1四分位数 [分] 、第3四分位数 [分] を答えなさい。

※1 必要であれば、以下の表で与えられる指数関数の値を用いてもよい。

\( x \)	0.5	1.0	1.5	2.0	2.5	3.0
\( e^x \)	1.649	2.718	4.482	7.389	12.182	20.086

※2 必要であれば、\( \log 2 = 0.693 \), \( \log 3 = 1.099 \) を用いてもよい。ただし、\( \log \) は \( e \) を底とする対数である。

7. 練習問題の答え

今回は、(3),(4)で [分] 単位で答える問題があるので、1単位時間を1分としましょう。

ここで、10分（＝10単位時間）あたり平均1人来店があるので、1単位時間あたりの来店人数は平均0.1人となります。つまり、\( \lambda = \textcolor{red}{0.1} \) となります。

(1)

15分（＝15単位時間）に客が来店する確率は、指数分布の累積分布関数\[
F(t) = 1 - e^{- \lambda t}
\]に、\( t = \textcolor{blue}{15} \) を代入したときの値 \( F(15) \) を求めればOKです。

実際に計算すると、つぎのように計算できます。\[\begin{align*}
F(15) & = 1 - e^{- 0.1 \cdot 15}
\\ & = 1 - e^{1.5}
\\ & = 1 - \frac{1}{e^{1.5}}
\\ & \fallingdotseq 1 - \frac{1}{4.482}
\\ & = 1 - 0.223
\\ & = 0.777
\end{align*}\]

よって、15分以内に客が来店する確率は 0.78 となります。

(2)

少なくとも30分間（＝30単位時間）、1人も客が来店しない確率は、\( t = \textcolor{blue}{30} \) での累積分布関数 \( F(30) \) の補集合、つまり \( 1 - F(30) \) で計算できます。

ここで、\( \lambda = 0.1 \), \( t = 30 \) を累積分布関数\[
F(t) = 1 - e^{- \lambda t}
\]に入れて計算してみましょう。

すると、つぎのように計算ができます。\[\begin{align*}
F(30) & = 1 - e^{- 0.1 \cdot 30}
\\ & = 1 - e^{-3}
\\ & = 1 - \frac{1}{e^3}
\end{align*}\]

よって、\[\begin{align*}
1 - F(30) & = 1 - \left( 1 - \frac{1}{e^3} \right)
\\ & = \frac{1}{e^3}
\\ & \fallingdotseq \frac{1}{20.086}
\\ & = 0.050
\end{align*}\]と計算できるため、少なくとも30分間、1人も客が来店しない確率は0.05と求められます。

(3)

確率変数 \( X \) が指数分布に従う場合、期待値 \( E(X) \), 分散 \( V(X) \) は次のように計算ができます。\[
E(X) = \frac{1}{\lambda}, \ \ \ V(X) = \frac{1}{\lambda^2}
\]

この式に \( \lambda = 0.1 \) を代入すると、つぎの客が来るまでの期待値と分散を求めることができます。

実際に代入すると、\[\begin{align*}
E(X) & = \frac{1}{ \lambda }
\\ & = \frac{1}{ 0.1 }
\\ & = 10
\end{align*}\]\[\begin{align*}
V(X) & = \frac{1}{ \lambda^2 }
\\ & = \frac{1}{ 0.1^2 }
\\ & = \frac{1}{0.01}
\\ & = 100
\end{align*}\]となるため、期待値は 10[分]、分散は100[分²]と求められます。

(4)

中央値

累積分布関数が以下の値となるときの \( t \) の値を求めればOKです。\[
F(t) = \frac{1}{2}
\]

実際に、\( \lambda = 0.1 \) を累積分布関数に入れて \( t \) の値を計算していきましょう。\[
1 - e^{- \lambda t} = \frac{1}{2}
\]\[
- e^{- \lambda t } = - \frac{1}{2}
\]\[
e^{- \lambda t} = \frac{1}{2}
\]\[
\log e^{- \lambda t} = \log \frac{1}{2}
\]\[
- \lambda t = - \log 2
\]\[\begin{align*}
t & = \frac{1}{\lambda} \log 2
\\ & = \frac{1}{0.1} \log 2
\\ & = 10 \log 2
\\ & \fallingdotseq 10 \cdot 0.693
\\ & = 6.93
\end{align*}\]

よって、中央値は6.93[分]となります。

第1四分位数

累積分布関数が以下の値となるときの \( t \) の値を求めればOKです。\[
F(t) = \frac{1}{4}
\]

中央値のときと同じように、\( \lambda = 0.1 \) を累積分布関数に入れて \( t \) の値を計算していきましょう。\[
1 - e^{- \lambda t} = \frac{1}{4}
\]\[
- e^{- \lambda t } = - \frac{3}{4}
\]\[
e^{- \lambda t} = \frac{3}{4}
\]\[
\log e^{- \lambda t} = \log \frac{3}{4}
\]\[
- \lambda t = \log 3 - \log 4
\]\[\begin{align*}
t & = \frac{1}{\lambda} ( \log 4 - \log 3 )
\\ & = \frac{1}{0.1} ( 2 \log 2 - \log 3)
\\ & = 10 ( 2 \log 2 - \log 3)
\\ & \fallingdotseq 10 ( 2 \cdot 0.693 - 1.099)
\\ & = 10 \cdot 0.287
\\ & = 2.87
\end{align*}\]

よって、第1四分位数は2.87[分]となります。

第3四分位数

累積分布関数が以下の値となるときの \( t \) の値を求めればOKです。\[
F(t) = \frac{3}{4}
\]

同じように、\( \lambda = 0.1 \) を累積分布関数に入れて \( t \) の値を計算していきましょう。\[
1 - e^{- \lambda t} = \frac{3}{4}
\]\[
- e^{- \lambda t } = - \frac{1}{4}
\]\[
e^{- \lambda t} = \frac{1}{4}
\]\[
\log e^{- \lambda t} = \log \frac{1}{4}
\]\[
- \lambda t = - \log 4
\]\[\begin{align*}
t & = \frac{1}{\lambda} \log 4
\\ & = \frac{1}{0.1} 2 \log 2
\\ & = 20 \log 2
\\ & \fallingdotseq 20 \cdot 0.693
\\ & = 13.86
\end{align*}\]

よって、第3四分位数は13.86[分]となります。

注釈[+]

注釈
↑1	累積分布関数とは、ある確率変数が特定の値以下になる確率を表す関数です

うさぎでもわかる確率・統計　ポアソン分布

ももうさ — Sat, 24 Aug 2024 09:55:57 +0000

こんにちは、ももやまです。

今日は、確率・統計分野の中で出てくるポアソン分布と、ポアソン分布を使った確率を求める計算方法を紹介していきます。

※ 本記事には、二項分布の内容が出てきます。「二項分布ってなんだっけ？」とか「二項分布忘れちゃったな」という人は、下の記事にて復習することをおすすめします。

1週間で完成！　うさぎでもわかる確率分布と統計的な推測　2日目　二項分布

今回は「1週間で完成！　うさぎでもわかる確率分布と統計的な推測」に出てくる二項分布についてまとめています。二項分布とはど

1. ポアソン分布とは？

ポアソン分布とは、「ごく稀にしか起こらないけど、いつ起こるか分からない出来事」の回数」をモデル化したものです。

このモデル化をしたデータを元に、事象が起こる確率を近似的に求めることができるのがポアソン分布の強みです。

例えば、こんな問題を求めることができるようになります。

※ 実際にどう解くかは、4章の「例題でポアソン分布の理解を深めよう」で説明します。

例題1

1%の確率で1等が出るくじがある。このくじに100回チャレンジしたとき、1等が2回出る確率を求めなさい。

例題2

桃山先生が書くプログラムは、平均して100行ごとに1個のバグが潜んでいる。桃山先生が300行のコードを書くときに、バグが3個以上潜んでいる確率を求めなさい。

2. ポアソン分布を用いた確率導出公式

ある事象がポアソン分布に従う（or 近似できる）場合、事象が起こる確率を以下の公式で簡単に求めることができます。

ポアソン分布の公式

ある事象が単位時間あたりに、平均して \( \lambda \) 回発生するとする。

このとき、同じ単位時間内に事象が \( \textcolor{blue}{ k } \) 回発生する確率 \( P(X = \textcolor{blue}{ k } ) \) は、確率変数 \( X \) がポアソン分布 \( \mathrm{Po} ( \lambda ) \) に従うことを利用して、つぎのように計算できる。\[
P(X = \textcolor{blue}{ k } ) = \frac{\textcolor{red}{ \lambda }^{\textcolor{blue}{ k } } }{\textcolor{blue}{ k } !} e^{ - \textcolor{red}{ \lambda } }
\]

※1 \( \lambda \) のことを、ポアソン分布のパラメータと呼びます。

※2 \( \mathrm{Po} ( \textcolor{red}{ \lambda } ) \) は、「事象が平均 \( \textcolor{red}{ \lambda } \) 回発生する状況でのポアソン分布」を表します。この表記は、本記事ではあまり使いませんが、試験などで出てきた際に理解できるように、こういう表記があるんだなと頭に入れておきましょう。

※3 ポアソン分布を使用して確率を求める際には、次の条件を満たす必要があります。ただし、テストで出てくる問題では、以下の条件はすべて満たしているのであまり気にする必要はありません。

【ポアソン分布を使うため条件】

同じ瞬間に、複数の事象が起こらないこと。
事象が起こる確率は常に一定であること。
（例えば、1時間に平均3回の事象が起こる場合、どの時間を切り出しても必ず事象が起こる確率は1時間に平均3回であること。）
事象が独立していること。
（例えば、1時間に平均3回の事象が起こる場合、最初の30分で10回の事象が起こったとしても、後ろの30分で事象が起こる確率は変わらず1時間に平均3回であること。）

公式導出

[i] 二項分布からポアソン分布へ

二項分布とは、結果が2通りしかない^[1]例: コイントスをして表が出るか裏が出るか事象を複数回（\( n \) 回）行ったときに事象が発生する回数 \( X = k \) をモデル化したものでしたね。

ここで、\( X \) が二項分布 \( B(n,p) \) （試行回数: \( n \)、事象発生確率 \( p \)）と従うとき、事象が発生する回数の期待値 \( E(X) \) は、\( E(x) = np \) となるのでしたね。

ポアソン分布では、試行回数 \( n \) を十分に大きくし、\( p \) を十分に小さくし、なおかつ二項分布の期待値 \( E(X) \) が一定値 \( \lambda \)、つまり \( E(X) = np = \lambda \) となる状態を考えます。

[ii] 公式が導出されるまでの流れ

まず、ある試行を \( n \) 回行ったとき、事象が \( k \) 回発生する確率 \( P( X = k ) \) は、つぎのように書くことができます。\[
P(X = k) = {}_n \mathrm{C}_k \ p^k (1-p)^{n-k}
\]

この式を、少し変形してから、次の2つに分けてみましょう。\[\begin{align*}
P(X = k) & = {}_n \mathrm{C}_k \ p^k (1-p)^{n-k}
\\ & = \frac{n!}{k! (n-k)!} p^k (1-p)^{n-k}
\\ & = \frac{1}{k!} \cdot \frac{n!}{(n-k)!} p^k (1-p)^{n-k}
\\ & = \textcolor{deepskyblue}{\frac{1}{k!}} \cdot \textcolor{magenta}{ \frac{n!}{(n-k)!} p^k } \cdot \textcolor{purple}{ (1-p)^{n-k} }
\end{align*}\]

ここで2つ目のピンク色部分の式は、\( n \) が十分に大きい、つまり \( n \to \infty \) を満たすとき、次の式が成立します。。\[\begin{align*}
\lim_{n \to \infty} \textcolor{magenta}{ \frac{n!}{(n-k)!} p^k } & = \lim_{n \to \infty} n (n-1)(n-2) \cdots \left\{ n - (k-1) \right\} p^k
\\ & = \lim_{n \to \infty} \left\{ \frac{n}{n} \cdot \frac{n-1}{n} \cdot \frac{n-2}{n} \cdots \frac{n-(k-1)}{n} \right\} n^k p^k
\\ & = \lim_{n \to \infty} \left\{ 1 \left( 1 - \frac{1}{n} \right) \left( 1 - \frac{2}{n} \right) \cdots \left( 1 - \frac{k-1}{n} \right) \right\} ( \textcolor{red}{np} )^k
\\ & = \lim_{n \to \infty} \left\{ 1 \underbrace{ \left( 1 - \frac{1}{n} \right) }_{1} \underbrace{ \left( 1 - \frac{2}{n} \right) }_{1} \cdots \underbrace{ \left( 1 - \frac{k-1}{n} \right) }_{1} \right\} \textcolor{red}{\lambda}^k \ \ \ ( \textcolor{red}{\because \lambda = np })
\\ & = 1 \cdot \lambda^k
\\ & = \lambda^k
\end{align*}\]

そのため、\( n \) が十分に大きいとき\[
\textcolor{magenta}{ \frac{n!}{(n-k)!} p^k = \lambda^k }
\]と変形可能です

また、3つ目の紫色部分の式も、\( n \) が十分に大きい、つまり \( n \to \infty \) を満たすとき、次の式が成立します。

\[\begin{align*}
\lim_{n \to \infty} (1-p)^{n-k} & = \lim_{n \to \infty} \left( 1 - \frac{ \lambda }{ n } \right)^{n-k}
\\ & = \lim_{n \to \infty} \left( 1 - \frac{ \lambda }{ n } \right)^n \cdot \left( 1 - \frac{ \lambda }{ n } \right)^{-k}
\\ & = \textcolor{red}{\lim_{n \to \infty} \left( 1 - \frac{ \lambda }{ n } \right)^n } \cdot \left( 1 - \frac{ \lambda }{ n } \right)^{-k}
\\ & = \textcolor{red}{ e^{- \lambda} } \cdot 1
\\ & = e^{- \lambda}
\end{align*}\]

そのため、\( n \) が十分に大きいとき\[
\textcolor{purple}{ (1-p)^{n-k} = e^{- \lambda} }
\]と変形可能です^[2]。ただし、赤色部分の式変形で \( e \) の定義式\[\lim_{n \to \infty} \left( 1 + \frac{ 1 }{ n } \right)^n = … Continue reading

これら3つの式を組み合わせることで、ポアソン分布の公式をつぎのように導出できます。\[\begin{align*}
P(X = k) & = {}_n \mathrm{C}_k \ p^k (1-p)^{n-k}
\\ & = \textcolor{deepskyblue}{\frac{1}{k!}} \cdot \textcolor{magenta}{ \frac{n!}{(n-k)!} p^k } \cdot \textcolor{purple}{ (1-p)^{n-k} }
\\ & = \textcolor{deepskyblue}{\frac{1}{k!}} \cdot \textcolor{magenta}{ \lambda^k } \cdot \textcolor{purple}{ e^{ - \lambda } }
\\ & = \frac{\lambda^k}{k!} e^{ - \lambda }
\end{align*}\]

3. ポアソン分布の期待値・分散

つぎに、ポアソン分布に従う確率変数 \( X \) の期待値 \( E(X) \)、分散 \( V(X) \) がどのようになるか、確認しましょう。

(1) ポアソン分布の期待値 \( E(X) \)

ポアソン分布は、「二項分布における、試行回数 \( n \) が非常に大きく、\( p \) が非常に小さい状況」を考えます。このとき、二項分布の期待値が一定値 \( \lambda \) となるように、\( n \), \( p \) の値を調整します。

そのため、ポアソン分布の期待値 \( E(X) \) はつぎの通りとなります。\[
E(X) = \lambda
\]

(2) ポアソン分布の分散 \( V(X) \)

二項分布の分散は、\[\begin{align*}
V(X) & = np(1-p)
\\ & = E(X) \cdot (1-p)
\end{align*}\]と定義されます。

ここで、ポアソン分布は \( p \) が非常に小さい状態を考えます。そのため、\( 1 - p \fallingdotseq 1 \) と近似することができます。

したがって、ポアソン分布の分散 \( V(X) \) はつぎのように計算できます。\[\begin{align*}
V(X) & = E(X) \cdot (1-p)
\\ & = E(X) \cdot 1
\\ & = E(X)
\\ & = \lambda
\end{align*}\]

分散 \( V(X) \) が、期待値 \( E(X) = \lambda \) と等しくなるのがポアソン分布の特徴です！

そのため、ポアソン分布の期待値は定義そのもの \( E(X) = \lambda \) となります。

ポアソン分布の期待値と分散

確率変数 \( X \) がポアソン分布\[
P(X = k) = \frac{\lambda^k}{k!} e^{ - \lambda }
\]に従うとき、期待値 \( E(X) \) と分散 \( V(X) \) はつぎのように計算できる。\[
E(X) = \lambda
\]\[
V(X) = \lambda
\]

期待値と分散が等しくなるのが、ポアソン分布の特徴！

4. 例題でポアソン分布の理解を深めよう

では実際に、ポアソン分布を使った確率計算を2つの例題で体験してみましょう。

(1) 例題1．

例題1

1%の確率で1等が出るくじがある。このくじに100回チャレンジしたとき、1等が2回出る確率を求めなさい。（小数第2位まで求めること。）

※ 必要であれば、\( e = 2.718 \)、\( e^2 = 7.389 \) としなさい。

[解説]

まず、1%で当たるくじを100回引いたときに、1等が出る回数の期待値は次のように求められます。\[
100 \times \frac{1}{100} = 1
\]

つまり、くじを100回引くという事象を行ったときに1等が平均して1回出ることが期待されます。なので、ポアソン分布のパラメータ \( \textcolor{red}{\lambda} \) は、\( \textcolor{red}{\lambda = 1} \) となります。

今回は、1等が2回出る確率 \( P (X = \textcolor{blue}{2} ) \) 、つまり \( \textcolor{blue}{k = 2} \) となる確率を求めます。あとは、ポアソン分布の公式\[
P(X = k) = \frac{\textcolor{red}{\lambda}^\textcolor{blue}{k}}{\textcolor{blue}{k} !} e^{ - \textcolor{red}{\lambda} }
\]に平均 \( \textcolor{red}{\lambda = 1} \)、事象が発生した回数 \( \textcolor{blue}{k = 2} \) を代入して、\[\begin{align*}
P(X = \textcolor{blue}{2}) & = \frac{\textcolor{red}{1}^\textcolor{blue}{2}}{\textcolor{blue}{2} !} e^{ - \textcolor{red}{1} }
\\ & = \frac{1}{2} e^{-1}
\\ & = \frac{1}{2} \cdot \frac{1}{2.718}
\\ & = \frac{1}{5.436}
\\ & = 0.184
\end{align*}\]と計算できるため、、1等が2回出る確率は 0.18 と求められます。

※ 二項分布でつぎのように計算しても、確率 0.18 を導出することができます^[3]こんな計算、手では絶対したくありませんよね！。ポアソン分布での近似がうまく行っているということですね！\[
100 \mathrm{C}_2 \left( \frac{1}{100} \right)^2 \left( \frac{99}{100} \right)^{98} \fallingdotseq 0.18
\]

(2) 例題2．

例題2

桃山先生が書くプログラムは、平均して100行ごとに1個のバグが潜んでいる。ある日、桃山先生が300行のコードを書くこととなった。つぎの(1), (2)の問いに答えなさい。（答えは、小数第2位まで求めること。）

(1) 桃山先生が書いた300行のコードの中に、バグが1つも潜んでいない確率を求めなさい。
(2) 桃山先生が書いた300行のコードの中に、バグが3個以上潜んでいる確率を求めなさい。

※ 必要であれば、\( e = 2.718 \)、\( e^2 = 7.389 \)、\( e^3 = 20.085 \) としなさい。

[解説]

(1)

平均して100行ごとに1個のバグが潜んでいるということは、300行のコードを書いた際は、平均して3個のバグが潜んでいるといえます。\[
\frac{300}{100} \times 1 = 3
\]そのため、ポアソン分布のパラメータ \( \textcolor{red}{\lambda} \) は、\( \textcolor{red}{\lambda = 3} \) となります。

今回は、バグが1つも潜んでいない確率 \( P (X = \textcolor{blue}{0} ) \) 、つまり \(\textcolor{blue}{k = 0}\) となる確率を求めます。

あとは、ポアソン分布の公式に平均 \( \textcolor{red}{\lambda = 3} \)、事象が発生した回数 \( \textcolor{blue}{ k = 0 } \) を代入すればOKです。\[
P(X = k) = \frac{\textcolor{red}{\lambda}^\textcolor{blue}{k}}{\textcolor{blue}{k} !} e^{ - \textcolor{red}{\lambda} }
\]

実際に代入すると、確率を次のように求められます。\[\begin{align*}
P(X = \textcolor{blue}{0}) & = \frac{\textcolor{red}{3}^\textcolor{blue}{0}}{\textcolor{blue}{0} !} e^{ - \textcolor{red}{3} }
\\ & = \frac{1}{1} e^{-3}
\\ & = \frac{1}{20.085}
\\ & = \frac{1}{5.436}
\\ & = 0.050
\end{align*}\]

よって、バグが1つも潜んでいない確率は 0.05 と求められます。

(2)

バグが3個以上 \( P( X \geqq 3) \) 潜んでいる確率を求めるためには、バグが2個以下である確率 \( P( X \leqq 2) \) を計算し、その値を1から引く方法をとります。\[
P( X \geqq 3) = 1 - P( X \leqq 2)
\]

ここで、バグが2個以下である確率は、

[i] バグが1つも潜んでいない確率 \( P( X = 0) \)
[ii} バグが1つ潜んでいる確率 \( P( X = 1) \)
[iii] バグが2つ潜んでいる確率 \( P( X = 2) \)

の和で計算ができます。

[i] バグが1つも潜んでいない確率 \( P(X = \textcolor{blue}{0}) \)

(1)の計算結果を利用できます。\[\begin{align*}
P(X = \textcolor{blue}{0}) & = \frac{\textcolor{red}{3}^\textcolor{blue}{0}}{\textcolor{blue}{0} !} e^{ - \textcolor{red}{3} }
\\ & = e^{-3}
\end{align*}\]※ \( e^3 = 20.085 \) の代入は、[i]〜[iii]をすべて足す時に行います。

[ii] バグが1つも潜んでいる確率 \( P(X = \textcolor{blue}{1}) \)

\[\begin{align*}
P(X = \textcolor{blue}{1}) & = \frac{\textcolor{red}{3}^\textcolor{blue}{1}}{\textcolor{blue}{1} !} e^{ - \textcolor{red}{3} }
\\ & = \frac{3}{1} e^{-3}
\\ & = 3 e^{-3}
\end{align*}\]

[iii] バグが2つも潜んでいる確率 \( P(X = \textcolor{blue}{2}) \)

\[\begin{align*}
P(X = \textcolor{blue}{2}) & = \frac{\textcolor{red}{3}^\textcolor{blue}{2}}{\textcolor{blue}{2} !} e^{ - \textcolor{red}{3} }
\\ & = \frac{9}{2} e^{-3}
\end{align*}\]

よって、バグが2個以下である確率 \( P( X \leqq 2) \) は、つぎのように計算できます。\[\begin{align*}
P( X \leqq 2) & = P( X = 0 ) + P( X = 1 ) + P( X = 2 )
\\ & = e^{-3} + 3 e^{-3} + \frac{9}{2} e^{-3}
\\ & = \frac{17}{2} e^{-3}
\\ & = \frac{17}{2} \cdot \frac{1}{20.085}
\\ & = \frac{17}{40.17}
\\ & = 0.423
\end{align*}\]

バグが3個以上潜んでいる確率 \( P( X \geqq 3) \) は、全体(1)から、バグが2個以下である確率 \( P( X \leqq 2) \) を引けばよいので、計算結果はつぎの通りとなります。\[\begin{align*}
P( X \geqq 3) & = 1 - P( X \leqq 2)
\\ & = 1 - 0.423
\\ & = 0.577
\end{align*}\]よって、バグが3つ以上潜んでいる確率は 0.58 と求められます。

5. 練習問題で確認！

最後に、練習問題でポアソン分布が理解できるかを確認しましょう！

練習問題

桃山先生が営んでいるラーメン店「ラーメン桃山」では、15分あたり平均2人の来店がある。来店人数がポアソン分布に従うと仮定できるとき、つぎの(1)〜(3)の問いに答えなさい。

(1) 30分あたりの来店人数の期待値、分散を求めなさい。

(2) 30分間に1人も来店しない確率を求めなさい。（小数第2位まで記すこと。）

(3) 30分間の来店人数が2人以下となる確率を求めなさい。（小数第2位まで記すこと。）

※ 必要であれば、\( e = 2.718 \)、\( e^2 = 7.389 \)、\( e^3 = 20.085 \) 、\( e^4 = 54.598 \) としなさい。

6. 練習問題の答え

(1)

15分あたり平均2人の来店があるということは、30分あたりの来店人数の期待値は次のように求められます。\[
\frac{30}{15} \times 2 = 4
\]

よって、30分あたりの来店人数の期待値は4人となります。

また、ポアソン分布の特徴として、期待値と分散は同じ値になります。

したがって、30分あたりの来店人数の分散も4となります。

(2)

30分あたりの来店人数の期待値は4人なので、ポアソン分布のパラメータ \( \textcolor{red}{\lambda} \) は、 \( \textcolor{red}{\lambda = 4} \) となります。

今回求めたい確率は、30分間に1人も来店しない確率 \( P (X = \textcolor{blue}{0} ) \) なので、\( \textcolor{blue}{k = 0} \) ですね。

あとは、ポアソン分布の公式\[
P(X = k) = \frac{\textcolor{red}{\lambda}^\textcolor{blue}{k}}{\textcolor{blue}{k} !} e^{ - \textcolor{red}{\lambda} }
\]に平均 \( \textcolor{red}{\lambda = 4} \)、事象が発生した回数 \( \textcolor{blue}{k = 0} \) を代入して、\[\begin{align*}
P(X = \textcolor{blue}{0}) & = \frac{\textcolor{red}{4}^\textcolor{blue}{0}}{\textcolor{blue}{2} !} e^{ - \textcolor{red}{4} }
\\ & = \frac{1}{1} e^{-4}
\\ & = e^{-4}
\\ & = \frac{1}{54.598}
\\ & = 0.018
\end{align*}\]と計算できるため、30分間に1人も来店しない確率は 0.02 と求められます。

(3)

30分間の来店人数が2人以下となる確率確率は、

[i] 30分間に1人も来店しない場合の確率 \( P( X = 0) \)
[ii} 30分間に1人来店する場合の確率 \( P( X = 1) \)
[iii] 30分間に2人来店する場合の確率 \( P( X = 2) \)

の和で計算ができます。

[i] 30分間に1人も来店しない場合の確率 \( P(X = \textcolor{blue}{0}) \)

(2)の計算結果を利用できます。\[\begin{align*}
P(X = \textcolor{blue}{0}) & = \frac{\textcolor{red}{4}^\textcolor{blue}{0}}{\textcolor{blue}{0} !} e^{ - \textcolor{red}{4} }
\\ & = e^{-4}
\end{align*}\]※ \( e^4 = 54.598 \) の代入は、[i]〜[iii]をすべて足す時に行います。

[ii] 30分間に1人来店する場合の確率 \( P(X = \textcolor{blue}{1}) \)

\[\begin{align*}
P(X = \textcolor{blue}{1}) & = \frac{\textcolor{red}{4}^\textcolor{blue}{1}}{\textcolor{blue}{1} !} e^{ - \textcolor{red}{4} }
\\ & = \frac{4}{1} e^{-4}
\\ & = 4 e^{-4}
\end{align*}\]

[iii] 30分間に2人来店する場合の確率 \( P(X = \textcolor{blue}{2}) \)

\[\begin{align*}
P(X = \textcolor{blue}{2}) & = \frac{\textcolor{red}{4}^\textcolor{blue}{2}}{\textcolor{blue}{2} !} e^{ - \textcolor{red}{4} }
\\ & = \frac{16}{2} e^{-4}
\\ & = 8 e^{-4}
\end{align*}\]

よって、30分間の来店人数が2人以下となる確率 \( P( X \leqq 2) \) は、つぎのように計算できます。\[\begin{align*}
P( X \leqq 2) & = P( X = 0 ) + P( X = 1 ) + P( X = 2 )
\\ & = e^{-4} + 4 e^{-4} + 8 e^{-4}
\\ & = 13 e^{-4}
\\ & = 13 \cdot \frac{1}{54.598}
\\ & = 0.238
\end{align*}\]

よって、30分間の来店人数が2人以下となる確率は 0.24 と求められます。

注釈[+]

注釈
↑1	例: コイントスをして表が出るか裏が出るか
↑2	。ただし、赤色部分の式変形で \( e \) の定義式\[ \lim_{n \to \infty} \left( 1 + \frac{ 1 }{ n } \right)^n = e \]を使った変形をしているため注意です。具体的には、つぎのように変形をして赤色の式部分が \( e^{- \lambda} \) となることを導出しています。\[\begin{align} \lim_{n \to \infty} \left( 1 - \frac{ \lambda }{ n } \right)^n & = \lim_{n' \to \infty} \left( 1 - \frac{ \lambda }{ - n' \lambda} \right)^{ - n' \lambda } \ \ \ \left( n = - n' \lambda , \ \ \ n' \to \infty\right) \\ & = \lim_{n' \to \infty} \left( 1 + \frac{ 1 }{ n' } \right)^{ - n' \lambda } \\ & = \lim_{n' \to \infty} \left\{ \underbrace{ \left( 1 + \frac{ 1 }{ n' } \right)^{n'} }_{e} \right\}^{ - \lambda } \\ & = e^{ - \lambda } \end{align}\]※ \
↑3	こんな計算、手では絶対したくありませんよね！

うさぎでもわかる確率・統計　F分布のいろは③　一元配置分散分析

ももうさ — Fri, 23 Aug 2024 02:05:31 +0000

こんにちは、ももやまです。

F分布のいろは①では、「F分布とはどんなものなのか」というところから、「F分布を用いて母分散の比率の区間推定」について勉強しました。

うさぎでもわかる確率・統計　F分布のいろは①　母分散の比の区間推定

こんにちは、ももやまです。今回から3回に分けてF分布についてお勉強していきましょう。第1回目は、まず「母分散の比の区間推定

また、F分布のいろは②では、F分布を使って2つのグループ（標本）の分散が等しいかどうかを検定する「等分散性の検定」の方法について勉強しました。

うさぎでもわかる確率・統計　F分布のいろは②　等分散性の検定

こんにちは、ももやまです。前回のF分布のいろは①では、「F分布とはどんなものなのか」というところから、「F分布を用いて母分

今回のF分布のいろは③では、3グループ以上の母平均がすべて等しいか否かを判定することができる「一元配置分散分析」について勉強していきましょう！

F分布表

例題、練習問題を解く際にお使いください。

F分布表ダウンロード

t分布表

例題、練習問題を解く際にお使いください。

※ 使っている参考書や授業に合わせて、両側t分布表、片側t分布表を選択することをおすすめします。なお、統計検定の場合、与えられる表は片側t分布表です。

両側t分布表ダウンロード

片側t分布表ダウンロード

1. 一元配置分散分析とは？

一元配置分散分析とは、3つ以上の異なるグループ（標本）の母平均がすべて等しいかどうかを、各データのばらつき度合いから検定する方法です。

具体的には、各データのばらつきを「グループ間のばらつき」と「グループ内のばらつき」に分解し、「グループ間のばらつき」に対する「グループ内のばらつき」の比率から、3つ以上の異なるグループ（標本）の母平均がすべて等しいとみなせるかを検定します。

※ 「郡」はグループのことだと思ってください。グループと表記している箇所もあれば、郡と表記している箇所もあります。

2. 一元配置分散分析で出てくる用語解説

例題を見る前に、一元配置分散分析をする上で、覚えておきたい用語を見ておきましょう。

(1) 要因（因子）

要因は、データの値に変化を与えるグループ全体のことを表します。分析対象のものが要因になるという認識でOKです^[1] … Continue reading。

例えば、1組、2組、3組の平均点（母平均）が等しいかどうかを一元配置分散分析で調べる場合、このときの要因は「組」全体を指します。

(2) 水準

水準は、要因を異なる状態やカテゴリーに分けてグループ（郡）化したものです。グループ間のことを「水準間」と表現することが多いので覚えておきましょう。

例えば、1組、2組、3組の平均点（母平均）を等しいとみなしてよいかを一元配置分散分析で調べるとき、このときの水準は「1組」、「2組」、「3組」となります。

要因 (因子) と水準の違い

(3) 残差

残差とは、各データのばらつきを「グループ間のばらつき」と「グループ内のばらつき」に分解した際に、グループ内のばらつきに相当する部分を指します。

全体のばらつきから、グループ間（水準間）のばらつきを取り除いた後に残ったものだから「残差」という解釈でOKです。

3. 例題で一元配置分散分析の流れを確認しよう！

ここからは、実際に例題を使って、一元配置分散分析の流れを確認していきましょう。

例題

桃山高校の1年生を対象とし、1組、2組、3組で数学の小テストを実施した。

ここで、3つの異なるクラスの成績を比較するために、1組、2組、3組の中から数人（4〜5人程度）のテスト結果を確認したところ、以下の結果が得られた。

組	1人目 (点)	2人目 (点)	3人目 (点)	4人目 (点)	5人目 (点)
1組	13	20	20	19	－
2組	7	17	11	12	8
3組	19	18	20	11	－

※ 表内の "−" は、該当するデータが存在しないことを表す。言い換えると、1組、3組からは4人、2組からは5人のデータを抽出している。

この結果をもとに、1組、2組、3組の平均点（母平均）を等しいとみなしてよいか、分散分析によって調べたい。つぎの　

表. 分散分析表

要因	平方平均	\( F \) 値
水準間 [郡間]
残差 [郡内]		−
合計	−	−

(1) 帰無仮説 \( H_0 \) と対立仮説 \( H_1 \) を述べなさい。
(2) 抽出したデータ内における、全体（1組、2組、3組すべて）の平均点（標本平均）と、各組の平均点（標本平均）を求めなさい。
(3) 分散分析表の空欄を埋めなさい。ただし、" − " の箇所は埋めなくて良い。また、平方平均は小数第1位まで、F値は小数第3位まで求めること。
(4) 有意水準（危険率）5%で検定を行う。この検定で使う臨界値をすべて求めなさい。値は小数第3位まで記すこと。
(5) 有意水準（危険率）5%で検定を行い、結果およびその理由を記しなさい。

※ 臨界値：仮説の採択／棄却が変わる境界値のこと。片側検定であれば1つ、両側検定であれば2つある。

※ 必要であれば、こちらからF分布表をダウンロードできます。

(1) 帰無仮説と対立仮説の設定

一元配置分散分析では、帰無仮説で「出てくるすべてのグループ（郡）の母平均が等しいこと」を仮定します。

また、対立仮説は、帰無仮説の否定、つまり「少なくとも1つのグループの母平均が、他のグループの母平均とは異なる」とします^[2] … Continue reading。

今回の例題の場合、帰無仮説 \( H_0 \)、対立仮説 \( H_1 \) は、つぎの通りとなります。

帰無仮説 \( H_0 \): 仮説検定をするための「仮定」
テストの点数(1組)の母平均 \( \mu_1 \)、小テストの点数(2組)の母平均 \( \mu_2 \)、小テストの点数(3組)の母平均 \( \mu_3 \) がすべて等しい、つまり \( \mu_1 = \mu_2 = \mu_3 \)。

対立仮説 \( H_1 \): 仮説検定を否定することで示したいもの

テストの点数(1組)の母平均 \( \mu_1 \)、小テストの点数(2組)の母平均 \( \mu_2 \)、小テストの点数(3組)の母平均 \( \mu_3 \) のうち、少なくとも1つの母平均が異なる。つまり、 \( \mu_1 = \mu_2 = \mu_3 \) が成り立たない。

(2) グループ全体の標本平均、各グループの標本平均を求める

求めたいグループ (or グループ全体)内の点数の合計を、人数で割って標本平均を求めていきましょう。

組	1人目 (点)	2人目 (点)	3人目 (点)	4人目 (点)	5人目 (点)
1組	13	20	20	19	－
2組	7	17	11	12	8
3組	19	18	20	11	－

全体の平均点 \( \overline{X} \)

\( a = 15 \) と仮定して計算するのがおすすめです。

\[\begin{align*}
\overline{X} & = \frac{1}{13} (13+20+20+19+7+17+11+12+8+19+18+20+11)
\\ & = \frac{1}{13} \left\{ (a-2) + (a+5) + (a+5) + (a+4) + (a-8)+ (a+2) + (a-4) + (a-3) + (a-7) + (a+4) + (a+3) + (a+5) - (a-4) \right\}
\\ & = \frac{1}{13} \cdot 13a
\\ & = a
\\ & = 15
\end{align*}\]

1組の平均点 \( \overline{X}_1 \)

\( a = 15 \) と仮定して計算するのがおすすめです。

\[\begin{align*}
\overline{X}_1 & = \frac{1}{4} (13+20+20+19)
\\ & = \frac{1}{4} \left\{ (a-2) + (a+5) + (a+5) + (a+4) \right\}
\\ & = \frac{1}{4} (4a+12)
\\ & = a + 3
\\ & = 18
\end{align*}\]

2組の平均点 \( \overline{X}_2 \)

こちらも、\( a = 15 \) と仮定して計算するのがおすすめです。

\[\begin{align*}
\overline{X}_2 & = \frac{1}{5} (7+17+11+12+8)
\\ & = \frac{1}{5} \left\{ (a-8)+(a+2)+(a-4)+(a-3)+(a-7) \right\}
\\ & = \frac{1}{5} (5a-20)
\\ & = a - 4
\\ & = 11
\end{align*}\]

3組の平均点 \( \overline{X}_3 \)

同じように、\( a = 15 \) と仮定して計算しましょう。

\[\begin{align*}
\overline{X}_3 & = \frac{1}{4} (19+18+20+11)
\\ & = \frac{1}{4} \left\{ (a+4)+(a+3)+(a+5)+(a-4) \right\}
\\ & = \frac{1}{4} (4a+8)
\\ & = a + 2
\\ & = 17
\end{align*}\]

(3) 分散分析表の穴埋め

[i] 平方和（水準間平方和、残差平方和、全体平方和）

分散分析表の、(a)〜(c)を埋める操作に相当します。

要因	平方和	平方平均	\( F \) 値
水準間 [郡間]	(a) \( S_A \)
残差 [群内]	(b) \( S_E \)		−
全体	(c) \( S_T \)	−	−

(a) 水準間平方和・群間平方和 \( S_A \) [SSB]

水準間平方和は、「グループ間のばらつき度合い」をすべて足したものです。群間平方和とも呼ばれます。

水準間平方和は、各グループのデータが、仮にそのグループの平均値だった場合の、全体の平均からのずれの2乗和で計算ができます。

今回の例題の場合は、

1組のデータ: 1組の平均(18)におきかえ
2組のデータ: 2組の平均(11)におきかえ
3組のデータ: 3組の平均(17)におきかえ

をしてから、全体の平均(15)からのずれの2乗和を計算すれば、水準間平方和が求められます。

表. 以下の表内の各データの、全体平均(15)からのズレの2乗をすべて足せばOK

組	平均 (点)	1人目 (点)	2人目 (点)	3人目 (点)	4人目 (点)	5人目 (点)
1組	18	18	18	18	18	－
2組	11	11	11	11	11	11
3組	17	17	17	17	17	－

表. 各データ毎に、ズレの2乗を算出し、グループ単位で合計したもの

上の表の小計部分をすべて足した\[\begin{align*}
S_A & = 36 + 80 + 16
\\ & = 132
\end{align*}\]が、水準間平方和 \( S_A \) となります。

要因	平方和	平方平均	\( F \) 値
水準間 [郡間]	132
残差 [郡内]			−
全体		−	−

なお、この計算は、各グループごとに、グループ平均と全体平均からのずれの2乗を、各グループの標本サイズで掛けて（重み付けして）から、すべて足したものと言い換えられます。

そのため、例題の場合、1組、2組、3組分の郡間誤差をすべて求め、求めたものを足すことで計算できます。

1組の分の小計（標本平均: 18、標本サイズ: 4）\[
4 \times ( \textcolor{magenta}{18} - \textcolor{deepskyblue}{15} )^2 = 4 \times 9 = 36
\]

2組の分の小計（標本平均: 11、標本サイズ: 5）\[
5 \times ( \textcolor{teal}{11} - \textcolor{deepskyblue}{15} )^2 = 5 \times 16 = 80
\]

3組の分の小計（標本平均: 17、標本サイズ: 4）\[
4 \times ( \textcolor{orange}{17} - \textcolor{deepskyblue}{15} )^2 = 4 \times 4 = 16
\]

あとは、3つの組の小計をすべて足したもの\[\begin{align*}
S_A & = 36 + 80 + 16
\\ & = 132
\end{align*}\]が水準間平方和 \( S_A \) です。

b) 残差平方和（群内平方和）[SSW]

残差平方和は、「グループ内のばらつき度合い」をすべて足したものです。水準間（グループ間）とは関係のないばらつきの平方和という意味で、残差平方和と名付けられています。群間平方和とも呼ばれます。

残差平方和は、各データ値ごとに、データ値が属するグループの平均とのズレの2乗を求め、すべて足すこと計算ができます。

今回の例題の場合は、つぎのようにデータ

1組の各データ: 1組の平均(18)とのズレ
2組の各データ: 2組の平均(11)とのズレ
3組の各データ: 3組の平均(17)とのズレ

を計算したものを、すべて足せば残差平方和 \( S_E \) が求められます。

表. 各データ

組	平均 (点)	1人目 (点)	2人目 (点)	3人目 (点)	4人目 (点)	5人目 (点)
1組	18	13	20	20	19	－
2組	11	7	17	11	12	8
3組	17	19	18	20	11	－

表. 各データ毎に、ズレの2乗を算出し、グループ単位で合計したもの

各組（郡、グループ）ごとの誤差の和を小計として出しておいて、最後に小計をすべて足す方法がおすすめです。

実際に計算してみると、1組の小計34、2組の小計80、3組の小計16をすべて足して\[\begin{align*}
S_E & = 34 + 62 + 50
\\ & = 146
\end{align*}\]が残差平方和 \( S_E \) となります。

要因	平方和	平方平均	\( F \) 値
水準間 [郡間]	132
残差 [郡内]	146		−
全体		−	−

c) 全体平方和

全体平方和は、「データ全体のばらつき度合い」をすべて足したものです。

具体的に、各データ値ごとに、データ全体との平均とのズレの2乗を求め、すべて足すこと計算ができます。

今回の例題の場合は、各データごとに、データ値と全体の平均(15)とのズレの2乗和を計算すればOKです。

こちらも、各組（郡、グループ）ごとの誤差の和を小計として出しておいて、最後に小計をすべて足す方法がおすすめです。

実際に計算してみると、1組の小計70、2組の小計142、3組の小計66をすべて足して\[\begin{align*}
S_T & = 70 + 142 + 66
\\ & = 278
\end{align*}\]が全体平方和 \( S_T \) です。

要因	平方和	平方平均	\( F \) 値
水準間 [郡間]	132
残差 [郡内]	146		−
全体	278	−	−

d) 水準間平方和、残差平方和、全体平方和に成り立つ関係

全体平方和は、必ず「水準間平方和」と「残差平方和平方和」の和と等しくなります。つまり、

全体平方和(SST) = 水準間平方和(SSB) + 残差平方和(SSW)

が成り立ちます。（三平方の定理みたいですね。）

そのため、全体平方和、水準間平方和、残差平方和のうち、いずれか2つ求めることができれば、残りの1つが自動的に確定します。

実際に今回の例題を見ても、全体平方和(278) = 水準間平方和(132) + 残差平方和(146)の関係式が成り立っていますね。

要因	平方和
水準間 [郡間]	132
残差 [郡内]	146
合計	278

[ii] 自由度（郡間誤差、郡内誤差、全体誤差）

つぎに、郡間誤差、郡内誤差、全体誤差に対する自由度を求めていきましょう。

分散分析表の、(d)〜(f)を埋める操作に相当します。

要因	平方和	自由度	平方平均	\( F \) 値
水準間 [郡間]	132	(d) \( \phi_A \)
残差 [郡内]	146	(e) \( \phi_E \)		−
全体	278	(f) \( \phi_T \)	−	−

(d) 水準間 (群間) に対する自由度

水準間平方和（群間平方和） \( S_A \) は、グループ（郡）毎に、グループ内の標本平均 \( \overline{X}_i \) と、データ全体の標本平均 \( \overline{X} \) のずれを計算しています。\[
S_A = \sum^{k}_{i = 1} n_i \left( \overline{X}_i - \overline{X}\right)^{2}
\]

このとき、各グループの標本平均を計算するために、グループの数だけ独立した情報が必要だと思うかもしれません。

しかし、実際には、1つのグループを除く他のグループの標本平均がすべてわかっていれば、データ全体の標本平均を使って、残り1つのグループの標本平均を求めることができます。

そのため、水準間の自由度（＝情報量）\( \phi_A \) としては、グループ数 \( k \) から1を引いた \( k = 1 \) なります。\[
\phi_A = k - 1
\]

今回の例題の場合、グループ数は、1組、2組、3組の3つなので \( k = 3 \) です。

組	平均 (点)	1人目 (点)	2人目 (点)	3人目 (点)	4人目 (点)	5人目 (点)
1組	18	13	20	20	19	－
2組	11	7	17	11	12	8
3組	17	19	18	20	11	－

そのため、水準間平方和に対する自由度は 3 - 1 = 2 となります。

要因	平方和	自由度	平方平均	\( F \) 値
水準間 [郡間]	132	2
残差 [郡内]	146			−
全体	278		−	−

(e) 残差 (群内) に対する自由度

残差平方和（群内平方和）\( S_E \) は、あるグループ（\( i \) 番目）に着目したときの、標本平均 \( \overline{X}_i \) と、データ全体の標本平均 \( \overline{X} \) のズレを計算することで求めています。\[
S_E = \sum^{k}_{i = 1} n_i \left( \overline{X}_i - \overline{X}\right)^{2}
\]

ここで、ある \( i \) 番目のグループ内のズレを計算する際の情報量を考えてみましょう。

ズレを計算するには、グループ内にあるすべてのデータが必要です。しかし、1つを除くデータ点がわかっていれば、そのグループの標本平均から、残り1つの未知のデータ点の値を復元できるため、実際のデータ数よりも1つ少ない情報量でズレを計算できます。

この操作をすべてのグループで行うため、各グループのデータ数から1を引いた数を、グループの数 \( k \) 回合計します。

結果として、自由度（＝情報量）\( \phi_E \)としては、データ数 \( N \) からグループ数 \( k \) を引いた \( N - k \) となります。\[
\phi_E = N - k
\]

今回の例題の場合、グループ数は、1組、2組、3組の3つなので \( k = 3 \)、データ数は全部で13個なので \( N = 13 \) ですね。

組	平均 (点)	1人目 (点)	2人目 (点)	3人目 (点)	4人目 (点)	5人目 (点)
1組	18	13	20	20	19	－
2組	11	7	17	11	12	8
3組	17	19	18	20	11	－

そのため、残差に対する自由度は 13 - 3 = 10 となります。

要因	平方和	自由度	平方平均	\( F \) 値
水準間 [郡間]	132	2
残差 [郡内]	146	10		−
全体	278		−	−

(f) 全体の自由度

全体平方和 \( S_T \) は、各データ値ごとに、データ全体の平均からのズレを計算して求めます。\[
S_T = \sum^{k}_{i = 1} \sum^{ n_i }_{ j = 1 } \left( X_{ij} - \overline{X} \right)^2
\]

このズレを計算するには、データ全体に含まれる \( N \) 個のデータが必要です。しかし、仮に1つのデータがわからなかったとしても、他のデータとデータ全体の標本平均から、その1つのデータを復元することが可能です。

したがって、実際のデータ数よりも1つ少ない情報量で全体誤差を求めることができます。そのため、自由度（＝情報量）\( \phi_T \) としては、データ数 \( N \) から1を引いた \( N - 1 \) となります。\[
\phi_T = N - 1
\]

今回の例題の場合、データ数は全部で13個なので \( N = 13 \) ですね。

組	平均 (点)	1人目 (点)	2人目 (点)	3人目 (点)	4人目 (点)	5人目 (点)
1組	18	13	20	20	19	－
2組	11	7	17	11	12	8
3組	17	19	18	20	11	－

そのため、全体の自由度は 13 - 1 = 12 となります。

要因	平方和	自由度	平方平均	\( F \) 値
組 [郡間]	132	2
誤差 [郡内]	146	10		−
全体	278	12	−	−

水準間に対する自由度、残差に対する自由度、全体の自由度に成り立つ関係

全体の自由度は、「水準間に対する自由度」と「残差に対する自由度」に分解して考えることができます。つまり、つぎのような関係が成立します^[3]実際に、全体の自由度 \( N - 1 \)、水準間に対する自由度 \( k-1 \)、残差に対する自由度 \( N - k \) … Continue reading。

全体の自由度 = 水準間に対する自由度 + 残差に対する自由度

平方和（ズレの度合いの合計）だけでなく、自由度も分解ができると頭に入れておきましょう！

[iii] 水準間平方平均・残差平方平均（群間平方平均・残差平方平均）

つぎに、「グループ内のばらつき」と「グループ外のばらつき」を公平に比べるために、水準間平方平均 \( V_A \) 、残差平方平均 \( V_E \) の平方平均を求めます。

\( V_A \) … 1自由度あたりの水準間平方和
\( V_E \) … 1自由度あたりの残差平方和

分散分析表の、(g)〜(h)を埋める操作に相当します。

要因	平方和	自由度	平方平均	\( F \) 値
水準間 [郡間]	132	2	(g) \( V_A \)
残差 [郡内]	146	10	(h) \( V_E \)	−
全体	278	12	−	−

平方平均は1自由度あたりの平方和を表しているため、求め方としては、それぞれの平方和 \( S_A \), \( S_E \) を自由度 \( \phi_A = k-1 \), \( \phi_E = N - k \) で割ればOKです。

(g) 水準間平方平均 [MSB]\[\begin{align*}
V_A & = \frac{S_A}{ \phi_A }
\\ & = \frac{ S_A }{ k - 1}
\\ & = \frac{132}{2}
\\ & = 66.0
\end{align*}\]

(h) 残差平方平均 [MSW]\[\begin{align*}
V_E & = \frac{S_E}{ \phi_E }
\\ & = \frac{ S_E }{ N-k }
\\ & = \frac{146}{10}
\\ & = 14.6
\end{align*}\]

要因	平方和	自由度	平方平均	\( F \) 値
水準間 [郡間]	132	2	66.0
残差 [郡内]	146	10	14.6	−
全体	278	12	−	−

なお、全体平方平均は、一元配置分散分析では使わないため、通常求めません。

なぜ平方平均でズレの度合いを比べるか？

水準間平方和、残差平方和は、ともに各グループ、各データごとにずれの度合いを累積して求める値です。

そのため、ばらつきの度合いに関係なく、データ数やグループ数が増えれば増えるほど平方和も増えてしまいます。これでは、グループ間の誤差とグループ内の誤差を公平に比べることができませんよね^[4] … Continue reading。

そこで、「グループ内のばらつき」と「グループ外のばらつき」の比率をフェアに比べるために、一元配置分散分析では、平方和を自由度で割ることで、ばらつきをグループ数やデータ数に対して調整します^[5] … Continue reading。

この調整により、水準間（グループ間）と残差（グループ内）のばらつきを標準化し、同じ基準で「グループ内のばらつき」と「グループ間のばらつき」の比率を求めることで、グループ間の誤差とグループ内の誤差を公平に比べられるようになります。

[iv] F値（F統計量）

F値は、水準間平方平均（群間平方平均） \( V_A \) が残差平方平均（群内平方平均） \( V_E \) の何倍かを示すパラメータです。

\[
F = \frac{ V_A }{ V_E }
\]

簡単に言うと、F値は「グループ内のばらつき」に対して「グループ外のばらつき」がどれだけ大きいかを示す指標です。具体的には、「1自由度あたりのグループ内のばらつき」に対する「1自由度あたりのグループ外のばらつき」の比率として表されます。

今回の例題の場合、郡間誤差の平方平均は、\( V_A = 66.0 \)、郡内誤差の平方平均は、\( V_E = 14.6 \) でしたね。

そのため、F値は\[\begin{align*}
F & = \frac{ V_A }{ V_E }
\\ & = \frac{66.0}{14.6}
\\ & \fallingdotseq 4.521
\end{align*}\]となります。

要因	平方和	自由度	平方平均	\( F \) 値
水準間 [郡間]	132	2	66.0	4.521
残差 [郡内]	146	10	14.6	−
全体	278	12	−	−

一元配置分散分析のF値と、F分布の関係

一元配置分散分析では、「グループ内のばらつき」と「グループ外のばらつき」のばらつき度合いの比率を基準に、仮説の採択／棄却を設定します。

では、この「2つのばらつきの比率」を表す分布といえば、どの分布が思い浮かびますか？

そう、F分布です。

F分布は、2つの標本のばらつき度合い \( \chi_1^2 \), \( \chi_2^2 \) を、それぞれの自由度 \( k_1 \), \( k_2 \) で正規化した比率を表します。\[
F = \frac{ \frac{ \chi_1^2 }{k_1 } }{ \frac{ \chi_2^2 }{k_2 } }
\]※上の値 \( F \) が自由度 \( (k_1,k_2) \) のF分布に従う。

この性質を利用して、一元配置分散分析では、次のようにF分布を使った仮説検定が行われます。

\( \chi_1^2 \): グループ間のばらつき（水準間平方和 \( S_A \) ）
\( \chi_2^2 \): グループ内のばらつき（残差平方和 \( S_E \) ）
\( k_1 \): グループ間に対する自由度（水準間に対する自由度 \( \phi_A \) ）
\( k_2 \): グループ内に対する自由度（残差に対する自由度 \( \phi_E \) ）

計算式にすると、以下のようになります。\[\begin{align*}
F & = \frac{ \frac{ S_A }{ \phi_A } }{ \frac{ S_E }{ \phi_E } }
\\ & = \frac{ V_A }{ V_E }
\end{align*}\]※ \( V_A \) は水準間平方平均、\( V_E \) は残差平方平均を表します。

この計算で得られたF値は、自由度 \( (\phi_A, \phi_E) \) のF分布に従います。そのため、F分布表から有意水準と対応する自由度 ( (\phi_A, \phi_E) ) の値を読み取り、計算したF値と比較することで仮説の採択または棄却を判断することができるのです。

(4) F分布表の読み取り：臨界値（採択／棄却の境界値）の確認

つぎに、有意水準5%で検定を行う際の臨界値をF分布表から読み取っていきましょう。

一元配置分散分析では、必ず片側検定を行う点に注意が必要です。

その理由は、一元配置分散分析において、「グループ間のばらつき」が「グループ内のばらつき」に対して大きい場合にのみ仮説が誤りであると判断され、少なくとも1つの母平均が異なると言えるからです。

つまり、「グループ間のばらつき」が「グループ内のばらつき」に対して小さい場合は問題がなく、ばらつきが大きい場合のみ問題があると解釈されます。

このため、一元配置分散分析では片側検定が実施されるのです。

今回は有意水準5%、自由度は\[\begin{align*}
(\phi_A, \phi_E) = (2,10)
\end{align*}\]なので、有意水準 \( \alpha = 0.05 \) [5%]、自由度 (2,10) に相当するF値を、F分布表から読み取ります。

すると、4.103と読み取れます。\( F_0 = 4.103 \) とおきましょう。

(5) 結果の判定

あとは、(3)で計算したF値\[\begin{align*}
F & = \frac{ V_A }{ V_E }
\\ & = 4.521
\end{align*}\]および、(4)でF分布表から得た臨界値 \( F_0 = 4.103 \) から結論を出します。

【結論の出し方】

\( F \) が \( F_0 \) 以下のとき、つまり \( F \leqq F_0 \)
→ 仮説は採択：少なくとも1つのグループの母平均が他のグループと有意に異なるとは言えない。（各グループの母平均に有意な差はない。）
\( F \) が \( F_0 \) より大きいとき、つまり \( F > F_0 \)
→ 仮説は棄却：少なくとも1つのグループの母平均が他のグループと有意に異なるといえる。

今回の場合は、\( F = 4.521 \)、F分布表から得た臨界値 \( \chi^2_0 = 4.103 \) より、\[
F = 4.521 > 4.103 = F_0
\]となります。

よって、仮説は棄却され、1組、2組、3組の小テストの点数の母平均のうち、少なくとも1つの母平均が異なると言えます。

まとめ．各平方和の計算方法

\( k \) 個の水準（グループ／郡）からなるデータセットが、以下の表で与えられているとする。

要因	郡サイズ (データ数)	郡平均	データ1	データ2	…
郡1 (水準1)	\( n_1 \)	\( \overline{X}_1 \)	\( X_{11} \)	\( X_{12} \)	…
郡2 (水準2)	\( n_2 \)	\( \overline{X}_2 \)	\( X_{21} \)	\( X_{22} \)	…
︙	︙	︙	︙	︙	⋱
郡k (水準k)	\( n_k \)	\( \overline{X}_k \)	\( X_{k1} \)	\( X_{k2} \)	…

【変数の意味】

\( n_i \) … 郡 \( i \) 内のデータサイズ（データ数）
\( \overline{X} \) … 全データセット内の標本平均
\( \overline{X}_i \) … 郡 \( i \) 内の標本平均
\( X_{ij} \) … 郡 \( i \) 内のデータ \( j \)（\( j \)番目）のデータ値

このとき、以下のStep1〜Step5の流れで一元配置分散分析が可能である。

Step1. 帰無仮説と対立仮説の設定をする

帰無仮説 \( H_0 \): 仮説検定をするための「仮定」
各グループ（各水準）の母平均 \( \mu_1 \), \( \mu_2 \), …, \( \mu_k \) に有意な差はない。つまり、\( \mu_1 = \mu_2 = \cdots = \mu_k \)

対立仮説 \( H_1 \): 仮説検定を否定することで示したいもの
少なくとも1つのグループの母平均が他のグループと有意に異なるといえる。

Step2. 全体の標本平均、各郡の標本平均を求める

全体の標本平均 \( \overline{X} \)\[
\overline{X} = \frac{1}{N} \sum^{k}_{i = 1} \sum^{n_i}_{j = 1} X_{ij}
\]

郡 \( i \) の標本平均 \( \overline{X}_i \)\[
\overline{X}_i = \frac{1}{ n_i } \sum^{n_i}_{j = 1} X_{ij}
\]

Step3. 分散分析表を埋める

表. 分散分析表

要因	平方和	自由度	平方平均	\( F \) 値
水準間 [群間]	(a) \( S_A \)	\( \phi_A = k - 1 \)	\( V_A = \frac{ S_A }{ \phi_A } \)	\( \frac{ V_A }{ V_E } \)
残差 [郡内]	(b) \( S_E \)	\( \phi_E = N - k \)	\( V_E = \frac{ S_E }{ \phi_E } \)	−
全体	(c) \( S_T \)	\( \phi_T = N - 1 \)	−	−

ここで、(a) 水準間平方和 \( S_A \)、(b) 残差平方和 \( S_E \)、(c) 全体平方和 \( S_T \) は以下の計算式で計算できる。

(a) 水準間平方和 (郡間平方和) \(S_A \) [SSB … Sum of Squares Between groups]

各郡ごとに、ある群 \( i \) に着目したときの、郡 \( i \) 内の標本平均 \( \overline{X}_i \) と、データ全体の標本平均 \( \overline{X} \) のずれを2乗したものを、各群毎のデータサイズ \( n_i \) で掛けた（重み付けした）ものを、すべて足したもの。\[
S_A = \textcolor{teal}{ \sum^{k}_{i = 1} } \textcolor{purple}{n_i} \left( \textcolor{red}{ \overline{X}_i - \overline{X} } \right)^{\textcolor{blue}{2}}
\]※ 全体誤差の公式の \( X_{ij} \) を、\( \overline{X}_i \) に書き換えて、\[\begin{align*}
\mathrm{SSB} & = \sum^{k}_{i = 1} \textcolor{purple}{\sum^{ n_i }_{ j = 1 } } \left( \overline{X}_i - \overline{X} \right)^2
\\ & = \sum^{k}_{i = 1} \textcolor{purple}{n_i} \left( \overline{X}_i - \overline{X} \right)^2
\end{align*}\]と変形したものと頭に入れておいてください。

(b) 残差平方和 (群内平方和) \( S_E \) [SSW … Sum of Squares Within groups]

すべてのデータに対して、ある郡 \( i \) に着目したときの、データ値 \( X_{ij} \) と郡 \( i \) 内の標本平均 \( \overline{X}_i \) のずれを2乗したものを計算し、すべて足したもの。\[
S_E = \textcolor{teal}{ \sum^{k}_{i = 1} \sum^{ n_i }_{ j = 1 } } \left( \textcolor{red}{ X_{ij} - \overline{X}_i } \right)^{\textcolor{blue}{2}}
\]※ 全体誤差の公式の \( \overline{X} \) を、\( \overline{X}_i \) に書き換えたもの、と頭に入れておいてください。

(c) 全体平方和 \( S_T \) [SST … Total Sum of Squares]

すべてのデータに対して、ある郡 \( i \) に着目したときの、データ値 \( X_{ij} \) とデータ全体の標本平均 \( \overline{X} \) のずれを2乗したものを計算し、すべて足したもの。\[
S_T = \textcolor{teal}{ \sum^{k}_{i = 1} \sum^{ n_i }_{ j = 1 } } \left( \textcolor{red}{ X_{ij} - \overline{X} } \right)^{\textcolor{blue}{2}}
\]

水準間平方和、残差平方和、全体誤差に成り立つ関係

全体平方和 \( S_T \) = 水準間平方和 \( S_A \) + 残差平方和 \( S_E \)

※ 全体平方和、水準間平方和、残差平方和のうち、いずれか2つ求めることができれば、残りの1つを上の関係式から計算できる。

Step4. F分布表を読み取る

有意水準 \( \alpha \)、自由度 \( (k_1, k_2) = ( \phi_A, \phi_E \) のときのF値を、F分布表から読み取る。ただし、\( \phi_A = k-1 \)、\( \phi_E = N - k \)。

Step5. 採択／棄却の判定

Step3で求めた \( F \) と、Step4でF分布表から読み取った \( F_0 \) を比較して、採択／棄却の結論を出す。

\( F \) が \( F_0 \) 以下のとき、つまり \( F \leqq F_0 \)
→ 仮説は採択：少なくとも1つのグループの母平均が他のグループと有意に異なるとは言えない。つまり、各グループの母平均に有意な差はない。
\( F \) が \( F_0 \) より大きいとき、つまり \( F > F_0 \)
→ 仮説は棄却：少なくとも1つのグループの母平均が他のグループと有意に異なるといえる。

4. 残差(群内)平方平均を用いた母平均の区間推定

一元配置分散分析において、「残差平方平均（群内平方平均） \( V_E \)」は各グループ内の分散を表しており、グループ全体で共有される「誤差」を示しています。この誤差をもとにして、各グループごとに標本平均のばらつきを推定し、これを用いて母平均の信頼区間を計算することができます。

ここで、突然ですが問題です。

母分散が分からないときに、母平均を推定する際に使える分布と言えば、何だったでしょうか？

そう、t分布です。

母平均推定の際には、以下の4つの要素が必要です。

標本サイズ \( n \)
標本平均 \( \overline{X} \)
不偏分散 \( s^2 \)
信頼度、自由度 \( n-1 \) に相当するF分布表から読み取った値 \( t_0 \)

この4つの要素から、母平均 \( \mu \) の信頼区間を次のように推定することが出来ます。\[
\overline{X} - \frac{ t_0 s }{ \sqrt{n} } \leqq \mu \leqq \overline{X} + \frac{ t_0 s }{ \sqrt{n} }
\]

※ t分布を使って母平均の信頼区間を推定する方法がいまいちよく分からなかったという人は、以下の記事で復習しましょう。

うさぎでもわかる確率・統計　t分布のいろは①　母平均の推定

こんにちは、ももやまです。母集団の平均（母平均）を推定する際には正規分布を使う方法が有効です。しかし、正規分布を使うた

一元配置分散分析では、上の信頼区間の不偏分散 \( s^2 \) の代わりに、残差平方平均 \( V_E \) を使用します^[6]\( s^2 = V_E \) なので、\( s = \sqrt{ V_E } \) となる。。

これにより、一元配置信頼区間の結果から、次のように母平均 \( \mu \) を区間推定を実現できます。

残差平方平均を用いた各郡の母平均の区間推定

一元配置分散分析で得られた残差平方平均 \( V_E \) から、各グループ（各郡）の母平均 \( \mu_i \) を、以下のように区間推定出来る。

\[
\overline{X}_i - \frac{ t_0 \sqrt{ V_E } }{ \sqrt{n_i} } \leqq \mu \leqq \overline{X}_i + \frac{ t_0 \sqrt{ V_E } }{ \sqrt{n_i} }
\]※ \( i \) は、i番目のグループを表す。

\( \overline{X}_i \) … \( i \) 番目のグループの標本平均
\( n_i \) … \( i \) 番目のグループの標本サイズ
\( t_0 \) … 信頼度、および残差の自由度 \( \phi_E = N - k \) に相当するt分布表から読み取った値

では、先ほどの例題1のデータを使って、各グループ（各郡）の母平均をそれぞれ求めてみましょう。

例題2

桃山高校の1年生を対象とし、1組、2組、3組で数学の小テストを実施した。

組	1人目 (点)	2人目 (点)	3人目 (点)	4人目 (点)	5人目 (点)
1組	13	20	20	19	－
2組	7	17	11	12	8
3組	19	18	20	11	－

※ 表内の "−" は、該当するデータが存在しないことを表す。言い換えると、1組、3組からは4人、2組からは5人のデータを抽出している。

この結果をもとに、1組、2組、3組の平均点（母平均）を等しいとみなしてよいかを確認するために、つぎの[1], [2]の計算を行った。

[1] 1組～3組、および全体の標本平均は、つぎの表の通りになった。

表1. 1組、2組、3組の標本平均

組	標本平均 (点)
1組	18
2組	11
3組	17
全体	15

[2] 分散分析表を作成した結果、表2の通りとなった。

表2. 分散分析表

要因	平方和	自由度	平方平均	\( F \) 値
水準間 [郡間]	132	2	66.0	4.521
残差 [郡内]	146	10	14.6	−
全体	278	12	−	−

この[1], [2]から、1組、2組、3組それぞれの数学の小テストの点数の母平均を信頼度95%で区間推定しなさい。小数第2位まで求めること。

※ 必要であれば、こちらから片側t分布表をダウンロードできます。

※ 必要であれば、こちらから両側t分布表をダウンロードできます。

例題2の解説．

群内の誤差の平方平均は、\( V_E = 14.6 \) ですね。

このデータをもとに、1組、2組、3組の点数の母平均を信頼度95%で推定してみましょう。

[i] 1組の母平均 \( \mu_1 \)

1組の標本に対する標本平均は、\( \overline{X}_1 = 18 \)、標本サイズは \( n_1 = 4 \) ですね。

まず、信頼度95%、残差の自由度10に対応する値 \( t_0 \) をt分布表から読み取ります。

★ 両側t分布表から読み取る場合

\( \alpha = 0.050 \)、自由度 \( k = 10 \) に対応する \( t \) の値は、両側t分布表のつぎの箇所を読み取ればOKです。

結果、2.228と読み取れます。そのため、\( t_0 = 2.228 \) ですね。

★ 片側t分布表から読み取る場合

\( \alpha = 0.025 \)、自由度 \( k = 10 \) に対応する \( t \) の値は、片側t分布表のつぎの箇所を読み取ればOKです。

結果、2.228と読み取れます。そのため、\( t_0 = 2.228 \) ですね。

あとは、母平均の区間推定式\[
\overline{X}_1 - \frac{ t_0 \sqrt{ V_E } }{ \sqrt{n_1} } \leqq \mu_1 \leqq \overline{X}_1 + \frac{ t_0 \sqrt{ V_E} }{ \sqrt{n_1} }
\]に代入すれば結果が求められます。

代入すると、\[
18 - \frac{ 2.228 \cdot \sqrt{ 14.6 } }{ \sqrt{4} } \leqq \mu_1 \leqq 18 + \frac{ 2.228 \cdot \sqrt{ 14.6 } }{ \sqrt{4} }
\]\[
18 - 2.228 \cdot \sqrt{ \frac{14.6}{4} } \leqq \mu_1 \leqq 18 + 2.228 \cdot \sqrt{ \frac{14.6}{4} }
\]\[
13.743 \leqq \mu_1 \leqq 22.257
\]となります。（ルートの計算は電卓を使いましょう。）

よって、1組の母平均 \( \mu_1 \) 信頼区間は \( 13.74 \leqq \mu_1 \leqq 22.26 \) となります。

[ii] 2組の母平均 \( \mu_2 \)

1組の標本に対する標本平均は、\( \overline{X}_2 = 11 \)、標本サイズは \( n_2 = 5 \) ですね。

信頼度95%、自由度10に対応する値 \( t_0 \) は、[i]の計算時に \( t_0 = 2.228 \) と求めているので、この値を母平均の区間推定式\[
\overline{X}_2 - \frac{ t_0 \sqrt{ V_E } }{ \sqrt{n_2} } \leqq \mu_2 \leqq \overline{X}_2 + \frac{ t_0 \sqrt{ V_E} }{ \sqrt{n_2} }
\]に代入すれば結果が求められます。

代入すると、\[
11 - \frac{ 2.228 \cdot \sqrt{ 14.6 } }{ \sqrt{5} } \leqq \mu_2 \leqq 11 + \frac{ 2.228 \cdot \sqrt{ 14.6 } }{ \sqrt{5} }
\]\[
11 - 2.228 \cdot \sqrt{ \frac{14.6}{5} } \leqq \mu_2 \leqq 11 + 2.228 \cdot \sqrt{ \frac{14.6}{5} }
\]\[
7.193 \leqq \mu_2 \leqq 14.807
\]となります。

よって、2組の母平均 \( \mu_2 \) 信頼区間は \( 7.19 \leqq \mu_2 \leqq 14.81 \) となります。

[iii] 3組の母平均 \( \mu_3 \)

3組の標本に対する標本平均は、\( \overline{X}_3 = 17 \)、標本サイズは \( n_3 = 4 \) ですね。

信頼度95%、自由度10に対応する値 \( t_0 \) は、[i]の計算時に \( t_0 = 2.228 \) と求めているので、この値を母平均の区間推定式\[
\overline{X}_3 - \frac{ t_0 \sqrt{ V_E } }{ \sqrt{n}_3 } \leqq \mu \leqq \overline{X}_3 + \frac{ t_0 \sqrt{ V_E} }{ \sqrt{n}_3 }
\]に代入すればOKです。

代入すると、\[
17 - \frac{ 2.228 \cdot \sqrt{ 14.6 } }{ \sqrt{4} } \leqq \mu \leqq 17 + \frac{ 2.228 \cdot \sqrt{ 14.6 } }{ \sqrt{4} }
\]\[
17 - 2.228 \cdot \sqrt{ \frac{14.6}{4} } \leqq \mu \leqq 17 + 2.228 \cdot \sqrt{ \frac{14.6}{4} }
\]\[
12.743 \leqq \mu_3 \leqq 21.257
\]となります。

よって、3組の母平均 \( \mu_3 \) 信頼区間は \( 12.74 \leqq \mu_3 \leqq 21.26 \) となります。

5. 練習問題にチャレンジ！

練習問題

桃山工場では、4つの異なる生産ラインでお菓子を製造している。ある日、それぞれの生産ラインで製造されたお菓子の重量に差があるかどうかを調べるために、生産された製品の中からいくつかを取り出してその重量を測定した。その結果を、以下の表1に記す。

表1. 各生産ラインごとの重量測定結果

グループ(群)	標本サイズ	標本平均[g]
ライン1	9	105
ライン2	5	91
ライン3	4	94
ライン4	6	98

この結果を用いて一元配置分散分析を行ったところ、以下の結果を得た。しかし、結果の一部が虫食いになって値が分からなくなってしまった。

表2. 分散分析の結果

要因	平方和	平方平均	\( F \) 値
水準間 [郡間]	36
残差 [郡内]			−
全体	116	−	−

つぎの(1)～(5)の問いに答えなさい。

(1) 帰無仮説と対立仮説を述べなさい。

(2) 全体の標本平均を \( \overline{X} \)、ライン \( i \) の標本サイズ、標本平均をそれぞれ \( n_i \), \( \overline{X}_i \)、ライン \( i \) の \( j \) 番目のデータを \( X_{ij} \) とする。このとき、水準間（群間）平方和 \( S_A \)、残差（群内）平方和 \( S_E \) を求める式をそれぞれ立式しなさい。

(3) 虫食いになった一元配置分散分析表を埋めなさい。ただし、" － " の部分は埋めなくてよい。

(4) 有意水準5%で検定を行い、結論を示しなさい。

(5) 表1, 表2から、ライン1とライン3で生産された製品の重量を、信頼度95%で求めなさい。

※ 必要であれば、こちらからF分布表をダウンロードできます。

※ 必要であれば、こちらから片側t分布表をダウンロードできます。

※ 必要であれば、こちらから両側t分布表をダウンロードできます。

6. 練習問題の答え

(1) 帰無仮説と対立仮説の設定

帰無仮説 \( H_0 \): 仮説検定をするための「仮定」
ライン1～ライン4で生産されたお菓子の重量の母平均 \( \mu_1 \), \( \mu_2 \), \( \mu_3 \), \( \mu_4 \) はすべて等しい。つまり \( \mu_1 = \mu_2 = \mu_3 = \mu_4 \)。
（各グループの母平均に有意な差はない。）

対立仮説 \( H_1 \): 仮説検定を否定することで示したいもの

ライン1～ライン4で生産されたお菓子の重量の母平均 \( \mu_1 \), \( \mu_2 \), \( \mu_3 \), \( \mu_4 \) のうち、少なくとも1つのグループの母平均が他と異なる。つまり \( \mu_1 = \mu_2 = \mu_3 = \mu_4 \) とは言えない。
（少なくとも1つのグループの母平均が他のグループと有意に異なる。）

(2) 水準間平方和 \( S_A \)・残差平均和 \( S_E \) の立式

水準間平方和（群内平方和） \( S_A \)

(残差平方和 (郡内平方和) \( S_E \)

全データに対して、ある郡 \( i \) に着目したときの、データ値 \( X_{ij} \) と郡 \( i \) 内の標本平均 \( \overline{X}_i \) のずれを2乗したものを計算し、すべて足したもの。\[
S_E = \textcolor{teal}{ \sum^{k}_{i = 1} \sum^{ n_i }_{ j = 1 } } \left( \textcolor{red}{ X_{ij} - \overline{X}_i } \right)^{\textcolor{blue}{2}}
\]

(3) 一元配置分散分析表の穴埋め

[i] 残差平方和の穴埋め

「全体平方和 = 水準間平方和 + 残差平方和」の公式を使います。つまり、

全体平方和 (116) = 水準間平方和 (36) + 残差平方和 (?)

に当てはまる ? の値を入れればOKです。116 - 36 = 80 で計算できます。

要因	平方和	平方平均	\( F \) 値
水準間 [郡間]	36
残差 [郡内]	80		−
全体	116	−	−

[ii] 自由度の穴埋め

全データ数 \( N \)、群数 \( k \) を用いて自由度は以下のように穴埋めが出来ます。

要因	平方和	自由度	平方平均	\( F \) 値
水準間 [郡間]	36	\( k - 1 \)
残差 [郡内]	80	\( N - k \)		−
全体	116	\( N - 1 \)	−	−

今回は、全データ数 \( N \) は、ライン1の標本サイズ9、ライン2の標本サイズ5、ライン3の標本サイズ4、ライン4の標本サイズ6より、\[\begin{align*}
N & = 9+ 5 + 4 + 6
\\ & = 24
\end{align*}\]と求められます。

また、群数（グループ数）は4なので、\( k = 4 \) です。

よって、水準間に対する自由度は \( k-1 = 3 \)、残差に対する自由度は \( N-k = 20 \)、全体の自由度は \( N-1 = 23 \) と求められます。

要因	平方和	自由度	平方平均	\( F \) 値
水準間 [郡間]	36	3
残差 [郡内]	80	20		−
全体	116	23	−	−

[iii] 平方平均の穴埋め

平方平均は、平方和÷自由度で計算ができます。

今回の場合、水準間平方平均 \( V_A \) は、\[\begin{align*}
V_A & = \frac{ S_A }{ k - 1}
\\ & = \frac{36}{3}
\\ & = 12
\end{align*}\]と計算できます。

同様に、残差平方平均 \( V_E \) は\[\begin{align*}
V_A & = \frac{ V_A }{ N - k }
\\ & = \frac{80}{20}
\\ & = 4
\end{align*}\]と計算できます。

要因	平方和	自由度	平方平均	\( F \) 値
水準間 [郡間]	36	3	12
残差 [郡内]	80	20	4	−
全体	116	23	−	−

[iv] F値の穴埋め

F値は、水準間平方平均÷残差平方平均で計算ができます。

今回の場合、F値 \( F \) \[\begin{align*}
F & = \frac{ V_A }{ V_E }
\\ & = \frac{12}{4}
\\ & = 3
\end{align*}\]となります。

要因	平方和	自由度	平方平均	\( F \) 値
水準間 [郡間]	36	3	12	3
残差 [郡内]	80	20	4	−
全体	116	23	−	−

(4) 検定の実施

[i] F分布表の読み取り

今回は、水準間自由度が3、残差自由度が20ですね。

なので、有意水準 \( \alpha = 0.05 \) [5%]、自由度 (3,20) に相当するF値を、F分布表から読み取ります。

すると、3.098と読み取れます。\( F_0 = 3.098 \) とおきましょう。

[ii] 採択／棄却の判定

一元配置分散分析表の穴埋め時に求めたF値\[\begin{align*}
F & = \frac{ V_A }{ V_E }
\\ & = 3
\end{align*}\]および、(4)[i]でF分布表から得た臨界値 \( F_0 = 3.098 \) から結論を出します。

今回は、\( F = 3 \)、F分布表から得た臨界値 \( F_0 = 3.098 \) より、\[
F = 3 \leqq 3.098 = F_0
\]となります。

よって、仮説は採択され、ライン1～ライン4で生産されたお菓子の重量の母平均 \( \mu_1 \), \( \mu_2 \), \( \mu_3 \), \( \mu_4 \) のうち、少なくとも1つのグループの母平均が他と異なるとは言えません。（少なくとも1つのグループの母平均が他のグループと有意に異なるとは言えない。）

(5) 残差(群内)平方平均を用いた母平均の区間推定

(3)で求めた残差平方平均 \( V_E = 4 \) を用いて、母平均の区間推定を実施します。

[i] ライン1で生産された製品の重量の母平均 \( \mu \)

ライン1の群の標本サイズは \( n_1 = 9 \)、標本平均は \( \overline{X}_1 = 105 \) です。

また、残差の自由度20、信頼度95%に対応する \( t_0 \) は、t分布表から \( t_0 = 2.086 \) と読み取れます。

★ 両側t分布表から読み取る場合

\( \alpha = 0.050 \)、自由度 \( k = 20 \) に対応する \( t \) の値は、両側t分布表のつぎの箇所を読み取ればOKです。

★ 片側t分布表から読み取る場合

\( \alpha = 0.025 \)、自由度 \( k = 20 \) に対応する \( t \) の値は、片側t分布表のつぎの箇所を読み取ればOKです。

あとは、値を母平均の区間推定式\[
\overline{X}_1 - \frac{ t_0 \sqrt{ V_E } }{ \sqrt{n_1} } \leqq \mu_1 \leqq \overline{X}_2 + \frac{ t_0 \sqrt{ V_E} }{ \sqrt{n_1} }
\]に代入すれば結果が求められます。

代入すると、\[
105 - \frac{ 2.086 \cdot \sqrt{ 4 } }{ \sqrt{9} } \leqq \mu_1 \leqq 105 + \frac{ 2.086 \cdot \sqrt{ 4 } }{ \sqrt{9} }
\]\[
105 - 2.086 \cdot \frac{2}{3} \leqq \mu_1 \leqq 105 + 2.086 \cdot \frac{2}{3}
\]\[
103.609 \leqq \mu_1 \leqq 106.391
\]となります。

よって、ライン1で生産された製品の重量[g]の母平均 \( \mu_1 \) 信頼区間は \( 103.61 \leqq \mu_1 \leqq 106.39 \) となります。

[ii] ライン3で生産された製品の重量の母平均 \( \mu \)

ライン3の群の標本サイズは \( n_3 = 4 \)、標本平均は \( \overline{X}_3 = 94 \) です。

また、残差の自由度20、信頼度95%に対応する \( t_0 \) は、[i] ですでに \( t_0 = 2.086 \) と読み取っています。

あとは、値を母平均の区間推定式\[
\overline{X}_3 - \frac{ t_0 \sqrt{ V_E } }{ \sqrt{n_3} } \leqq \mu_3 \leqq \overline{X}_2 + \frac{ t_0 \sqrt{ V_E } }{ \sqrt{n_3} }
\]に代入すれば結果が求められます。

代入すると、\[
94 - \frac{ 2.086 \cdot \sqrt{ 4 } }{ \sqrt{4} } \leqq \mu_3 \leqq 94 + \frac{ 2.086 \cdot \sqrt{ 4} }{ \sqrt{4} }
\]\[
94 - 2.086 \leqq \mu_3 \leqq 94 + 2.086
\]\[
91.914 \leqq \mu_3 \leqq 96.086
\]となります。

よって、ライン1で生産された製品の重量[g]の母平均 \( \mu_3 \) 信頼区間は \( 91.91 \leqq \mu_1 \leqq 96.09 \) となります。

注釈[+]

注釈
↑1	データの値に変化を与える要素のことを「要因」、要因の中でも分析対象のものを「因子」と区別して言葉を使い分けることもあります。本記事では、要因と因子は同じものだと思っていただけたらOKです。
↑2	対立仮説を、「出てくるすべてのグループ（郡）の母平均が異なること」としないように注意！　例えば、3つのグループの場合、帰無仮説に相当するすべての母平均 \( \mu_1 \), \( \mu_2 \), \( \mu_3 \) が等しい、つまり \( \mu_1 = \mu_2 = \mu_3 \) を仮定しましょう。この仮定を満たさない例には、\( \mu_1 = \mu_2 = 3 \), \( \mu_3 = 4 \) がありますが、この例はすべてのグループ（郡）の母平均が異なるとは言えませんよね。
↑3	実際に、全体の自由度 \( N - 1 \)、水準間に対する自由度 \( k-1 \)、残差に対する自由度 \( N - k \) を代入すれば、関係が成立することがわかると思います。
↑4	例えば、2つの飲食店の価格を比べることを考えてみましょう。飲食店Aは「3人で3,000円のお店」、飲食店Bは「10人で7,500円のお店」だとします。このとき、「飲食店Bは、飲食店Aの2.5倍の合計金額だから、飲食店Bのほうが高い」と比較するのはナンセンスですよね。
↑5	先ほどの飲食店の例の場合、1人あたりの価格に揃えて考えてみると、「1人あたり1,000円の飲食店A」と「1人あたり750円の飲食店B」となります。この状態で、「飲食店Bは、飲食店Aよりも25%安いから、飲食店Bのほうが安い」と正確に比較することができますよね。
↑6	\( s^2 = V_E \) なので、\( s = \sqrt{ V_E } \) となる。

学生番号	勉強時間 (h)	点数 (点)	学生番号	勉強時間 (h)	点数 (点)
1	2.1	48	11	4.7	80
2	3.5	76	12	3.8	55
3	1.0	34	13	2.4	66
4	4.2	70	14	6.5	82
5	5.0	72	15	7.0	86
6	6.1	80	16	4.0	62
7	2.9	60	17	1.5	40
8	3.0	53	18	5.5	74
9	7.5	79	19	6.9	75
10	5.8	80	20	3.2	55

学生番号	勉強時間 (h)	点数 (点)	学生番号	勉強時間 (h)	点数 (点)
1	2.1	48	11	4.7	80
2	3.5	76	12	3.8	55
3	1.0	34	13	2.4	66
4	4.2	70	14	6.5	82
5	5.0	72	15	7.0	86
6	6.1	80	16	4.0	62
7	2.9	60	17	1.5	40
8	3.0	53	18	5.5	74
9	7.5	79	19	6.9	75
10	5.8	80	20	3.2	55

確率・統計 - 工業大学生ももやまのうさぎ塾 (Momousagi Academy)

10日で完成！ うさぎでもわかる統計的な推測 8日目 イカサマを見抜け！ 仮説検定のいろは

1. 仮説検定とは

2. 仮説検定で使う用語紹介

(1) 帰無仮説

(2) 対立仮説

(3) 棄却

(4) p値

(5) 有意水準

(6) 棄却域

3. 仮説検定の流れ

Step1. 帰無仮説・対立仮説の設定

Step2. 帰無仮説が正しいと仮定したときの確率の計算

Step3. 結果の判定

仮説検定の手順まとめ

4. 片側検定と両側検定

(1) 片側検定

(2) 両側検定

(3) 例題で確認！

4. 二項分布と仮説検定

例題を解いてみよう

5. 練習問題にチャレンジ

6. 練習問題の答え

(1) 帰無仮説と対立仮説の設定

(2) 試行回数が少ないとき

(3) 試行回数が多いとき

うさぎでもわかる確率・統計 重回帰分析

1. 重回帰分析とは

2. 用語説明

(1) 目的変数と説明変数 (単回帰分析と同じ)

(2) 切片と偏回帰係数

(3) ダミー変数

(4) 重回帰モデルと誤差

(5) 最小2乗法による偏回帰係数の導出

3. 重回帰分析の結果の見方

Rで出力される内容

(1) Call: 結果を出すために使ったコマンド

(2) Residuals: 残差の四分位数

(3) Coefficients: 偏回帰係数の推定結果

[i] Estimate: 推定値

[ii] Std. Error: 標準誤差

[iii] t value, Pr(>|t|): t値、p値

(4) 回帰モデルそのものの分析情報

★ 回帰分析と一元配置分散分析

★ それぞれの出力の意味

4. 練習問題にチャレンジ！

5. 練習問題の答え

【統計学】出口調査の仕組みを理解するためのいろは

1. 確率変数

2. 平均(期待値）・分散・標準偏差

[i] 平均 (期待値)

[ii] 分散

[iii] 標準偏差

[iv] 確率変数の変換

★ 確率変数Xに定数を掛けた場合

★ 確率変数Xに定数を加えた場合

3. 二項分布

[i] 平均(期待値)の求め方

[ii] 分散の求め方

[iii] 標準偏差の求め方

4. 正規分布: 二項分布の近似

【なぜ当選確実がすぐ出るの？】うさぎでもわかる開票速報の仕組み

1. 出口調査の簡単なしくみ

(1) 全員分の投票情報を集めるのは不可能

(2) 現実的な手段：味見＝出口調査

(3) 調査結果の判断法には要注意

(4) 数学的な裏付け … 区間推定

(5) 区間推定の結果と当選確実

(6) 区間推定で必要な知識

2. 当選確実を数学的に出す方法解説

(1) 区間推定の流れ

(3) 区間推定の計算法

Step1. 出口調査での得票率の計算 … 平均

Step2. 誤差の計算 … 標準偏差

Step3. 区間推定

(1) 信頼度

(2) 標準正規分布

(3) 標準正規分布 → 正規分布の変換

(4) 実際に計算してみる

(5) 信頼区間を狭めるには？

10日で完成！　うさぎでもわかる統計的な推測　8日目　イカサマを見抜け！　仮説検定のいろは

うさぎでもわかる確率・統計　重回帰分析

うさぎでもわかる確率・統計　単回帰分析

【標本分散はなぜ n ではなくn-1 で割るの？】うさぎでもわかる確率・統計　不偏推定量

うさぎでもわかる確率・統計　指数分布

うさぎでもわかる確率・統計　ポアソン分布

学生番号	勉強時間 (h)	点数 (点)	学生番号	勉強時間 (h)	点数 (点)
1	2.1	48	11	4.7	80
2	3.5	76	12	3.8	55
3	1.0	34	13	2.4	66
4	4.2	70	14	6.5	82
5	5.0	72	15	7.0	86
6	6.1	80	16	4.0	62
7	2.9	60	17	1.5	40
8	3.0	53	18	5.5	74
9	7.5	79	19	6.9	75
10	5.8	80	20	3.2	55