条件付き確率・ベイズの定理について

スポンサードリンク

こんにちは、ももやまです。

今日は「条件付き確率」と条件付き確率を応用した「ベイズの定理」についてわかりやすくまとめました!

 

 

「確率ってなんだっけ~」、とか「確率の求め方忘れっちゃった~」と不安な人向けのために、1時間で「確率」を復習できる記事を用意しています。

確率の知識に不安な方、確率の確認をしておきたい人はぜひこちらの記事をお読みください。

www.momoyama-usagi.com

スポンサードリンク

1.条件付き確率

とある事象 A,B があるとします。ある事象 A が起こったときの事象 B が起こる確率のことを条件付き確率といいます。

記号で表すと P(B|A) と書けます。記号で書く場合は A,B の順番が逆になっているので注意してください*1

 

条件付き確率は、表やベン図を書くとわかりやすいです。

まずはベン図で表してみます。

f:id:momoyama1192:20190605094833g:plain事象 A が起こった場所をピンク色で表しています。ピンク色の中で、事象 B が含まれている部分が P(B|A) となり、紫色で表しています。

 

つぎに表を書いてみます。私の個人的おすすめはベン図よりも表です。

 

A○ A合計
B○ 15 5 20
10 20 30
B合計 25 25 50

 

この表から、様々な確率を読み取ることができます。

 

例えば、事象 P(A) が起こる確率は、ピンク色の部分。
事象 P(B) が起こる確率は水色の部分になることがわかりますね。

 

では、ある事象 A が起こったときの事象 B が起こる条件付き確率 P(B|A) を表から読み取って解いていきましょう。

 

まず、ある事象 A が起こったとき(A○)の事象 B が起こるか起こらないかは、表の次の色を塗った部分で確認することができます。 

 

A○ A合計
B○ 15 5 20
10 20 30
B合計 25 25 50

 表より事象 A が起こる確率は25回なのがわかりますね。25回の中で、Aが起こるのは15回、Aが起こらないのは10回なのがわかります。つまり、条件付き確率 P(B|A) は、P(B|A)=35になることがわかります。

 

事象 A と事象 B がともに起こる確率 P(AB) は、表より 3/10 と読み取る事ができますね。条件付き確率 P(B|A) は、以下の公式で求めることができます。P(B|A)=P(AB)P(A)

 

実際に P(B|A) を公式に代入して計算してみましょう。P(A)=25/50=1/2 なので、P(B|A)=P(AB)P(A)=31012=35と求められます。

 

表で確かめてみましょう。上の式を変形すると、P(AB)=P(A)P(B|A)が導出できます。確かに上で計算した場合と表で読み取った場合両方とも同じ確率になっていますね。

f:id:momoyama1192:20190605085227g:plain

 

同様に、ある事象 B が起こったときの事象 A が起こる条件付き確率 P(A|B) も表で確かめてみましょう。

f:id:momoyama1192:20190605085228g:plain

スポンサードリンク

2.ベイズの定理

ある事象 A が起こったときの事象 B が起こる条件付き確率 P(B|A) から、ある事象 B が起こったときの事象 A が起こる条件付き確率 P(A|B) を求める式をベイズの定理といいます。

 

さきほど上の例で P(A|B) を使った場合、 P(B|A) を使った場合の2つの方法で P(AB) をもとめましたね。

f:id:momoyama1192:20190605085229g:plain

この2つの式を使うと、P(A)P(B|A)=P(B)P(A|B) という式が得られます。この式を変形すると、P(B|A)=P(A|B)P(B)P(A)となり、これがベイズの定理となります*2

 

ベイズの定理は、この公式を丸覚えするのではなく、なぜこの式になるかを導けるようにしておくのがいいと思います!

スポンサードリンク

3.練習問題

では、2問ほど練習してみましょう!

練習1

お菓子をきのこの山かたけのこの里を判定する機械がある。

この機械は、

  • たけのこの里の 2425 は正しくたけのこの里と判定
  • きのこの山の 350 を間違えてたけのこの里と判定

する。

  • 無作為に選んだお菓子がたけのこの里である事象を A
  • 無作為に選んだお菓子がきのこの山である事象を B
  • 無作為に選んだお菓子が機械によりたけのこの里と判定される事象を C

とし、同じ数のきのこの山とたけのこの里を判別( P(A)=P(B)=1/2 )するとき、以下の問いに答えなさい。

 

(1) 無作為に選んだお菓子が「たけのこの里」であり、かつそれが正しく「たけのこの里」判定されている確率 P(AC) および無作為に選んだお菓子が「きのこの山」であり、かつそれが誤って「たけのこの里」と判定されている確率 P(BC) を求めなさい。

(2) 無作為に選んだお菓子が機械によりたけのこの里と判定される確率 P(C) を求めなさい。

(3) 無作為に選んだお菓子が機械によりたけのこの里と判定されたとき、そのお菓子が正しくたけのこの里に分類されている条件付き確率 P(A|C) を求めなさい。

 

解答1

表を書くとわかりやすくなります。今回は全体を100 [%] とした表で解いています。

(1)

無作為にたけのこの里を選ぶ確率は 1/2、たけのこの里の 24/25 は正しくたけのこの里と判定されるため、P(AC)P(AC)=12×2425=1225となる。

また、無作為に選んだお菓子が「きのこの山」であり、かつそれが誤って「たけのこの里」と判定されている確率 P(BC) は、P(BC)=12×350=3100となる。

f:id:momoyama1192:20190605092725g:plain

(2)

あるお菓子がたけのこの里と判定される確率 P(C) は、 P(AC)P(BC) の和で求められる。

よって、P(AC)=1225+3100=51100となる。

 

(3) 

条件付き確率 P(A|C) は、以下のように求められる。P(A|C)=P(AC)P(C)=122551100=122510051=4851=1617

 

条件付き確率がわからなくなってしまったときは、下のように表を書いてみるとわかりやすくなります。

f:id:momoyama1192:20190605085230g:plain

このような条件付き確率は再現率適合率を求める際にも使います。

 

再現率は、実際に該当するものからどれだけ機械や検査などで判定することができる確率、適合率は、検査結果で該当したものが実際にどれだけ該当しているかを表します。

 

今回の例でいうと、再現率はたけのこの里の中から機械でどれだけたけのこの里を見つけることができたか、つまり P(A|C) に該当します。また、適合率は、機械がたけのこの里と判定したものの中から実際にたけのこの里であったのはどれくらいあるのか、つまり P(C|A) を表します。

f:id:momoyama1192:20190605094832g:plain

今回の場合だと、()=2425     ()=1617となりますね。

 

再現率、適合率に関してはこちらのブログにまとめているのでぜひご覧ください!

www.momoyama-usagi.com

 

練習2

4つの機械 A,B,C,D がある。それぞれの機械の生産量の比は 4:3:2:1 である。つまり、P(A)=0.4, P(B)=0.3, P(C)=0.2, P(D)=0.1 である。また、不良品Eの出る割合は2%, 3%, 4%, 5% である。つまり、P(E|A)=0.02P(E|B)=0.03P(E|C)=0.04, P(E|D)=0.05 である。

 

このとき、次の問いに答えなさい。

 

(1) ある製品がAで生産され、かつ不良品である確率 P(AE) を求めなさい。
(2) ある製品が不良品である確率を求めなさい。
(3) ある製品が不良品だった場合に、それがAで生産されたものである確率を求めなさい。
(4) ある製品が不良品だった場合、それはどの機械で生産されたものと考えるのがよいか。結論とその理由を答えなさい。
(5) ある製品が不良品ではなかった場合、それはどの機械で生産されたものと考えるのがよいか。結論とその理由を答えなさい。

解答2

こちらも、わからなくなったら表を書いてみましょう。

表を書くことでかなりわかりすくなります。

 

(1) 
P(AE) は、Aが生産される確率 P(A) と、Aの中で不良品が発生する条件付き確率 P(E|A) の積で求められる。P(AE)=0.40.02=0.008=81000=1125と求められる。

f:id:momoyama1192:20190605094831g:plain

(2)

ある製品が不良品である確率は、製品A,B,C,Dが生産され、かつ不良品である確率をすべて足した和となる。P(BE)=0.30.03=0.009=91000 P(CE)=0.20.04=0.008=81000 P(DE)=0.10.05=0.005=51000となる。よってある製品が不良品である確率は、81000+91000+81000+51000=301000=3100となる。

(3)

ある製品が不良品だった場合に、それがAで生産されたものである条件付き確率 P(A|E) は、P(A|E)=P(AE)P(E)=11253100=830=415と求められる。

f:id:momoyama1192:20190605092728g:plain

(4)

(3)と同様にB,C,Dが不良品だった場合の条件付き確率を求めていく*3
P(B|E)=P(BE)P(E)=910003100=930 P(C|E)=P(BE)P(E)=910003100=830 P(D|E)=P(BE)P(E)=910003100=530この4つの確率を比べると、不良品だった場合にBで生産されたものである条件つき確率が一番大きいことがわかる。よって答えはB。

(5)

ある製品がA,B,C,Dで生産され、かつ不良品でない確率 P(AE¯)P(BE¯)P(CE¯)P(DE¯) を求める*4

 

P(AE¯)=0.4(1.000.02)=0.392=3921000 P(BE¯)=0.3(1.000.03)=0.291=2911000 P(CE¯)=0.2(1.000.04)=0.192=1921000  P(DE¯)=0.1(1.000.05)=0.095=951000となる。

 

これをある製品が不良品でない確率で割ればよい。不良品ではない確率はA,B,C,Dどれも同じなので不良品ではなかった場合はAで生産されたものと考えるのがよい*5

f:id:momoyama1192:20190605092729g:plain

 

 

5.まとめ

今回は条件付き確率、ベイズの定理についてまとめました。

ベイズの定理は大学の確率・統計で習うところが多いと思いますが、内容自体は高校生でも十分に理解できるような内容なのでぜひ理解しましょう!

*1:英語が基準になっているため逆になっている。英語だと A given B となる。

*2:ただし P(A)0 のとき以外。

*3:本当は4つとも全部同じ確率で割るので(2)で出した : P(AE) ,P(BE)P(CE)P(DE) だけで答えが得られる。よって実はこの操作はしなくてもよい。でも今回はするよ。

*4:実はこの操作も表を書けばそれぞれの計から不良品を引けば求められることがわかる。

*5:ちゃんと計算するとP(A|E¯)=392970  P(B|E¯)=291970P(C|E¯)=192970  P(D|E¯)=95970となる。全部足して1になるから検算にもなるね!

関連広告・スポンサードリンク

おすすめの記事