身近にある「確率」
データサイエンスの世界でとても重要な考え方の1つに「ベイズ統計」というものがあります。
あなたのメールボックスには迷惑メールをフィルタリングする機能があると思います。
ロボ千代
今回はこの「ベイズ統計」を習得するための基礎知識である「条件付き確率」について学びましょう。
条件付き確率のイメージ
「条件付き確率」のイメージをつかんでもらうため、次に2つのゲームを考えてみましょう。
数式を覚えるのではなく、具体的にイメージをつかむことが大切です。
箱当てゲーム
あなたはテレビ番組の企画でとあるゲームに参加することになりました。これはとてもシンプルな次のようなゲームです。
あなたはその中から1つの箱を選んで、その中身をもらうことができます。
この中には1つだけ賞金が入っていて、残りは空っぽです。
ロボ千代
アイ
てことは当たる確率は\(\frac{1}{10}\)
つまり10%よね
これは簡単でしたね。では、ここで1つ「条件」を加えてみます。
ロボ千代
アイ
そのうちの1つが当たりなんだから
確率は当たる確率は\(\frac{1}{5}\)
つまり20%ね
これがまさに「条件付き確率」なのです
ロボ千代
通常の「確率」は「すべての事象(全体)の中で、対象とする事象が起こる割合」のことです。
つまり、箱は全体で10個あって当たりは1個なのですから、「10個のうちの1個」すなわち「10%」となります。
一方、「条件付き確率」とは、「ある条件が成立する場合に限定した中で、対象とする事業が起こる割合」を意味します。
先ほどの例で言えば、「当たりは偶数の番号の箱」だとわかっているので、考える範囲を偶数の箱に限定できるわけです。
なので、偶数の番号の5個の中で当たりが1個と考えられるので、「5個のうちの1個」すなわち「20%」となるのです。
次は別のゲームで考えてみましょう。
丁半ゲーム
あなたは今度は別のテレビ番組の企画に参加することになりました。これは次のようなゲームです。
1、2、3が赤玉、4、5、6が青玉です。
司会者がこの箱から玉を1つ取り出します。
この玉は丁(偶数)か半(奇数)か?
さあ、どっち?
ロボ千代
アイ
当たる確率が高いわけね
何の条件(情報)も与えられないならば、箱の中には奇数の玉が3個、偶数の玉が3個ですから、奇数の確率は50%ですね。
では、ここで次のような条件が与えられたならどうでしょうか?

赤い玉は1、2、3の3つあり、その中で奇数の玉は1、3の2つです。
よって、奇数である確率は\(\frac{2}{3}\)つまり約66%となります。
アイ
これも先ほどの箱当てゲームと同じで、「引いたのは赤玉」という条件で考える範囲を限定できるため、この条件を与える前の確率から変化した、という点が重要です。
条件付き確率の公式
ここまでが「条件付き確率」の本質です
ロボ千代
ここから先は、条件付き確率の公式について考えてみましょう。
最もよく知られている条件付き確率の公式は次のようなものです。
なぜこのような公式が導かれるのかわかるでしょうか?
先ほどの「丁半ゲーム」を例に1つずつ順を追って考えてみましょう。
取り出した玉が赤玉であることがわかっているとき、それが奇数の玉である確率は
$$\frac{奇数の赤玉の数}{赤玉の数}$$
でしたね。
ここを出発点にして冒頭の「条件付き確率の公式」を導いていきます。
分母と分子を「すべての玉の数」で割ってみましょう。
\(\frac{赤玉の数}{すべての玉の数}\)というのは「すべての玉のうち赤玉の確率」と言い換えてもいいですよね。
そして、分子の
\(\frac{奇数の赤玉の数}{すべての玉の数}\)というのは「すべての玉のうち奇数の赤玉の確率」と同じ意味です。
アイ
「場合の数」としても表せるし、「確率」としても表せるのね
赤玉である=A、奇数の玉である=Bと置き換えてみます。
Aという事象が起こる確率を数学では\(P(A)\)と表現します。\(P\)は「Probability(確率)」の頭文字です。
そして、AかつBが起こる確率は\(P(A \cap B)\)と表します。
\(A \cap B\)の読み方は「AかつB」または「AキャップB」です。
Aという条件のもとでBである条件付き確率は、\(P _A (B)\)または\(P(B|A)\)と表します。
つまり、最終的には次の式になります。
おなじみの公式を導くことができましたね
ロボ千代
ベン図による条件付き確率のイメージ
最後にベン図で条件付き確率の意味するところを確認しておきましょう。
ロボ千代
さらに理解を深めたいなら
社内研修の「統計講座」という設定で、先生と生徒の会話形式でベイズ統計を学ぶ入門書です。
ベイズ統計についてWebで調べてみるとサイトによって言っていることが違っていて困惑することもあるかと思います。
そんな初学者の疑問にもわかりやすく解説してくれているので、とても読みやすくベイズ統計の全体像を整理するのにとても良い本です。
ベイズ統計の基本的な概念である「条件付き確率」も「同時確率」との違いも含めてわかりやすい説明になっています。
中上級者には物足りないかもしれませんがデータサイエンスを学び始めたすべての人にオススメしたい良書です。
コメントを残す