「条件付き確率」は具体例で理解すれば難しくない!

本記事はスキルチェックリストの[データサイエンス力 No.2]「条件付き確率の意味を説明できる」に対応しています。

身近にある「確率」

データサイエンスの世界でとても重要な考え方の1つに「ベイズ統計」というものがあります。

あなたのメールボックスには迷惑メールをフィルタリングする機能があると思います。

これはこのベイズ統計の理論を基礎にして実現されているんです

ロボ千代

今回はこの「ベイズ統計」を習得するための基礎知識である「条件付き確率」について学びましょう。

条件付き確率のイメージ

「条件付き確率」のイメージをつかんでもらうため、次に2つのゲームを考えてみましょう。
数式を覚えるのではなく、具体的にイメージをつかむことが大切です。

箱当てゲーム

あなたはテレビ番組の企画でとあるゲームに参加することになりました。これはとてもシンプルな次のようなゲームです。

1から10まで数字が書かれた箱があります。
あなたはその中から1つの箱を選んで、その中身をもらうことができます。

この中には1つだけ賞金が入っていて、残りは空っぽです。


さあ、あなたが賞金をもらえる確率はどれくらいでしょう?

ロボ千代

アイ

箱が10個で、当たりが1個
てことは当たる確率は\(\frac{1}{10}\)
つまり10%よね

これは簡単でしたね。では、ここで1つ「条件」を加えてみます。

あなたは司会者からこっそり「当たりは偶数の番号の箱」だと教えてもらいました。


この条件が付いた場合、あなたが賞金をもらえる確率はどうなるでしょうか?

ロボ千代

アイ

偶数の箱は2、4、6、8、10の5個だけよね
そのうちの1つが当たりなんだから
確率は当たる確率は\(\frac{1}{5}\)
つまり20%ね
正解!
これがまさに「条件付き確率」なのです

ロボ千代

通常の「確率」は「すべての事象(全体)の中で、対象とする事象が起こる割合」のことです。
つまり、箱は全体で10個あって当たりは1個なのですから、「10個のうちの1個」すなわち「10%」となります。

一方、「条件付き確率」とは、「ある条件が成立する場合に限定した中で、対象とする事業が起こる割合」を意味します。
先ほどの例で言えば、「当たりは偶数の番号の箱」だとわかっているので、考える範囲を偶数の箱に限定できるわけです。
なので、偶数の番号の5個の中で当たりが1個と考えられるので、「5個のうちの1個」すなわち「20%」となるのです。

次は別のゲームで考えてみましょう。

丁半ゲーム

あなたは今度は別のテレビ番組の企画に参加することになりました。これは次のようなゲームです。

箱の中に1から6までの番号が書かれた玉が入っています。
1、2、3が赤玉、4、5、6が青玉です。

司会者がこの箱から玉を1つ取り出します。

この玉は丁(偶数)か半(奇数)か?
さあ、どっち?


では、取り出した玉の番号が奇数である確率を考えてみましょう

ロボ千代

アイ

もし奇数の確率が50%を超えるなら「半(奇数)」を選ぶほうが
当たる確率が高いわけね

何の条件(情報)も与えられないならば、箱の中には奇数の玉が3個、偶数の玉が3個ですから、奇数の確率は50%ですね。

では、ここで次のような条件が与えられたならどうでしょうか?

司会者が玉を取り出すときに「赤い色」がちらっと見えました。

赤い玉は1、2、3の3つあり、その中で奇数の玉は1、3の2つです。
よって、奇数である確率は\(\frac{2}{3}\)つまり約66%となります。

アイ

じゃあ「半!」と答えた方が当たる確率が高いわけね

これも先ほどの箱当てゲームと同じで、「引いたのは赤玉」という条件で考える範囲を限定できるため、この条件を与える前の確率から変化した、という点が重要です。

条件付き確率の公式

条件付き確率のイメージはつかめましたか?
ここまでが「条件付き確率」の本質です

ロボ千代

ここから先は、条件付き確率の公式について考えてみましょう。
最もよく知られている条件付き確率の公式は次のようなものです。

$$P _A (B)=\frac{P(A \cap B)}{P(A)}$$

なぜこのような公式が導かれるのかわかるでしょうか?
先ほどの「丁半ゲーム」を例に1つずつ順を追って考えてみましょう。

ステップ1
丁半ゲームの条件付き確率

取り出した玉が赤玉であることがわかっているとき、それが奇数の玉である確率は
$$\frac{奇数の赤玉の数}{赤玉の数}$$
でしたね。

条件付き確率の説明1

ここを出発点にして冒頭の「条件付き確率の公式」を導いていきます。

ステップ2
式の変形
先ほどの式\(\frac{奇数の赤玉の数}{赤玉の数}\)を少し変形してみます。
分母と分子を「すべての玉の数」で割ってみましょう。

条件付き確率の説明2

ステップ3
「場合の数」を「確率」に変換する
ここで、分母の
\(\frac{赤玉の数}{すべての玉の数}\)というのは「すべての玉のうち赤玉の確率」と言い換えてもいいですよね。
そして、分子の
\(\frac{奇数の赤玉の数}{すべての玉の数}\)というのは「すべての玉のうち奇数の赤玉の確率」と同じ意味です。

条件付き確率の説明3

アイ

条件付き確率は
「場合の数」としても表せるし、「確率」としても表せるのね
ステップ4
一般的な形にする
条件付き確率の式をもっと一般的な形にしてみましょう。
赤玉である=A、奇数の玉である=Bと置き換えてみます。

条件付き確率の説明4

ステップ5
数式で表現する
最後に、数学の表現に置き換えてみましょう。

Aという事象が起こる確率を数学では\(P(A)\)と表現します。\(P\)は「Probability(確率)」の頭文字です。

そして、AかつBが起こる確率は\(P(A \cap B)\)と表します。
\(A \cap B\)の読み方は「AかつB」または「AキャップB」です。

Aという条件のもとでBである条件付き確率は、\(P _A (B)\)または\(P(B|A)\)と表します。

条件付き確率の説明5

つまり、最終的には次の式になります。

$$P _A (B)=\frac{P(A \cap B)}{P(A)}$$
どうでしたか?
おなじみの公式を導くことができましたね

ロボ千代

ベン図による条件付き確率のイメージ

最後にベン図で条件付き確率の意味するところを確認しておきましょう。

公式を忘れてしまった場合、この図を思い出すといいですよ

ロボ千代

さらに理解を深めたいなら

社内研修の「統計講座」という設定で、先生と生徒の会話形式でベイズ統計を学ぶ入門書です。
ベイズ統計についてWebで調べてみるとサイトによって言っていることが違っていて困惑することもあるかと思います。
そんな初学者の疑問にもわかりやすく解説してくれているので、とても読みやすくベイズ統計の全体像を整理するのにとても良い本です。

ベイズ統計の基本的な概念である「条件付き確率」も「同時確率」との違いも含めてわかりやすい説明になっています。
中上級者には物足りないかもしれませんがデータサイエンスを学び始めたすべての人にオススメしたい良書です。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です