母平均と標本平均、不偏分散と標本分散の違いとは?

本記事はスキルチェックリストの[データサイエンス力 No.5]「母(集団)平均と標本平均、不偏分散と標本分散がそれぞれ異なることを説明できる」に対応しています。

「日本の猫」の体長の平均と分散は?

突然ですが、「日本に住んでいる猫」の体長の平均と分散を調べたい場合、どうすればいいでしょうか?

もっとも正確だと思われるのは、日本全国すべての猫の体長を調べることですね

ロボ千代

アイ

そんなの一生かかっても終わらないわよ…

日本には約1000万匹の猫がいるそうです。

それらを順番に1匹1匹調べて回るわけにもいきませんよね。
それに、調べている間に新しい猫が生まれることもあるでしょう。調査対象は刻一刻と変化してしまいます。

このような場合、全国の猫からランダムに何匹かを選び、それらを調査対象とする方法があります。

このとき、全国の猫を「母集団」、そこから取り出した何匹かの猫の集団を「標本」といいます。

母集団と標本

母集団すべてを調査することを「全数調査」、標本のみを調査することを「標本調査」といいます。

全数調査の代表は国が5年に1度行っている国勢調査です。他の調査は毎年行っているものも多いのですが、全数調査は調査する方もされる方も大変なので、5年に1回なんですね。実際、2015年の国勢調査ではと約70万人の調査員が動員されおよそ700億円もの調査費用がかかりました。

全数調査は正確なデータを得ることができますが、時間も手間もかかるため現実的には不可能なことが多いです。そのため、世の中のほとんどの調査は標本調査です。
例えば、選挙のときの出口調査というものがありますが、あれは選挙に来た全員を調査しているわけではありません。何人かを選んで調査を行う標本調査です。

母平均・母分散と標本平均・標本分散

母集団の平均と分散を「母平均」「母分散」といい、標本の平均と分散を「標本平均」「標本分散」といいます。

アイ

そのままのネーミングね

いま私たちが知りたいのは全国の猫の体長の母平均・母分散なのですが、全数調査は現実的には不可能です。

そこで、ランダムに猫を100匹選び、それらを標本とした標本調査を考えましょう。この100匹の標本平均・標本分散は、母平均・母分散を推測する大きな手がかりになります。

母平均・母分散の推定

では、ここからは100匹の猫の標本平均・標本分散を手がかりに、日本の猫の母平均・母分散を推定してみましょう。

100匹の猫の標本平均・標本分散は次の通りわかったと仮定します。

標本平均=40.0cm
標本分散=10.0cm

点推定と区間推定

標本平均や標本分散から、母平均と母分散を推定する方法は大きく2つあります。

1つは「41.6cm!」などと値をピンポイントで推定することです。
でもこれってかなり難しい推定ですよね。
カジノのルーレットで言えば、どれか1つの数字を選んで賭けるようなものです。

もう1つの方法は、推定に幅を持たせて、38.5〜42.5cmのように予測します。
こうすれば、それなりに当たりやすい推測ができそうてす。

前者のように値をピンポイントで推定する方法を「点推定」、後者のように幅を持たせて推定する方法を「区間推定」といいます。

これについては別記事で詳しく説明しますので、ここではそんな方法があるんだな程度で大丈夫です。

母平均・母分散の推定にも点推定と区間推定の両方の方法がありますが、ここでは点推定の方法をご紹介します。

母平均の推定

「1000万匹(母集団)の平均」と「100匹(標本)の平均」がぴったり一致することはないのは直感的にもおわかりいただけるかと思います。

標本である100匹の選び方が異なれば、当然それらの平均も異なります。たまたま小さめの猫ばかり選んでしまうと標本平均は小さめになるでしょう。逆に大きめの猫ばかり選んでしまうと標本平均は大きめになるはずです。

つまり選んだ標本自体の偏りは避けられないため、そこから計算した平均や分散も偏るだろうと推測できます。

アイ

それじゃあ、母平均を推測するなんて無理なんじゃない?

確かに1つの標本だけを見れば、それが偏った集団である可能性はあります。しかし、100匹の猫の選び方を何度も変えて、それらの「標本平均」の平均値を求めていけば、この偏りは補正されていくと思われます。

数学的にも、標本平均の平均は母平均に近づくと証明されています。これを「大数の法則」といいます。

大数の法則
標本の数が多くなるほど標本平均は母平均に近づく

そのため、標本から母平均をピンポイントで推定するならば、標本平均を使ってもそれなりに妥当だろうということです。

なので、

全国の猫の体長の平均(母平均)=標本の平均=40.0cm

と推測することができます。

母分散の推定

さて、次は母分散を推定してみましょう。

アイ

母平均と同じように標本分散=母分散にすればいいんじゃない?
確かにそう考えてしまうのですが…実は母分散はそれだとちょっとまずいんです

ロボ千代

標本平均を母平均の推定値としてよいのは「標本を選んで標本平均を求めることを何度も繰り返すと、それらの標本平均の平均が母平均と一致するから」です。

これと同じように、「標本を選んでその標本分散を求める」ということを何度も繰り返して、それらの標本分散の平均を取ると、それは母分散と同じになるのでしょうか?

実は同じにならないのです。

母集団から「N匹の猫を標本として選び、標本分散を求める」ことを何度も繰り返します。
そして得られた標本分散の平均値を求めると

$$\frac{N-1}{N}\times(母分散)$$

に近づくのです。つまり、標本分散は本来の母分散よりも少し小さくなってしまうのです。 

これは標本の選び方自体が偏っていることに起因しています。そこで、標本分散から母分散を求めるときはこの偏りを補正してあげる必要があります。

$$標本分散=\frac{N-1}{N}\times(母分散)$$
ということなので、この式を変形して
$$母分散=\frac{N}{N-1}\times(標本分散)$$
となります。

このように標本の偏りを補正した標本分散のことを、偏りがない分散という意味で「不偏分散(ふへんぶんさん)」といいます。

この不偏分散を母分散に等しいと考えれば、

全国の猫の体長の分散(母分散)=\(\frac{100}{100-1}\times\)(100匹の標本分散)=10.1cm
となります。

さらに理解を深めたいなら

標本から母集団を推定する方法についてさらに理解を深めるなら下記の書籍をおすすめします。

統計学を初めて学ぶ人や、統計学を学ぼうとしたが挫折してしまった人に向けて書かれた「超入門書」です。
本書は第1部と第2部の2本立ての構成となっています。第1部では平均値や分散など統計学の基礎知識を学習し、第2部で標本から母集団を推定する方法を学びます。
平易な例えや簡単な計算問題などが織り交ぜられているのでとても読みやすく、統計の初学者にオススメの1冊です。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です