分散・標準偏差=バラツキ
ロボ千代

3人の従業員を雇い、特製餃子の作り方を教えました。
味には自信があったので、お店の評判は上々。
順調な滑り出しです。
そんなある日、お客さんの気になる会話が田中店長の耳に飛び込んできます。
「なんか俺の餃子、小さくない…?」
このお店の餃子は1つ30グラムと決まっています。
「でっかい餃子!」がウリなので小さい餃子では看板に偽りありとなりますし、大きすぎては採算に合いません。もし餃子の大きさにバラツキがあるなら死活問題です。
アイ
データドリブンな考え方を身に着けていた田中店長は従業員3人の餃子のバラツキを調べることにしました。
3人に20個の餃子を作ってもらい、重さを測ったところ次のようになりました。
鈴木 | 池田 | 近藤 |
31.1 | 31.5 | 27.2 |
27.0 | 29.4 | 33.0 |
28.7 | 29.7 | 33.0 |
32.9 | 30.5 | 30.5 |
32.4 | 30.3 | 32.5 |
31.2 | 29.9 | 30.8 |
28.0 | 31.0 | 26.8 |
27.2 | 29.6 | 24.2 |
28.9 | 30.5 | 31.7 |
31.6 | 29.5 | 32.4 |
28.2 | 30.5 | 35.1 |
32.4 | 29.8 | 29.8 |
31.2 | 29.7 | 28.2 |
29.7 | 28.2 | 26.7 |
31.5 | 30.9 | 27.3 |
27.3 | 30.3 | 34.0 |
26.3 | 29.3 | 29.5 |
33.0 | 28.1 | 31.2 |
31.0 | 29.9 | 30.4 |
31.1 | 31.4 | 26.0 |
平均の重さは3人とも30グラム。平均値としては問題はないようです。
では、この3人の作った餃子の重さのバラツキはどのように計算したらいいでしょうか?
そもそもばらつくとは?
まったくばらついていない状態というのは、すべて同じ重さということですね。これらの平均値を取ると、各データはその平均値とぴったり一致します。
一方で、この平均値から上や下にずれたデータがある状態、これがばらついているという状態です。
この平均値からのズレのことを統計学の用語で「偏差」といいます。
=データの平均値からずれているデータがたくさんある
そうなると、ばらつきが大きいというのは、平均値から大きくズレたデータが多いと言い換えられます。
この「平均値からのズレ(偏差)」を各データについて計算し、それらの平均値を求めるとデータ全体としてのばらつき具合を1つの数値で表現できそうですね。
実際に計算してみましょう
ロボ千代
アイ
鈴木さんの餃子のバラツキを計算する
すべての餃子に対して、この偏差を計算します。
餃子の重さ(g) | 偏差(g) |
31.1 | 1.1 |
27.0 | -3.0 |
28.7 | -1.3 |
32.9 | 2.9 |
32.4 | 2.4 |
31.2 | 1.2 |
28.0 | -2.0 |
27.2 | -2.8 |
28.9 | -1.1 |
31.6 | 1.6 |
28.2 | -1.8 |
32.4 | 2.4 |
31.2 | 1.2 |
29.7 | -0.3 |
31.5 | 1.5 |
27.3 | -2.7 |
26.3 | -3.7 |
33.0 | 3.0 |
31.0 | 1.0 |
31.1 | 1.1 |
こんなとき数学的に便利な方法があります。
数値を2乗するのです。2乗すると、マイナス×マイナス=プラスなので、どんな数値でもプラスにすることができます。
では、すべてのデータに対して「偏差の2乗」を計算しましょう。
餃子の重さ(g) | 偏差(g) | 偏差の2乗(g×g) |
31.1 | 1.1 | 1.13 |
27.0 | -3.0 | 9.21 |
28.7 | -1.3 | 1.78 |
32.9 | 2.9 | 8.21 |
32.4 | 2.4 | 5.59 |
31.2 | 1.2 | 1.36 |
28.0 | -2.0 | 4.14 |
27.2 | -2.8 | 8.04 |
28.9 | -1.1 | 1.29 |
31.6 | 1.6 | 2.45 |
28.2 | -1.8 | 3.37 |
32.4 | 2.4 | 5.59 |
31.2 | 1.2 | 1.36 |
29.7 | -0.3 | 0.11 |
31.5 | 1.5 | 2.15 |
27.3 | -2.7 | 7.48 |
26.3 | -3.7 | 13.95 |
33.0 | 3.0 | 8.79 |
31.0 | 1.0 | 0.93 |
31.1 | 1.1 | 1.13 |
平均値なので、すべてのデータの「偏差の2乗」を足し合わせてデータの個数で割ります。
これがデータのバラツキを表す値で、統計学の用語で「分散」と呼ばれます。
ですが、ステップ3を思い出してください。
偏差を2乗していましたね。
このため、分散の単位はグラムではなくグラム2乗です。
「平均的に4.4グラム2乗ばらついている」と言われてもピンときませんね。
なので、元のグラムという単位に戻すために、分散の平方根を計算します。
この「分散の平方根」のことを「標準偏差」といいます。
同じように、池田さんと近藤さんの標準偏差を計算し、3人の標準偏差を比べてみると…
鈴木さん | 池田さん | 近藤さん | |
標準偏差 | 2.1 | 0.9 | 2.9 |
池田さんが一番バラツキが小さく、近藤さんが一番多いということがわかりました。
この結果を見た田中店長は早速池田さんに近藤さんと鈴木さんの2人を指導してもらうことにしました。
やがて、2人の技術も上達し、安定した大きさの餃子をお客さんに提供できるようになることでしょう。
ロボ千代
こうすれば、まさに平均値からこ離れ具合の平均を考えることができるので、直感的にもわかりやすいですよね。
これを「平均偏差」といいます。
アイ
でも、単にばらつき具合を知りたいのであれば、「平均偏差」でも「標準偏差」でもあまり変わりません。しかし、統計学的な処理を行う場合、標準偏差の方が便利なので平均偏差が使われることは少ないのが実情です。
コメントを残す