餃子作りで理解するデータの分散と標準偏差

本記事はスキルチェックリストの[データサイエンス力 No.4]「与えられたデータにおける分散と標準偏差が計算できる」に対応しています。

分散・標準偏差=バラツキ

餃子屋さんの例をもとに、分散と標準偏差について考えてみましょう

ロボ千代

餃子のイメージ

脱サラして手作り餃子のお店を始めた田中さん。
3人の従業員を雇い、特製餃子の作り方を教えました。

味には自信があったので、お店の評判は上々。
順調な滑り出しです。

そんなある日、お客さんの気になる会話が田中店長の耳に飛び込んできます。

「なんか俺の餃子、小さくない…?」

このお店の餃子は1つ30グラムと決まっています。
「でっかい餃子!」がウリなので小さい餃子では看板に偽りありとなりますし、大きすぎては採算に合いません。もし餃子の大きさにバラツキがあるなら死活問題です。

アイ

餃子の大きさにどれくらいバラツキがあるのか調べてみては?

データドリブンな考え方を身に着けていた田中店長は従業員3人の餃子のバラツキを調べることにしました。

3人に20個の餃子を作ってもらい、重さを測ったところ次のようになりました。

鈴木 池田 近藤
31.1 31.5 27.2
27.0 29.4 33.0
28.7 29.7 33.0
32.9 30.5 30.5
32.4 30.3 32.5
31.2 29.9 30.8
28.0 31.0 26.8
27.2 29.6 24.2
28.9 30.5 31.7
31.6 29.5 32.4
28.2 30.5 35.1
32.4 29.8 29.8
31.2 29.7 28.2
29.7 28.2 26.7
31.5 30.9 27.3
27.3 30.3 34.0
26.3 29.3 29.5
33.0 28.1 31.2
31.0 29.9 30.4
31.1 31.4 26.0

平均の重さは3人とも30グラム。平均値としては問題はないようです。

では、この3人の作った餃子の重さのバラツキはどのように計算したらいいでしょうか?

そもそもばらつくとは?

まったくばらついていない状態というのは、すべて同じ重さということですね。これらの平均値を取ると、各データはその平均値とぴったり一致します。

一方で、この平均値から上や下にずれたデータがある状態、これがばらついているという状態です。
この平均値からのズレのことを統計学の用語で「偏差」といいます。

偏差

データがばらついている
=データの平均値からずれているデータがたくさんある

そうなると、ばらつきが大きいというのは、平均値から大きくズレたデータが多いと言い換えられます。

この「平均値からのズレ(偏差)」を各データについて計算し、それらの平均値を求めるとデータ全体としてのばらつき具合を1つの数値で表現できそうですね。

じゃあ、アイさん
実際に計算してみましょう

ロボ千代

アイ

オッケー、まかせてよ

鈴木さんの餃子のバラツキを計算する

ステップ1
データの平均値を計算する
バラツキの基準となる平均値を計算します。

$$平均値=30.0$$
ステップ2
各データと平均値との差を計算する
次に各データと平均値とがどれくらいズレているのか、つまり「偏差」を計算します。

$$偏差=各データの値-平均値$$

すべての餃子に対して、この偏差を計算します。

餃子の重さ(g) 偏差(g)
31.1 1.1
27.0 -3.0
28.7 -1.3
32.9 2.9
32.4 2.4
31.2 1.2
28.0 -2.0
27.2 -2.8
28.9 -1.1
31.6 1.6
28.2 -1.8
32.4 2.4
31.2 1.2
29.7 -0.3
31.5 1.5
27.3 -2.7
26.3 -3.7
33.0 3.0
31.0 1.0
31.1 1.1
ステップ3
偏差を2乗する
偏差はプラスもあればマイナスもあり、足し合わせると相殺されてしまいます。これでは正しく偏差の平均を計算することができません。

こんなとき数学的に便利な方法があります。
数値を2乗するのです。2乗すると、マイナス×マイナス=プラスなので、どんな数値でもプラスにすることができます。

では、すべてのデータに対して「偏差の2乗」を計算しましょう。

餃子の重さ(g) 偏差(g) 偏差の2乗(g×g)
31.1 1.1 1.13
27.0 -3.0 9.21
28.7 -1.3 1.78
32.9 2.9 8.21
32.4 2.4 5.59
31.2 1.2 1.36
28.0 -2.0 4.14
27.2 -2.8 8.04
28.9 -1.1 1.29
31.6 1.6 2.45
28.2 -1.8 3.37
32.4 2.4 5.59
31.2 1.2 1.36
29.7 -0.3 0.11
31.5 1.5 2.15
27.3 -2.7 7.48
26.3 -3.7 13.95
33.0 3.0 8.79
31.0 1.0 0.93
31.1 1.1 1.13
ステップ4
偏差の2乗の平均値を求める
この「偏差の二乗」を各データのバラツキの大きさと考えれば、平均的なバラツキの大きさは「偏差の二乗」の平均値を計算することで求められます。

平均値なので、すべてのデータの「偏差の2乗」を足し合わせてデータの個数で割ります。
これがデータのバラツキを表す値で、統計学の用語で「分散」と呼ばれます。

$$分散=4.4$$
ステップ5
分散の単位を戻す
3人の分散を比較することでも、バラツキの大きさを比較することはできます。

ですが、ステップ3を思い出してください。
偏差を2乗していましたね。

このため、分散の単位はグラムではなくグラム2乗です。
「平均的に4.4グラム2乗ばらついている」と言われてもピンときませんね。

なので、元のグラムという単位に戻すために、分散の平方根を計算します。
この「分散の平方根」のことを「標準偏差」といいます。

$$標準偏差=\sqrt{分散}=\sqrt{4.4}=2.1$$
結論
鈴木さんの餃子のバラツキ
以上から、「鈴木さんの作る餃子の重さは平均的に2.1グラムばらついている」と計算することができました。

同じように、池田さんと近藤さんの標準偏差を計算し、3人の標準偏差を比べてみると…

鈴木さん 池田さん 近藤さん
標準偏差 2.1 0.9 2.9

池田さんが一番バラツキが小さく、近藤さんが一番多いということがわかりました。
この結果を見た田中店長は早速池田さんに近藤さんと鈴木さんの2人を指導してもらうことにしました。
やがて、2人の技術も上達し、安定した大きさの餃子をお客さんに提供できるようになることでしょう。

バラツキを定量化することで、問題点を見える化し、具体的な対策までつなげられるんですね

ロボ千代

平均偏差
偏差がプラスとマイナスで相殺してしまうのを防ぐために2乗していましたか、絶対値を取ることでも相殺を防ぐことができます。
こうすれば、まさに平均値からこ離れ具合の平均を考えることができるので、直感的にもわかりやすいですよね。
これを「平均偏差」といいます。

アイ

まさに偏差の平均よね

でも、単にばらつき具合を知りたいのであれば、「平均偏差」でも「標準偏差」でもあまり変わりません。しかし、統計学的な処理を行う場合、標準偏差の方が便利なので平均偏差が使われることは少ないのが実情です。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です