平均、中央値、最頻値の違いは?

本記事はスキルチェックリストの[データサイエンス力 No.3]「平均(相加平均)、中央値、最頻値の算出方法の違いを説明できる」に対応しています。

データの代表値

次のデータは、ある会社で働く30人の年収(万円)です。

403 436 432
416 406 353
404 450 338
421 365 260
459 333 465
437 369 408
367 454 427
435 388 410
397 413 452
504 428 387
このデータを見て何を感じますか?
5秒以内に答えてください

ロボ千代

アイ

いや、何を感じるかって言われても…

生データを眺めていても、そこから特徴を理解するのは難しいものです。
そのデータの特徴をうまく表現できる代表的な数値があると便利ですよね。

平均値

最も有名な代表値は「平均値」です。

アイ

企業の平均年収ランキングっていうものもあるよね
確かにわかりやすいわ

平均値の計算方法は、データをすべて足し合わせてデータの数で割ります。よく知られている計算方法ですね。
平均値

先ほどの30人の年収の「平均値」を求めてみると407万円となります。

では、もう一度質問
このデータから何を感じます?

ロボ千代

平均年収=407万円

アイ

私より多いわ、うらやましい!

平均値という代表値で表すことで、そのデータ群が示すメッセージをわかりやすく伝えることができました。

中央値

アイ

よし、このセクションは終わり!
次に行きましょ
待ってください…平均値だけでデータの特徴を表せるでしょうか?

ロボ千代

今度は別の会社の30人の年収データを見てみましょう。

299 278 275
293 357 332
324 282 331
272 308 263
357 406 1238
311 294 295
297 1288 330
319 242 1310
378 278 344
334 213 350

平均値を計算してみると407万円となります。
最初の会社と同じですね。

しかし、データをよく見てみると、この会社は3人だけが突出して年収が高く、他の人は200万円台、300万円台がほとんどです。
つまり、3人の高給取りが全体の平均年収を吊り上げているんですね。

アイ

とんでもない格差社会だわ!

採用面接では平均年収400万円と聞いていたのに、実はこんな年収の分布だったら「チクショー、騙された!」と思いませんか?

このようにデータに偏りがある場合、平均値ではデータの特徴をうまく表現できないこともあるんです。

ロボ千代

アイ

うーん…平均値の他にいい代表値はあるかな?

データを値の小さい順に並べて真ん中の値を代表値とするのはどうでしょうか?
こうするとバカ高い年収の3人の影響を受けないので、実態に近くなりそうです。
この代表値を「中央値(メディアン)」といいます。
中央値

先ほどの30人の年収の中央値は315万円となります。
この会社の場合、中央値の方が直感的にも実態に近そうですね。

最頻値

最後にもうひとつ別の例を見てみましょう。

これはある会社30人の血液型のデータです。

A B O
O B A
O A A
A O O
A A A
B A AB
A B A
O A AB
AB O A
O A B

このデータの代表値はどう考えましょうか?

アイ

うーん、AとかBとかの平均なんて求められないし、データを小さい順に並べたくても血液型に大小はないから無理だわ

そうですよね。
このように数量で表せない「質的データ」の場合、平均値も中央値も求めることができません。このようなときは、もう1つの代表値である「最頻値(モード)」を考えてみるのがいいでしょう。

最頻値とはその名前の通り、最も出現頻度の高いデータのことです。つまり、このケースで言うと何型が一番多いか?ということですね。

血液型ごとに人数を数えてみると次のようになりました。

A 14
O 8
B 5
AB 3

A型の人が一番多いので、最頻値としてはAとなります。

3種類の代表値のまとめ

これら3つの代表値の1番の違いは極端な値(外れ値)の影響の受けやすさです。

「平均値」は極端に大きな値や小さな値の影響を受けやすいのですが、中央値になると受けにくくなります。最頻値ではまず影響はありません。

最後に3つの代表値の特徴をまとめておきます。
データの性質によって代表値を使い分けられるようにしましょう。

平均値
すべてのデータの値を考慮することができます。しかし裏を返すと、極端に大きい値や小さい値の影響を受けやすいと言えます。そのため、平均値を使う際にはそのような偏ったデータがないかを確認することが大切です。

中央値
平均値と違い、極端な値の影響をほとんど受けないことが利点です。ただし、そのことが逆にデメリットとなることもあります。
例えば、3人の年収が300万円、500万円、700万円だとします。この中央値は500万円です。
そして、300万円の人の年収が突然100万円になってしまい、100万円、500万円、700万円となりました。
これでも中央値は500万円で変化がありません。

また、300万円、700万円の人の年収が上がり、400万円、450万円、900万円となったとします。
この場合、中央値は500万円から450万円になったので、全体として年収が下がったという分析もおかしいです。

このように中央値は、データ全体の変化をうまく反映できないこともあります。

最頻値
最頻値も極端な値の影響を受けにくいことがメリットです。
しかし、データの数が少ない場合では、どの値も1個か2個しか出現しないことになってしまい、一番個数が多いことに意味がなくなってしまいます。
値の取る範囲が広い離散データなどは、ぴったり同じ値のデータがほとんどないので最頻値で表現するのには向きません。

代表値を使うときは、データの分布の特徴を考慮して、最も的確にデータを表すことができる値を使うようにしましょう。

平均値に騙されないようにしてくださいね

ロボ千代

メディアなどではよく平均データが出てきます。
その裏にあるデータに偏りがないか、本当に平均値がデータの代表値として相応しいのかを見抜けることが大切です。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です