データの代表値
次のデータは、ある会社で働く30人の年収(万円)です。
403 | 436 | 432 |
416 | 406 | 353 |
404 | 450 | 338 |
421 | 365 | 260 |
459 | 333 | 465 |
437 | 369 | 408 |
367 | 454 | 427 |
435 | 388 | 410 |
397 | 413 | 452 |
504 | 428 | 387 |
5秒以内に答えてください
ロボ千代
アイ
生データを眺めていても、そこから特徴を理解するのは難しいものです。
そのデータの特徴をうまく表現できる代表的な数値があると便利ですよね。
平均値
最も有名な代表値は「平均値」です。
アイ
確かにわかりやすいわ
平均値の計算方法は、データをすべて足し合わせてデータの数で割ります。よく知られている計算方法ですね。
先ほどの30人の年収の「平均値」を求めてみると407万円となります。
このデータから何を感じます?
ロボ千代
アイ
平均値という代表値で表すことで、そのデータ群が示すメッセージをわかりやすく伝えることができました。
中央値
アイ
次に行きましょ
ロボ千代
今度は別の会社の30人の年収データを見てみましょう。
299 | 278 | 275 |
293 | 357 | 332 |
324 | 282 | 331 |
272 | 308 | 263 |
357 | 406 | 1238 |
311 | 294 | 295 |
297 | 1288 | 330 |
319 | 242 | 1310 |
378 | 278 | 344 |
334 | 213 | 350 |
平均値を計算してみると407万円となります。
最初の会社と同じですね。
しかし、データをよく見てみると、この会社は3人だけが突出して年収が高く、他の人は200万円台、300万円台がほとんどです。
つまり、3人の高給取りが全体の平均年収を吊り上げているんですね。
アイ
採用面接では平均年収400万円と聞いていたのに、実はこんな年収の分布だったら「チクショー、騙された!」と思いませんか?
ロボ千代
アイ
データを値の小さい順に並べて真ん中の値を代表値とするのはどうでしょうか?
こうするとバカ高い年収の3人の影響を受けないので、実態に近くなりそうです。
この代表値を「中央値(メディアン)」といいます。
先ほどの30人の年収の中央値は315万円となります。
この会社の場合、中央値の方が直感的にも実態に近そうですね。
最頻値
最後にもうひとつ別の例を見てみましょう。
これはある会社30人の血液型のデータです。
A | B | O |
O | B | A |
O | A | A |
A | O | O |
A | A | A |
B | A | AB |
A | B | A |
O | A | AB |
AB | O | A |
O | A | B |
このデータの代表値はどう考えましょうか?
アイ
そうですよね。
このように数量で表せない「質的データ」の場合、平均値も中央値も求めることができません。このようなときは、もう1つの代表値である「最頻値(モード)」を考えてみるのがいいでしょう。
最頻値とはその名前の通り、最も出現頻度の高いデータのことです。つまり、このケースで言うと何型が一番多いか?ということですね。
血液型ごとに人数を数えてみると次のようになりました。
A | 14 |
O | 8 |
B | 5 |
AB | 3 |
A型の人が一番多いので、最頻値としてはAとなります。
3種類の代表値のまとめ
これら3つの代表値の1番の違いは極端な値(外れ値)の影響の受けやすさです。
「平均値」は極端に大きな値や小さな値の影響を受けやすいのですが、中央値になると受けにくくなります。最頻値ではまず影響はありません。
最後に3つの代表値の特徴をまとめておきます。
データの性質によって代表値を使い分けられるようにしましょう。
平均値
すべてのデータの値を考慮することができます。しかし裏を返すと、極端に大きい値や小さい値の影響を受けやすいと言えます。そのため、平均値を使う際にはそのような偏ったデータがないかを確認することが大切です。
中央値
平均値と違い、極端な値の影響をほとんど受けないことが利点です。ただし、そのことが逆にデメリットとなることもあります。
例えば、3人の年収が300万円、500万円、700万円だとします。この中央値は500万円です。
そして、300万円の人の年収が突然100万円になってしまい、100万円、500万円、700万円となりました。
これでも中央値は500万円で変化がありません。
また、300万円、700万円の人の年収が上がり、400万円、450万円、900万円となったとします。
この場合、中央値は500万円から450万円になったので、全体として年収が下がったという分析もおかしいです。
このように中央値は、データ全体の変化をうまく反映できないこともあります。
最頻値
最頻値も極端な値の影響を受けにくいことがメリットです。
しかし、データの数が少ない場合では、どの値も1個か2個しか出現しないことになってしまい、一番個数が多いことに意味がなくなってしまいます。
値の取る範囲が広い離散データなどは、ぴったり同じ値のデータがほとんどないので最頻値で表現するのには向きません。
代表値を使うときは、データの分布の特徴を考慮して、最も的確にデータを表すことができる値を使うようにしましょう。
ロボ千代
メディアなどではよく平均データが出てきます。
その裏にあるデータに偏りがないか、本当に平均値がデータの代表値として相応しいのかを見抜けることが大切です。
コメントを残す