名義尺度、順序尺度、間隔尺度、比例尺度の違い

本記事はスキルチェックリストの[データサイエンス力 No.8]「名義尺度、順序尺度、間隔尺度、比例尺度の違いを説明できる」に対応しています。

データの種類

アイ

(じーっ)
何をそんなに真剣に見てるんですか?
あ、健康診断の結果ですね

ロボ千代

今日はこの健康診断の例を使ってデータの種類について勉強しましょう。

データは大きく分けると2種類、さらに細かく分けると4種類あります。

質的データと量的データ

性別や血液型など、数量で表せないデータは質的データと呼ばれます。これは性質やカテゴリーを示すものなので、カテゴリーデータ(カテゴリカルデータ)とも呼ばれます。

一方、身長や体重など、数量で表せるデータは量的データと呼ばれます。

質的データと量的データはさらに2種類に分けることができます。
4種類のデータ
詳しく見ていきましょう。

2種類の質的データ

健康診断の質的データ
性別、血液型、診断結果..

質的データの中にも2種類のデータがあることに気づくでしょうか?

アイさんの健康診断結果はAだったんですね

ロボ千代

アイ

とりあえず病気じゃなくてほっとしたわ
アイさんの血液型は..Aなんですね
ほっとしました?

ロボ千代

アイ

別にしないわよ!

健康診断の結果がAなら安心する人は多いでしょうが、血液型がAだから安心した、という人はいませんよね。
それはなぜでしょうか?

血液型のAやBはただのラベルを示しているにすぎませんが、評価のAやBは順序を表しているからです。

このように質的データの中でも単なるラベルにすぎないものを名義尺度といいます。
そして、ただのラベルではなく順序をつけられるデータは順序尺度といいます。

性別や血液型は名義尺度、診断結果は順序尺度です。

2種類の量的データ

次は量的データについて見ていきましょう。

健康診断の量的データ
身長、体重、血圧、体温、尿酸値

健康診断には量的データがたくさんありますね。
この量的データにも2種類あるんです。

例えば体重と体温。つまり「重さ」と「温度」で考えてみましょう。

重さもも温度も2つの値の差を計算することができます。つまり値の間隔には意味があります。
10kgと20kgは「10kg」の差があると言えますし、100kgと110kgも「10kg」の差があります。
同じように10℃と20℃は「10℃」の差があると言えますし、100℃と110℃も「10℃」の差があります。

ですが、1kgが3kgになったなら3倍重いと言えますが、1℃が3℃になったら3倍熱いと言えるのでしょうか?
実はそのように言うことはできません。

重さの場合は「0kg」というのはモノが存在しないことを表します。つまり、0を原点としているので、1から3に増えたときに3倍という比率が意味を持つのです。

一方で、温度の場合、「0℃」というのは温度が存在しないわけではありません。0℃より冷やしていけば、マイナスの温度になっていきます。
つまり、原点が0ではないのです。そのため、比率に意味がありません。

このように量的データの中でも間隔に意味があるが比率に意味がないデータを間隔尺度といいます。
そして、間隔にも比率にも意味があるデータを比例尺度といいます。

データの取り扱い

データを取り扱うときには、各データが名義尺度・順序尺度・間隔尺度・比例尺度のいずれなのかを意識してみるとよいです。

それぞれについて、「順序(大小)」「差」「比」の意味があるのかについて表に整理します。
○:意味がある、×:意味がない

データ 順序(大小)
名義尺度 × × ×
順序尺度 × ×
間隔尺度 ×
比例尺度

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です