量的変数の散布図を描き、2変数の関係性を把握する

本記事はスキルチェックリストの[データサイエンス力 No.69]「量的変数の散布図を描き、2変数の関係性を把握できる」に対応しています。

2つの特性の関係は?

1つの特性について可視化するのであれば「ヒストグラム」や「棒グラフ」で十分です。

例えば、「年収の分布を見たい」というようなケースであれば、ヒストグラムを描けば全体像を把握できますね。

しかし、現実には2つ以上の特性の間の関係性を知りたいことが多々あります。

例えば「年齢と年収の関係」や「地域と売上の関係」
などです。

とある小売店のケースで考えてみましょう

ロボ千代

例えば、「気温」と「アイスの売上」の関係性を知ることができれば、天気予報の気温からアイスの売上を予測することができます。

そうすれば、仕入れの量をあらかじめ調整できるので、品切れや売れ残りなどのリスクを最小化することができるはずです。

ここに過去の「気温とアイスの売上数」のデータがあります。このデータから気温とアイスの売上の関係性はわかるでしょうか?

気温(℃) 売上(個)
28.9 78
32.5 119
30.4 90
29.6 89
29.7 106
30.2 110
23.2 37
24.1 45
25 64
22.5 36
24 53
23.7 58
27.1 68
25.1 60
26.3 70

 

アイ

数字を並べられても…ぶっちゃけよくわからないわ

生データをながめていても関係性をイメージすることは難しいですよね。
2つの特性の関係を把握するには「散布図」を描くと便利です。

気温とアイスの売上の散布図

アイ

気温が高いほど、アイスもよく売れていそうね♪
このように散布図を描くとひと目で傾向をつかめるのです

ロボ千代

散布図の横軸・縦軸の取り方にもコツがあります。
別記事で整理しますので、そちらもご参考に。

散布図のパターン

気温とアイスの売上の関係のように、一方が大きくなると他方が大きくなる、あるいは小さくなるという関係を相関関係といいます。

一方が大きくなると他方が大きくなる関係を「正の相関」、一方が大きくなると他方が小さくなる関係を「負の相関」があるといいます。
正の相関と負の相関

「正の相関の」は右上がりの、「負の相関」は右下がりのグラフになるのか特徴です

ロボ千代

相関関係がない散布図はこのようになります。
無相関

相関関係の強弱

相関の強弱

相関関係にもよりはっきりした「強い相関」と、なんとなく相関関係がありそうな「弱い相関」がありそうです。
この相関の強い弱いを数値で定量的に表すことはできないでしょうか?

「相関係数」という数値で相関の強弱を表すことができます
それは別記事でご紹介しますね

ロボ千代

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です