クロス集計で隠れた関係をあぶり出そう

本記事はスキルチェックリストの[データサイエンス力 No.68]「適切な軸設定でクロス集計表を作成し、属性間のデータの偏りを把握できる」に対応しています。

単純集計とクロス集計

あなたは街頭で飲酒に関するアンケートを取っています。
設問は以下の4つで構成されています。

設問1:性別
設問2:年齢
設問3:家族構成
設問4:お酒を飲むか?

苦労した甲斐もあり、必要な量のアンケート結果を得ることができました。

ではアイさん
この結果を集計してくれますか?

ロボ千代

アイ

はいよー

ここに表

お酒を飲む お酒を飲まない
設問4 46人 54人

アイ

以上です
お疲れさまでした!
ちょっと…
帰らないでください

ロボ千代

この表を見て何を思えと?

ロボ千代

アイ

いや、だから
半々くらいだな〜と…

今回のアンケートでは設問が4つありましたが、1つ1つの設問の結果の回答を集計したり、平均を求めたりすることを「単純集計」といいます。
基礎分析の1つとして単純集計は重要ではありますが、これだけでは次のアクションに結びつけにくいのが現実です。
今回のアイさんの単純集計ではお酒を飲む人と飲まない人がだいたい半々ずついるのはわかりました。ただ、それ以上の情報がありません。

単純集計の次のステップとして「クロス集計」を行ってみましょう。

アイ

クロス…?
「クロス集計」では、設問同士をかけあわせ(クロスさせ)、データを深堀りしていきます

ロボ千代

例えば、
設問4:お酒を飲むか?
という設問に、
設問1:性別
をクロスさせてみます。

具体的には、表の横軸と縦軸にそれぞれ設問4と設問1を設定します。

この表の横軸を「表頭(ひょうとう)」、縦軸を「表側(ひょうそく)」といいます。

ロボ千代

クロス集計(表頭と表側)

設問4だけ見ると、お酒を飲む人、飲まない人はほぼ半々でしたが、「性別」をかけあわせると偏りが見えてきました。

アイ

男性はお酒を飲む人が多いけど、女性は少ないのね
単純集計では見えなかった傾向が、クロス集計により見えてくることも多いんです

ロボ千代

このように「偏り」が明らかになると、次のアクションも考えやすくなります。

このクロス集計では「女性はお酒を飲む人が少ない」という傾向がわかりました。
すると、お酒のシェアを伸ばすために、伸びしろのある女性をターゲットにするという戦略を考えることができます。

じゃあ女性に訴求できるお酒ってなんだろうということで、「デザート感覚で飲める」「アルコール度数が低い」「パッケージがかわいい」などいろいろなアイデアにつながりますね。

「設問2:年齢」や「設問3:家族構成」とクロスさせてみると、さらに別の切り口から面白い発見があるかもしれません。

どの項目をクロスさせるか、というのもデータサイエンティストの腕の見せどころですね

ロボ千代

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です