ビッグデータを集計して、合計や最大値、最小値、レコード数を算出する

本記事はスキルチェックリストの[データエンジニアリング力 No.86]「数十万レコードのデータを集計して、合計や最大値、最小値、レコード数を算出できる」に対応しています。

統計処理のキホン

どんなデータであっても、まず初めに平均や分散など基本的な統計量を把握することが大切です。

今回はそのような基本統計量をPython(Jupyter Notebook)で算出する方法を学びましょう。

Jupyter NotebookyやDataframeなどの基本操作については下記の記事を参考にしてくださいね

ロボ千代

Jupyter Notebookで始めるデータ分析 ビッグデータからランダムまたは一定間隔にデータを抽出する

基本的な統計量の算出

データの読み込み

今回は擬似的に生成した顧客リストを使います。

データをDataframeの形式で読み込みます。きちんと読み込めているか確認するため、data.head()を使って最初の5行を出力してみます。


import pandas as pd

df = pd.read_csv("personal_info.csv")
df.head()


正しく読み込めているようですね。

各種統計量を算出する

基本的な統計量についてはDataframeに用意されている関数を使うことで簡単に求めることができます。
各種統計量と、それを算出するためのDataframeの関数について表にまとめました。

統計量 Dataframeの関数
レコード数 count()
平均値 mean()
分散 var()
標準偏差 std()
最大値 max()
最小値 min()
合計 sum()
MEMO
これらの統計量をまとめて確認したい場合には、describe()という関数と使うと一発で求められて便利です。
注意
レコード数以外の統計量は量的データについてのみ計算できるものなので、質的データに対してこれらを求めようとしてもエラーになります。

レコード数
Dataframe.count()

平均値・分散・標準偏差
Dataframeのmean()var()std()

最大値・最小値
Dataframeのmax()min()

合計
Dataframeのsum()

describe()で一気に求める
Dataframeのdescribe()

アイ

データを読み込んだらまずdescribe()を叩いてみるのがいいかもしれないわね

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です