Jupyter Notebookで始めるデータ分析

本記事はスキルチェックリストの[データエンジニアリング力 No.117]「Jupyter NotebookやRStudioなどの対話型の開発環境を用いて、データの分析やレポートの作成ができる」に対応しています。

Jupyter Notebookとは

データサイエンティストは、統計学などの知識を備えているだけでなく、その知識を駆使して実際の課題を解決していくことが求められます。

そのためには、データを分析するためのツールが必要です。
データサイエンティストの間で最も広く利用されているデータ分析ツールが「Jupyter Notebook」です。
「ジュピター ノートブック」または「ジュパイター ノートブック」と読みます。

個人・商用を問わず無料で利用することができ、設定や使い方もとても簡単であることが特徴です。このツールを使ってプログラムを書きながらデータを分析・加工していきます。

プログラミングの経験が少ない方は、「プログラム」と聞くと、真っ黒の画面に意味不明な英語や記号が羅列されたものをイメージしてしまうかもしれません。


こんな画面は生粋のプログラマーでなければ拒絶反応を起こしてしまうでしょう…

ロボ千代

安心してください。
Jupyter Notebookはプログラマーでない人でも簡単にわかりやすく使えます。

これがJupyter Notebookの画面です。

Jupter Notebookのサンプル

まさに「ノート」のように自由にメモを書いたり画像を貼ったりでき、プログラムを実行した結果やグラフをそのまま保存しておくことができるのです。

アイ

まさに「ノートブック」ね♪

まずはインストール

Jupyter Notebookを理解するには実際に動かしてみるのが1番です。
この記事で簡単なプログラムを書いて動かしてみましょう。

なにはともあれ、まずはJupyter Notebookをインストールします。
「Anaconda」というアプリをインストールすると、Jupyter Notebookも一緒にインストールされるため、この方法がもっとも簡単です。

Anacondaのインストールを解説したサイトはたくさんあるので、例えば下記のサイトなどを参考にしてみてください。

Python Japan 環境構築ガイド

「Anaconda インストール」などで検索してもいいですよ

ロボ千代

Jupyterを使ってみよう

Anacondaが無事にインストールできたら、いよいよプログラムを書いていきましょう。

では、早速ですが、Jupyter Notebookを使って「気温と湿度の関係」を散布図にしてみましょう

ロボ千代

アイ

なんかいきなり難しそう…
普通、最初は”Hello,world”を画面に表示する、とかじゃないの?

散布図を描くなんて一見難しそうですが、実はJupyter Notebookを使うと簡単にできてしまいます。
まずはそれを実感してほしいと思います。

気温と湿度のデータ(csvファイル)はサンプルとしてこちらで用意しましたので、自由にダウンロードしてお使いください。

ステップ1
Jupyter Notebookの起動
Jupyter Notebookを起動してみましょう。

  1. Anaconda Navigatorというアプリを起動します
  2. Jupyter Notebookの「Launch」ボタンをクリックします
  3. ウェブブラウザでJupyterが起動します
  4. このとき【C:\Users\ユーザー名】が初期フォルダになっていますので、そのフォルダの中身が表示されているはずです。
    そのため【C:\Users\ユーザー名】の下にJupyter Notebook用のフォルダを作っておくとよいでしょう。
    フォルダ名は何でもいいですが、例えば、「PythonDemo」というフォルダをあらかじめ作っておき、気温と湿度のcsvファイルもこのフォルダに移動させておきましょう。

  5. PythonDemoフォルダに移動します
  6. 前の手順で作成したJupyter Notebook用のフォルダに移動します。以降はここが作業フォルダになります。

初めてのJupyter ステップ1

ステップ2
Jupyter Notebookの作成
  1. Jupyter Notebookの右上の「New」から「Python 3」を選んでクリックします
  2. Jupyter Notebookが新規作成されます
初めてのJupyter ステップ2

ステップ3
プログラムを書く
さあ、いよいよプログラムを書いていくわけですが

ロボ千代

プログラミングというのは「コンピュータにやってほしいこと」をコンピュータに理解できる言葉を使って記述することです。
人間の世界にも英語や日本語、中国語など様々な言葉があるように、コンピュータの世界にも様々な言葉があります。

データ分析の分野で好まれているのは「Python(パイソン)」という言語です。
文法がシンプルでプログラミングの初心者でも習得しやすく、データを分析するための便利なパッケージが揃っているからです。

アイ

じゃあ、そのPythonを使ってプログラムを書いていくわけね
そのとおりです

ロボ千代

Pythonの文法の説明は別の機会にして、ここではJupyter Notebookでプログラムをどのように書いて実行するのかを見てみましょう。

プログラミング言語で記述されたテキストのことを「ソースコード」あるいは単に「コード」といいます。
まず、次の「コード」をコピーして、Jupyter Notebookにペーストしてください。

import pandas as pd
from matplotlib import pyplot as plt
%matplotlib inline

data = pd.read_csv("kion_shitsudo.csv", engine="python")

plt.rcParams["font.size"] = 15
data.plot.scatter(x='気温(℃)', y='湿度(%)')

今はこのコードの深い意味まで理解しなくてもOKですが、どのような処理をやっているのかだけ、ざっと説明します。

1. 必要なパッケージの読み込み
Pythonにはデータ分析に便利がパッケージがあらかじめ用意されています。それらを使える状態にしています。

import pandas as pd
from matplotlib import pyplot as plt
%matplotlib inline

2. csvファイルの読み込み
csvファイルの中身を読み込みます。

data = pd.read_csv("kion_shitsudo.csv", engine="python")

3. 散布図の描画
読み込んだデータを散布図でグラフ化します。

plt.rcParams["font.size"] = 15
data.plot.scatter(x='気温(℃)', y='湿度(%)')
ステップ4
プログラムの実行
では、コピペしたプログラムを実行してみましょう。
Jupter Notebookの上のメニューにある「Run」ボタンを教えてみてください。

初めてのJupyter ステップ4
こんな結果が表示されたでしょうか?

散布図がNotebook内に描画されていますね。この結果はNotebookとして保存しておくこともできますし、画像ファイルとして書き出すこともできます。

このNotebookをうまく使って、説明文などを書き足していけば、そのまま分析レポートとしても使えます。

アイ

ほんの数行のコードでこんなことまでできちゃうんだ!
プログラミングへの抵抗感を払拭できたら初めの一歩としては大成功です

ロボ千代

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です