Jupyter Notebookとは
データサイエンティストは、統計学などの知識を備えているだけでなく、その知識を駆使して実際の課題を解決していくことが求められます。
そのためには、データを分析するためのツールが必要です。
データサイエンティストの間で最も広く利用されているデータ分析ツールが「Jupyter Notebook」です。
「ジュピター ノートブック」または「ジュパイター ノートブック」と読みます。
個人・商用を問わず無料で利用することができ、設定や使い方もとても簡単であることが特徴です。このツールを使ってプログラムを書きながらデータを分析・加工していきます。
プログラミングの経験が少ない方は、「プログラム」と聞くと、真っ黒の画面に意味不明な英語や記号が羅列されたものをイメージしてしまうかもしれません。
ロボ千代
安心してください。
Jupyter Notebookはプログラマーでない人でも簡単にわかりやすく使えます。
これがJupyter Notebookの画面です。
まさに「ノート」のように自由にメモを書いたり画像を貼ったりでき、プログラムを実行した結果やグラフをそのまま保存しておくことができるのです。
アイ
まずはインストール
Jupyter Notebookを理解するには実際に動かしてみるのが1番です。
この記事で簡単なプログラムを書いて動かしてみましょう。
なにはともあれ、まずはJupyter Notebookをインストールします。
「Anaconda」というアプリをインストールすると、Jupyter Notebookも一緒にインストールされるため、この方法がもっとも簡単です。
Anacondaのインストールを解説したサイトはたくさんあるので、例えば下記のサイトなどを参考にしてみてください。
ロボ千代
Jupyterを使ってみよう
Anacondaが無事にインストールできたら、いよいよプログラムを書いていきましょう。
ロボ千代
アイ
普通、最初は”Hello,world”を画面に表示する、とかじゃないの?
散布図を描くなんて一見難しそうですが、実はJupyter Notebookを使うと簡単にできてしまいます。
まずはそれを実感してほしいと思います。
気温と湿度のデータ(csvファイル)はサンプルとしてこちらで用意しましたので、自由にダウンロードしてお使いください。
- Anaconda Navigatorというアプリを起動します
- Jupyter Notebookの「Launch」ボタンをクリックします
- ウェブブラウザでJupyterが起動します
- PythonDemoフォルダに移動します
このとき【C:\Users\ユーザー名】が初期フォルダになっていますので、そのフォルダの中身が表示されているはずです。
そのため【C:\Users\ユーザー名】の下にJupyter Notebook用のフォルダを作っておくとよいでしょう。
フォルダ名は何でもいいですが、例えば、「PythonDemo」というフォルダをあらかじめ作っておき、気温と湿度のcsvファイルもこのフォルダに移動させておきましょう。
前の手順で作成したJupyter Notebook用のフォルダに移動します。以降はここが作業フォルダになります。
- Jupyter Notebookの右上の「New」から「Python 3」を選んでクリックします
- Jupyter Notebookが新規作成されます
ロボ千代
プログラミングというのは「コンピュータにやってほしいこと」をコンピュータに理解できる言葉を使って記述することです。
人間の世界にも英語や日本語、中国語など様々な言葉があるように、コンピュータの世界にも様々な言葉があります。
データ分析の分野で好まれているのは「Python(パイソン)」という言語です。
文法がシンプルでプログラミングの初心者でも習得しやすく、データを分析するための便利なパッケージが揃っているからです。
アイ
ロボ千代
Pythonの文法の説明は別の機会にして、ここではJupyter Notebookでプログラムをどのように書いて実行するのかを見てみましょう。
プログラミング言語で記述されたテキストのことを「ソースコード」あるいは単に「コード」といいます。
まず、次の「コード」をコピーして、Jupyter Notebookにペーストしてください。
import pandas as pd from matplotlib import pyplot as plt %matplotlib inline data = pd.read_csv("kion_shitsudo.csv", engine="python") plt.rcParams["font.size"] = 15 data.plot.scatter(x='気温(℃)', y='湿度(%)')
今はこのコードの深い意味まで理解しなくてもOKですが、どのような処理をやっているのかだけ、ざっと説明します。
1. 必要なパッケージの読み込み
Pythonにはデータ分析に便利がパッケージがあらかじめ用意されています。それらを使える状態にしています。
import pandas as pd from matplotlib import pyplot as plt %matplotlib inline
2. csvファイルの読み込み
csvファイルの中身を読み込みます。
data = pd.read_csv("kion_shitsudo.csv", engine="python")
3. 散布図の描画
読み込んだデータを散布図でグラフ化します。
plt.rcParams["font.size"] = 15 data.plot.scatter(x='気温(℃)', y='湿度(%)')
Jupter Notebookの上のメニューにある「Run」ボタンを教えてみてください。
こんな結果が表示されたでしょうか?
散布図がNotebook内に描画されていますね。この結果はNotebookとして保存しておくこともできますし、画像ファイルとして書き出すこともできます。
このNotebookをうまく使って、説明文などを書き足していけば、そのまま分析レポートとしても使えます。
アイ
ロボ千代
コメントを残す