• Top
  • データ可視化チュートリアル

データ可視化チュートリアル

  • 難易度

    初級

  • 学習時間

    30分

  • カテゴリ

    チュートリアル

まず動画でイメージを掴もう!

はじめに

こちらはデータの可視化機能を使いながら基礎的なデータ分析のプロセスを学ぶためのチュートリアルです。
可視化カードの使い方・図の見方を理解し、どのように解釈すればよいのか 「シェアサイクル利用の総台数予測」 のデータを例にして体験してみましょう。

事前準備

Node-AI にログインして、「Level 1: データ可視化チュートリアル」をクリックして、本トレーニングを開始してください。

本トレーニングを通じて学べること

散布図やバイオリンプロットなどの可視化カードを使って、データの傾向を分析する方法が学べます。

散布図

散布図はデータの 2 つのカラム間の分布を可視化したい時に利用するカードです。

例えば、目的変数と、ある説明変数の散布図を可視化することで、説明変数がモデルの精度向上に寄与するかどうか分析できます。
また、外れ値がどのように分布しているのかを確認することも有効です。

分析フローの概要

  • Step1: ダブルクリックで開いて、目的変数と説明変数を設定しましょう
  • Step2: 散布図カードの実行
  • Step3: 図の見方と結果の解釈

Step1: ダブルクリックで開いて、目的変数と説明変数を設定しましょう

説明変数と目的変数を選択して実行。 今回は以下のように説明変数と目的変数を選択しましょう。

  • 目的変数:自転車の総利用台数
  • 説明変数:その他のすべてのカラム

Step2: 散布図カードの実行

以下の設定値で、散布図カードを実行して結果を確認しましょう。

  • 横軸:湿度
  • 縦軸:自転車の総利用台数

Step3: 図の見方と結果の解釈

青色が散布図、黄色の線は回帰線を示しています。
回帰線とは、データの分布に最もよく当てはまるように引いた線のことです。

湿度が高くなると利用台数は少なくなる傾向があり、回帰線でもその特徴が現れています。
また図左下の湿度が 0 の点にもデータが存在することがわかりますが、不自然な分布をしていることからデータの不備である可能性が考えられます。

scatter

このような場合には閾値データ削除カード等の機能を使ってデータを整形することを検討します

補足:閾値データ削除で不要なデータを削除する場合

閾値データ削除は、設定したカラムと閾値に応じてデータを削除する前処理カードです。

ここでは「湿度」カラムが 0 の点のみを削除したいため、湿度が 0 以上の点しかないことを利用して閾値は「0 以下」と設定します。

バイオリンプロット

バイオリンプロットは、あるカテゴリ変数に対する別の変数の分布を可視化したいときに利用するカードです。
可視化の見た目がバイオリンに似た形になることが多いことから、このような名称が付けられています。

例えば、曜日ごとの目的変数の分布を確認することで、曜日の情報が精度に影響するのか調べることができます。

分析フローの概要

  • Step1: ダブルクリックで開いて、目的変数と説明変数を設定しましょう
  • Step2: 時間情報抽出カードで年と曜日の情報を追加
  • Step3: 図の見方と結果の解釈(パート1)
  • Step4: 図の見方と結果の解釈(パート2)

Step1: ダブルクリックで開いて、目的変数と説明変数を設定しましょう

散布図の例と同じく、
目的変数を 「自転車の総利用台数」、説明変数をその他のすべてのカラムとして実行してください。

Step2: 時間情報抽出カードで年と曜日の情報を追加

時間情報抽出は、時刻から曜日や月の情報を特徴量として抽出する前処理カードです。
ここでは「年」「曜日」の情報を抽出します。年情報は「日付_year」、曜日情報は「日付_day_of_week」としてカラムが追加され、月曜日を 0、火曜日を 1、日曜日を 6 としてカテゴリ化します。

Step3: 図の見方と結果の解釈(パート1)

day_of_week(曜日)が 5 と 6(土日)のときに利用台数がやや少ない傾向があることがわかります。
このデータでは平日の通勤利用の固定ユーザーが多いことが影響している可能性があります。
そのため、曜日の情報は特徴量に使用することで精度向上が見込まれます。

さらに追加で年の情報も追加して比較する場合は ⇨ に進んでください。

violinplot

補足

day_of_week=0(月曜)の黄色の矢印(別途加工して追加した線)は、ある点におけるデータ量を示しています。よって幅が広いほど、その点におけるデータが多いことになります。
最大値を示す各バイオリン図の先端部分が平日のほうが長くなっていることや、休日のバイオリン図は 100 以下の利用台数の割合が高いことから、土日の利用台数が少ないと判断できます。

Step4: 図の見方と結果の解釈(パート2)

さらに追加で year(年)でも比較してみると、2011 年より 2012 年のほうが全体的に利用台数が多いことがわかります。
時系列データは長期的な傾向(トレンド)が変化することも考慮する必要があります。この例ではサービスの成長を示唆している可能性もありますが、コロナ禍等の社会的な情勢にも影響を受けうることにも注意すべきでしょう。

violinplot

補足

データポイント表示形式を「quantile」に設定すると、バイオリンプロット内に点線が表示されます。これは四分位数 と呼ばれるもので、データ数を 4 分割した場合に、その位置がどこにあたるかを示しています。
すべての四分位数で 2011 年よりも 2012 年のほうが利用台数が大きな値であることや、2012 年のほうがバイオリン図が長く伸びているという全体的な傾向からも 2012 年の利用台数が多いと判断できます。

おわりに

散布図・バイオリンプロットという可視化機能を通じて、データの様相を断片的に観察できることがわかりました。
より深くデータを理解し、実際にモデルの精度向上に役立てるためには他の可視化カードと組み合わせて分析したり、考察結果を前処理やモデルのチューニングにフィードバックすることが必要となります。

ぜひ他のチュートリアルもお試しください!

関連教材

クイックスタート!需要予測AIを開発
  • 2024年4月
  • 難易度:入門

  • 30分
  • クイックスタート

クイックスタート!需要予測AIを開発

まず動画でイメージを掴もう! はじめに 初めて Node-AI を利用する方は、まずはこちらから体験ください。

詳細はこちら