グラフ活用術-応用

Power BI グラフ活用術 -散布図×相関・回帰編

概要(目的・背景)

データ分析の現場では、複数の変数間の関係性を明らかにすることが重要です。例えば、広告費と売上高、気温と商品の売れ行きなど、2つの要素がどのように関連しているかを理解することで、ビジネス戦略の最適化や効率的な意思決定が可能となります。このような関係性を定量的に把握する手法の一つが「相関分析」です。相関分析を行うことで、変数間の関連性の強さや方向性を数値で示すことができ、データに基づいた判断をサポートします。本記事では、Microsoftのデータ可視化ツールであるPower BIを用いて、相関分析を効果的に実施する方法を詳しく解説します。具体的には、散布図の作成、回帰直線や相関係数の追加手順、そして相関分析を活用するメリットや具体的な利用シーンについて紹介します。

読み手(誰に向けた記事か?)

本記事は、Power BIを活用してデータ分析を行いたいと考えているビジネスパーソンやデータアナリスト、特に初心者から中級者の方々を対象としています。「データは手元にあるけれど、どのように分析してビジネスに活かせば良いのか分からない」「Excelでの分析には限界を感じており、より高度なツールを使ってみたい」といった悩みをお持ちの方に、Power BIを用いた相関係数・回帰直線の手法を分かりやすく解説します。

ブログの目標設定(具体的な目標)

本記事の目標は、以下の通りです。

Power BIでの相関分析手法の習得:読者がPower BIを用いて散布図を作成し、回帰直線や相関係数を追加する具体的な手順を理解し、実際に自分のデータで相関分析を行えるようになること。
相関分析・回帰直線のメリットと活用シーンの理解:相関分析・回帰直線を活用することで得られるメリットや、ビジネスにおける具体的な活用シーンを把握し、日々の業務に応用できるようになること。
これらの目標を達成することで、読者はPower BIを活用したスキルを身につけ、データに基づく効果的な意思決定を行えるようになるでしょう。

方法(アプローチ・使用技術)

散布図と相関係数

散布図は、2つの変数間の関係性を視覚的に表現するためのグラフであり、データの分布やパターンを直感的に理解するのに適しています。散布図上でデータ点が右上がりに分布している場合は正の相関があり、右下がりであれば負の相関があることが示されます。
相関係数が強い場合、データ点は直線に近い形で分布する一方で、明確な傾向が見られない場合は、相関が弱いか、ほとんど関係がないことを意味します。

相関分析は、2つの変数間の関係性を把握するために広く利用される手法です。マーケティングでは、広告費と売上の関係を分析することで、広告投資の効果を評価するのに役立ちます。
一方で、相関分析にはいくつかの限界があります。相関が高いからといって、一方が他方を引き起こすとは限らないため、因果関係の誤認には注意が必要です。また、散布図は直線的な関係を視覚化するのに適しているが、曲線的な関係は見逃しやすいという課題があるため、慎重な解釈が求められます。

相関係数の強さの目安は以下の通り。相関係数の強弱に明確な基準は無く、おおよそ以下のレンジで強弱を表されている。

相関係数は「2つの変数の関係性の強さや方向性」を示すだけであるため、ビジネスの場においては、数式へモデル化する必要があります。
回帰係数を用いた回帰直線は「1つの変数がもう1つの変数にどの程度影響を与えるか」を表します。関係性を予測することができる回帰直線まで落としこみ、ビジネスの判断により役立てることができます。

相関係数と回帰直線をまとめると以下の通りです。

前置きが長くなりましたが、Power BIで散布図を作成します。

パレート図 作成手順

本記事で作成する散布図は、メール送信数・メール受信数を用いて作成します。
X軸とY軸は以下の構成で作成します。
 X軸:メール送信数(回/月)
 Y軸:メール受信数(回/月)
 データポイント:従業員(User Principal Name)
---

データの取り込みを完了したPower BIファイルは下記の添付ファイルです。
サンプルデータを取り込んだテーブル・ビジュアルを完了していますので、添付ファイルを操作して散布図の動作イメージをご確認ください。

1.相関係数のメジャーを作成する。

①.「ホーム」タブより「クイックメジャー」を選択する。

②.相関係数を選択する。

③.以下の設定をする。
 カテゴリ:従業員(User Principal Name)
 メジャーX:メール送信数(Send Countの平均)
 メジャーY:メール受信数(Read Countの平均)※既読数

④.相関係数のメジャーが生成されたことを確認する。

2.回帰直線用のテーブルとDAXを設定する。

①.回帰直線用のテーブルを作成する。「テーブルツール」タブから「新しいテーブル」ボタンを押下する。

②.コードを入力する。
LINESTX(テーブル名,Y軸の列名,X軸の列名)

EmailActivityUserDetail_Analysis = LINESTX('EmailActivityUserDetail','EmailActivityUserDetail'[Read Count],'EmailActivityUserDetail'[Send Count])

③.回帰直線を成すための列が生成されます。

列の説明です。統計学に関する知識であるため、参考までに掲載します。

④.回帰直線用のDAXを設定する。
「メジャーツール」より「新しいメジャー」を選択する。

⑤.コードを入力する。

RegressionLine = 
var regression = LINESTX('EmailActivityUserDetail','EmailActivityUserDetail'[Read Count],'EmailActivityUserDetail'[Send Count]) 
var slope = SELECTCOLUMNS(regression,[Slope1]) 
var intercept = SELECTCOLUMNS(regression,[intercept]) 
RETURN
"y = " & VALUE(ROUND(slope,2)) & "x + " & VALUE(ROUND(intercept,1))

3.ビジュアルを設定する。

①.ビジュアルから「散布図」を選択する。

②.値を設定する。
 値:従業員(User Principal Name)
 X軸:メール送信数(Send Countの平均)
 Y軸:メール受信数(Read Countの平均)

③.ビジュアルの設定から、「傾向線」をONにする。
※散布図内の黒色破線を設定します。

④.次に相関係数の「カード」を設定する。
ビジュアルからカードを選択する。

⑤.カードにクイックメジャーで作成した、相関係数のメジャーを設定する。
設定するメジャー名:User Principal Name に対する Send Count と Read Count の相関関係

⑥.回帰分析用の「カード」を設定する。
回帰分析(回帰直線の関数)も同様に、カードを配置して回帰分析用のメジャーを設定する。
設定するメジャー名:RegressionLine

以上で、散布図と相関係数、回帰直線のグラフの作成が完了しました。

参考)以下の手順は参考までに

回帰直線からX軸のメール送信数より、メール受信数を推定するための赤枠も併せて説明します。

5.回帰直線に対して、自由にX軸(メール送信数)のパラメーターを入力することで、Y軸のメール受信数の回数を推定する機能を実装する。

①.X軸(メール送信数)のパラメーターとして、「モデリング」タブの「新しいパラメーター」ボタンを押下。「数値範囲」を選択する。

②.名前、最大値、既定を入力する。入力後、「作成」ボタンを押下する。

自動生成されるスライサーはサイズ感を調整して、ヘッダー箇所に配置する。

③.「メジャーツール」より「新しいメジャー」ボタンを押下する。

④.コードを設定する。
ポイントは、①・②にて作成したパラメーターを組み込んでいる点です。
※回帰直線のX軸の変数をパラメーター化しています:「slope*'XAxis_SendCount'[X-Axis_SendCount の値]+intercept」

Y-Axis_ReadCount = 
var regression = LINESTX('EmailActivityUserDetail','EmailActivityUserDetail'[Read Count],'EmailActivityUserDetail'[Send Count]) 
var slope = SELECTCOLUMNS(regression,[slope1]) 
var intercept = SELECTCOLUMNS(regression,[intercept]) 
RETURN
slope*'XAxis_SendCount'[X-Axis_SendCount の値]+intercept

⑤.ビジュアルから「カード」を選択する。※"Read Count 回帰-推定値"を設定するカード

⑥.④で作成したメジャーを設定する。

スライサーに値を入力すると、回帰直線の式に値が代入されて、結果を表示します。
また、別途分析視点(組織の絞り込み)を追加することで、組織別の回帰直線を生成して、推定値を生成することができます。

今回はメール送信数と受信数でサンプルのデータを用意しました。
自社のデータに合わせて相関が考えられる数値を取得して、推定までチャレンジしてみてください。

まとめ(結論と今後の展望)

本記事では、Power BIを活用した相関分析の方法を解説し、データ間の関係性を視覚的・定量的に把握する手順を紹介しました。これにより、読者は相関分析の基本を理解し、業務で活用できるスキルを身につけることができたと思います。ビジネスを行う上では、相関係数だけで関係性を見出すだけではなく、回帰まで行い、推定までおこなえることが非常に重要となります。ぜひとも皆様のより実践的なデータを用いて実際の業務で活用いただけますと幸いです。

-グラフ活用術-応用
-