はじめに
統計学において、「分布の中心」を表す指標(平均や中央値)に注目することは基本ですが、それだけでは不十分です。実際のデータ分析では、データがどれだけ広がっているのか、つまり「ばらつき」の大きさを把握することが不可欠です。例えば、平均点が同じ2つのクラスのテスト結果でも、個々の得点のばらつきが大きければ、指導方法や評価の方法はまったく異なってくるでしょう。
本記事では、「ばらつき」を定量的に評価するための代表的な4つの指標に焦点を当てます。選定したのは、実務的な有用性や応用性を重視して以下の4つです。
- 四分位範囲(Interquartile Range, IQR)
- 標準偏差(Standard Deviation, SD)
- 変動係数(Coefficient of Variation, CV)
- 平均絶対偏差(Mean Absolute Deviation, MAD)
※分散(Variance) は理論的には重要だが、実務ではほぼ標準偏差に置き換え可能で、単位が二乗になることで直感的解釈が難しいため除外しています。
本記事を通して、「ばらつき」の本質を掘り下げ、どのような場面でどの指標を使うべきか、その選択眼を養っていきましょう。
分布のばらつきを表す指標とは?
データの「ばらつき(variability)」は、同じ平均値を持つデータでも構造が大きく異なることを示す指標群です。例えば、ある商品の月間売上がどのくらい安定しているのかを調べるとき、平均売上だけを見ても意味がありません。ばらつきが小さければ安定、ばらつきが大きければ不安定と評価されるのです。ここでは、4つの代表的なばらつきの指標について定義を確認しましょう。
四分位範囲(Interquartile Range: IQR)
四分位範囲はデータを4等分した際の「第3四分位数(Q3)−第1四分位数(Q1)」で計算され、中央50%のばらつきを表します。中央値(Q2)とあわせて使うと、外れ値に強い統計分析が可能です。四分位範囲は、「Power BI グラフ活用術 -箱ひげ図編」にて扱っていますので、是非ご確認ください。
標準偏差(Standard Deviation: SD)
標準偏差は、データと平均の差を2乗して平均し、それに平方根を取った値です。つまり、平均からどの程度ズレているかを示す尺度であり、正規分布との関係も深いため、多くの統計手法・機械学習手法の基礎となっています。
標準偏差の計算例)
番号 | データ値 | 平均値との差 | 差の2乗 |
---|---|---|---|
1 | 65 | -15 | 225 |
2 | 70 | -10 | 100 |
3 | 75 | -5 | 25 |
4 | 80 | 0 | 0 |
5 | 85 | 5 | 25 |
6 | 90 | 10 | 100 |
7 | 95 | 15 | 225 |
8 | 85 | 5 | 25 |
9 | 80 | 0 | 0 |
10 | 75 | -5 | 25 |
合計 | 800 | 750 |
平均値 | 800÷10 = 80 |
分散 | 750÷9 = 83.33 |
標準偏差 | √83.33 = 9.13 |
標準偏差は、データの平均値からのばらつき(散らばり)の大きさを数値化したものです。
そのため、今回のデータの平均は 80点、標準偏差が 約9.13 ということは多くのデータは 80点 ± 9.13点(つまり約71点〜89点) の範囲に収まっている、という意味になります。参考までに、「Power BI グラフ活用術 -時系列予測チャート編」の記事にて、3オメガルール(6オメガルール)を紹介しています。興味がある方は、ぜひともご一読ください。
変動係数(Coefficient of Variation: CV)
変動係数は「標準偏差 ÷ 平均」で算出される相対的ばらつきの尺度です。例えば売上金額や投資リターンのように絶対値のスケールが異なる複数のデータを比較するとき、変動係数を使うことで「平均の大きさに対するばらつき」が明確になります。
平均値 | 800÷10 = 80 |
分散 | 750÷9 = 83.33 |
標準偏差 | √83.33 = 9.13 |
変動係数 | 9.13 ÷ 80 = 0.114 |
平均絶対偏差(Mean Absolute Deviation: MAD)
平均絶対偏差は、データと中心値(平均または中央値)の絶対値の差の平均です。標準偏差に比べて外れ値に強く、ロバスト性が求められる実務(異常検知、モデル評価)に適しています。特に機械学習では、MAE(Mean Absolute Error)としても用いられます。
このように、それぞれの指標は計算方法や得られる情報が異なり、分析目的に応じて使い分けることが重要です。
番号 | データ値 | 平均値との絶対値の差 |
1 | 65 | -15 |
2 | 70 | -10 |
3 | 75 | -5 |
4 | 80 | 0 |
5 | 85 | 5 |
6 | 90 | 10 |
7 | 95 | 15 |
8 | 85 | 5 |
9 | 80 | 0 |
10 | 75 | -5 |
合計 | 800 | 70 |
平均値 | 800÷10 = 80 |
分散 | 750÷9 = 83.33 |
標準偏差 | √83.33 = 9.13 |
変動係数 | 9.13 ÷ 80 = 0.114 |
平均絶対偏差 | 70÷10 = 7 |
※ロバスト性(Robustness)とは、システムやモデルが外的要因や変動に対してどれだけ耐性を持つか、または不確実性や予期しない状況にどれだけ適応できるかを指す概念です。一般的に、ロバスト性が高いシステムやモデルは、環境の変化や異常な状況に強く、誤差やノイズがあっても安定して性能を発揮します。
なぜばらつきを表す指標が重要なのか?
実務において、ばらつきを考慮しない分析は、極めて危険です。平均や中央値だけを見て判断した場合、実態の“分布の形”を見誤る可能性があるからです。ここでは、ばらつきの指標がなぜ重要かを、4つの観点から解説します。
1.意思決定のリスク管理に直結する
例えば、月ごとの売上データがあるとします。平均値が100万円だったとしても、月ごとの数値が50〜150万円で大きく変動していれば、経営上はリスクの高いビジネスです。標準偏差や変動係数を使えば、その変動幅を明確に可視化できます。
2.外れ値に左右されない頑健な判断ができる
金融市場、医療データ、SNS分析などでは極端な外れ値が頻繁に発生します。四分位範囲や平均絶対偏差のように、外れ値に強い指標を使うことで、より安定した評価が可能になります。
学びを深めるためのポイント
ばらつきの指標は理解するだけでなく、「どの場面で、なぜ使うのか」を自分の業務や分析に即して使いこなすことが大切です。学びを深めるためには、次のようなアプローチが有効です。
1.可視化と併用する
箱ひげ図(Boxplot)は四分位範囲、ヒストグラムは標準偏差など、可視化との組み合わせが非常に有効です。数値だけでなく、分布の全体像を視覚的に理解できます。
2.ばらつきの指標が中心の種類にて、使えるケースを整理する
ばらつきの公式を理解するだけではなく、他の知識とのつながりを意識しながら学ぶことで理解が深まります。分布の中心を表す指標にてとりあげた「平均値・中央値・最頻値」とばらつきを表す指標のいずれが利用できるか整理します。
指標 | 説明 | 平均値 | 中央値 | 最頻値 |
---|---|---|---|---|
四分位範囲 | 中央値を使う代表的な尺度 | × | 〇 | × |
標準偏差 | 平均値を使って偏差を二乗して平均するため、平均値ありきの指標 | 〇 | × | × |
変動係数 | 標準偏差 ÷ 平均値 × 100 なので、平均値ありきの指標 | 〇 | × | × |
平均絶対偏差 | 計算方法によって「平均値」からの偏差と「中央値」からの偏差の2通りがある。 | 〇 | 〇 | × |
まとめ
「ばらつき」は、データ分析において非常に重要な観点です。平均や中央値といった代表値だけでは見落としがちな「不安定さ」「例外的パターン」「比較の正当性」などを補完してくれるのが、今回紹介したばらつきの指標です。
本記事では、実務への応用性が高い以下の4つに絞って紹介しました。
- 四分位範囲(IQR):外れ値に強く、中央値との相性が良い
- 標準偏差(SD):分布の基本を押さえる中心的な指標
- 変動係数(CV):異なるスケールの比較に最適な相対指標
- 平均絶対偏差(MAD):ロバスト性が高く、モデル評価にも強い
これらを理解し、適切に使い分けることは、データに基づいた合理的な意思決定を行ううえで非常に重要です。今後の分析や報告書作成、モデル評価の場面で、ぜひ意識して活用してみてください。