使える統計学

分布の"中心"を表す指標

分布の"中心"を表す指標とは?

統計学において、「分布の中心」を表す指標は、データの代表的な位置や傾向を理解するうえで非常に重要な概念です。この中心を表す主な指標には、中央値、最頻値、平均値の3つがあります。

まず、平均値とは、すべてのデータの合計をデータの個数で割った値です。例えば、5人の学生のテストの点数が「60点、70点、80点、90点、100点」であった場合、平均点は(60+70+80+90+100)÷5=80点となります。平均値は日常生活でも広く使われており、「平均年収」や「平均寿命」などで耳にする機会も多いでしょう。

次に、中央値とは、データを小さい順または大きい順に並べたとき、中央に位置する値のことを指します。上記の例(60+70+80+90+100)でいえば、データはすでに昇順になっており、真ん中の3番目の値が80点なので、中央値も80点になります。データ数が偶数の場合は、中央の2つの値の平均をとります。

最後に、最頻値とは、データの中で最も頻繁に出現する値です。たとえば「60点、70点、70点、80点、90点」というデータでは、70点が2回出てきており、これが最頻値です。最頻値はモード(mode)とも呼ばれ、購買傾向や人気投票など、頻度に注目した分析で特に役立ちます。

これら3つの指標は、データの「中心」をそれぞれ異なる観点から示すものであり、データの特徴をより深く理解するための手がかりとなります。特に、極端な値(外れ値)が含まれる場合、平均値と中央値で大きく結果が異なることもあります。たとえば、ある企業の社員10人の年収が「300万円~500万円」だったとして、社長だけが「1億円」の年収を得ていた場合、平均年収は大きく引き上げられてしまいます。しかし、中央値は真ん中の社員の年収がそのまま反映されるため、より実態に近い中心を示してくれます。

このように、平均値・中央値・最頻値はそれぞれが異なる場面で有用であり、どの指標を使うかは分析の目的によって選択する必要があります。

なぜ分布の中心を表す指標が重要なのか

データを読み解く際に、すべてのデータを一つひとつ確認するのは非効率で、現実的ではありません。そこで登場するのが、データの代表値としての「分布の中心を表す指標」です。これは、大量のデータを要約し、その全体像を一目で理解するための要(かなめ)となる情報です。

ではなぜ、平均値・中央値・最頻値の3つの指標が特に重要なのでしょうか?理由は大きく分けて以下の3点です。

1.データの傾向を把握できる
平均値や中央値を使うことで、データ全体がどのあたりに集中しているかが分かります。たとえば、小学校の学力調査で全国の平均点を出すことで、教育政策の改善ポイントを見つけることができます。

2.異常値(外れ値)への対応が可能になる
平均値だけを見ていると、極端に高いまたは低いデータに引っ張られて、実態からかけ離れた結果になることがあります。その場合は、中央値を使うことで、外れ値の影響を抑えてデータの中心を判断できます。たとえば、資産格差が大きい地域の経済調査では、中央値の方が「真の生活水準」に近い指標となります。

3.分析の目的に応じて指標を使い分けられる
「最も多く選ばれているもの」を知りたいときは最頻値、「バランスのとれた値」を求めるなら平均値、「中間層の傾向」を掴みたいなら中央値、といったように、目的に応じて指標を使い分けることができます。この柔軟性が、データ分析において極めて重要なポイントです。また、企業の経営判断やマーケティング施策の効果測定においても、これらの指標は欠かせません。たとえば、新商品AとBの売上比較をするときに、どちらが「多くのユーザーに支持されているか(最頻値)」や、「典型的な購入単価はいくらか(中央値)」を見極めることができます。

統計的思考を用いるうえで、データの中心がどこにあるかを正確に掴むことは、誤解やバイアスを防ぎ、的確な意思決定につながります。だからこそ、「分布の中心を表す指標」はすべての統計分析の出発点であり、基礎中の基礎であるといえるのです。

学びを深めるためのポイント

分布の中心に関する学びをさらに深めるには、単なる定義の理解にとどまらず、実際のデータを使って手を動かしながら学ぶことがとても効果的です。以下のポイントを意識すると、理解が一層進みます。

1.グラフと一緒に理解する
本ブログではPower BIを用いた実践記事が多数あり、実際に手を動かしてヒストグラムや箱ひげ図(ボックスプロット)を作成することができます。
https://28samon.com/category/top/understanding/graph_middle
視覚的にデータの分布と中心値を捉える練習をすると、数値だけでは見えにくかった特徴が明らかになります。グラフ上に平均・中央値・最頻値を重ねて描写すると、その差異や傾向が直感的に理解できます。

2. 変数の種類によって使えるケースを整理する
質的変数、量的変数によって、平均値・中央値・最頻値の使えるシーンが異なります。変数の種類を意識することで、分析方法の理解が深まります。

尺度平均値(Mean)中央値(Median)最頻値(Mode)備考
名義尺度×使用不可×使用不可〇使用可値の大小や順序がないため、モードのみ有効(例:最も多い血液型)
順序尺度△ 慎重に取り扱う必要あり  〇使用可〇使用可平均値は順位に数値を割り当てた場合に限り使用可能だが慎重に扱う
間隔尺度〇使用可〇使用可〇使用可加減が可能なため、平均・中央値・モードすべて有効(例:気温)
比例尺度〇使用可〇使用可〇使用可加減・乗除・比も可能なため、すべての指標が問題なく使用可能(例:売上)

※質的変数、量的変数の詳細は「分布の型(とびとび型となめらか型)」にて説明しています。

3. 他の指標との違いや関係性を比較する

分布の中心を表す指標に加えて、「分散」や「標準偏差」などの分布の広がりを示す指標と合わせて学ぶことで、データの全体像を立体的に捉えられるようになります。これは統計的リテラシーを高め、意思決定の質を向上させる助けになります。

統計の学びは一見とっつきにくく感じるかもしれませんが、身の回りの現象と結びつけて考えることで、理解は飛躍的に深まります。分布の中心という基本をしっかり押さえることが、今後の統計的思考力の礎となるのです。

まとめ

本記事では、「分布の中心を表す指標」である平均値・中央値・最頻値について解説しました。それぞれの定義や計算方法、そしてどのような場面で活用すべきかを具体的に学んできました。
以下に要点をまとめます:

  • 平均値:データの合計をデータ数で割った値。全体のバランスを見るときに有効。
  • 中央値:データの中央の値。外れ値に影響されにくく、実態を反映しやすい。
  • 最頻値:最も多く出現する値。消費傾向や人気の分析に適している。

また、これらの指標は単なる数学的な概念ではなく、日常生活やビジネス、行政政策の現場においても欠かせない役割を果たしています。どの指標を使うかは、その時々の分析目的やデータの性質によって選択することが大切です。そして、実践を通して学びを深めることが重要です。手元のデータを使って自分の手で指標を計算してみたり、グラフと組み合わせてみたり、ツールを活用することで、理解はより一層深まるでしょう。

統計学の基本は、データを「正しく見る力」を養うことにあります。その力を活かして、皆さまがより的確な意思決定を行い、複雑な情報社会においても一貫した判断ができるようになる一助となれば幸いです。

分布の中心を表す指標の発展編(興味がある方のみ)

損失関数を使って考えた「中心」

これまで、平均値・中央値・最頻値という3つの「分布の中心」を紹介してきましたが、実はそれぞれが「損失関数」という考え方で導き出せることをご存じでしょうか?
損失関数とは、「予測と実際のズレ(誤差)」を数値化する方法のことです。これは、機械学習や統計モデルの世界では非常によく使われる考え方で、データと予測値の差をどのように評価するかを決める“ルール”のようなものです。
ここでは、難しい数式は使わずに、損失関数と分布の中心の関係をやさしく解説していきます。

そもそも「損失」とは?

「損失」とは、ざっくり言うと「ズレ」のことです。
たとえば、あなたが5人の学生のテスト点数を見て、クラスの代表的な点数(中心)を1つにまとめたいとしましょう。
でも、どの数字を「代表」にするかによって、各生徒の点数との「ズレ」が変わってきますよね?
このズレが小さければ小さいほど、「その中心は良い代表値だった」と言えるわけです。

平均値と損失関数の関係

平均値は、2乗誤差を最小にする点です。
2乗誤差とは、「(実際の値 − 予測値)²」のことです。ズレを2乗することで、マイナスの値が出ないようにし、大きな誤差ほど重く評価します。

例)
点数のデータが「50点、60点、70点、80点、90点」のとき、仮に「70点」を代表として選ぶと、
それぞれの誤差は「-20, -10, 0, +10, +20」となります。これを2乗して合計すると、「400 + 100 + 0 + 100 + 400 = 1000」。

いろんな値を代表値として試すと、「平均値」である70点が、2乗誤差の合計を最も小さくすることがわかります。これが、平均値が「ズレの2乗」を最小にする中心だということです。

中央値と損失関数の関係

中央値は、絶対誤差を最小にする点です。
絶対誤差とは、「(実際の値 − 予測値)」の絶対値、つまりプラスでもマイナスでも、とにかくズレの“距離”をそのまま評価する方法です。
このとき、絶対値の合計が最も小さくなるのは、中央値になります。

2乗誤差に比べて外れ値に強く、ズレを公平に評価したいときに使われる損失関数です。だから、中央値は「どこからも偏りが最小」になる、バランスの取れた中心とも言えます。

最頻値と損失関数の関係(少しイメージ的に)

最頻値は、ズレではなく「一致・不一致」で評価するイメージに近いです。
つまり、「どの値が最も多く一致するか?」ということを考える場合、損失関数的には「一致していないものに1点、しているものに0点」という非常にシンプルな評価になります。

この方法では、最も頻度が高い値が、損失(ズレの数)が最も少ない値=最頻値になります。

損失関数の視点から見る「中心」の違い

指標損失関数特徴
平均値2乗誤差(squared error)外れ値の影響を大きく受ける
中央値絶対誤差(absolute error)外れ値に強い
最頻値一致/不一致(0 or 1誤差)最も選ばれた値

このように、どんな「ズレ(誤差)」を重視するかによって、選ぶべき中心が変わるということが分かります。実際の分析では、「何を最小化したいのか?」を明確にすることで、より適切な代表値を選ぶことができます。
損失関数というと難しく聞こえますが、実は日常の中でも無意識に使っている考え方です。

イメージですが、

「みんなが言ってるからそれに合わせる(最頻値)」

「バランスをとって中間をとる(中央値)」

「全体の平均をとる(平均値)」

といった行動は、私たちが無意識に“誤差を最小にしよう”としている証拠です。

機械学習や統計モデルの中でどのように使われているか

モデルの「成績表」

損失関数は、機械学習におけるモデルの「成績表」のようなものです。
たとえば、家の広さから価格を予測するモデルを作りたいとき、まずは過去のデータ(家の広さと価格)を使って「このぐらいの広さならこのくらいの価格になるだろう」と予測するルールを作ります。
この予測値と、実際の価格との「差(誤差)」を測るのが損失関数です。差が小さければ「良い予測」、差が大きければ「悪い予測」と評価できます。

機械学習の多くのアルゴリズムでは、「損失関数の値が最小になるように、モデルのパラメータ(ルール)を調整する」ということを繰り返して、少しずつ精度を上げていきます。

たとえば、線形回帰というモデルでは、係数(重み)を調整して「予測−実測値」の2乗誤差をできるだけ小さくするようにします。これにより、「ズレの少ない予測モデル」が完成するのです。

統計モデルでの使い方

統計学の世界でも、損失関数は「推定量を決める基準」として活躍します。
たとえば、「このデータの中心はどこか?」を知りたいとき、

  • 平均値は「2乗誤差が最小になる点」
  • 中央値は「絶対誤差が最小になる点」
  • 最頻値は「誤差がゼロになる数が最大の点」

といったように、どんな損失関数を使うかによって、導かれる中心値が異なるのです。
また、統計モデルでは、最尤推定(さいゆうすいてい)という手法でも、損失関数の一種(対数損失など)を用いて、データに最も合うパラメータを求めます。

よく使われる損失関数の種類

損失関数の名前内容・特徴よく使われる場面(例)
2乗誤差(MSE)誤差を2乗して平均をとる(外れ値に弱い)線形回帰
絶対誤差(MAE)誤差の絶対値を平均(外れ値に強い)場合による
交差エントロピー損失クラス分類に使われる(0か1の分類を学習させる)クラス分類モデル

重回帰分析にてRMSEについて簡単に触れています。RMSEはMSEの平方根(√)です。RMSEとMSEの考え方は同じであり、RMSEは元データと同じ単位であるため、結果を説明するときに使いやすい特徴があります。

予測と結果との「差(誤差)」を測ることでモデルの適合度評価をしています。RMSE(MSE)は差が小さければ「良い予測」、差が大きければ「悪い予測」と評価できます。

まとめ:損失関数=「ズレの基準」であり「学びのゴール」

損失関数は、単なる「ズレの指標」ではありません。それは、機械学習や統計モデルにおいて、

  • モデルをどう評価するか(良い・悪いの基準)
  • どこに向かって学習するか(目標)
  • どんな結果が得られるか(中心や傾向)

を決める、非常に大切なコンパスのような存在です。

もし損失関数が違えば、学習されるモデルも、得られる結果も大きく変わってしまいます。だからこそ、目的に応じた適切な損失関数の選択が、成功のカギになるのです。

最後までお読みいただき、ありがとうございました。

参考文献

-使える統計学
-