非正規分布→中央値は危ない!代表値の適切な使い分け

スポンサーリンク
データサイエンス

みなさんこんにちは!

今日は代表値の使い分けについてお話したいと思います。

その中でも今回は平均値と中央値の使い分けにフォーカス致します。

代表値とは?

要約統計量 - Wikipedia

要約統計量(ようやくとうけいりょう)とは、標本分布の特徴を代表的に(要約して)表す統計学上の値であり、統計量の一種。記述統計量(: descriptive statistics value)、基本統計量代表値(: representative value)ともいう[1][2]

Wikipediaより

Wikipediaさんに聞いたら、本当のところは「要約統計量」というようですね。

平均値と中央値の基本的な使い分け

平均値の使い方

はい、Wikipediaさんにそのまま書いてあります。

正規分布の場合は、平均と、または標準偏差で分布を記述できる。正規分布からのずれを知るためには、尖度歪度などの高次モーメントから求められる統計量を用いる。

Wikipediaより

そう、分布が正規分布の場合は平均値を使うのがふさわしいです。

みなさん、私のように値がどのような分布をとるか確認せずに平均値を使っていませんか?

分布を確認するにはヒストグラムを書いて目視しましょうね(自戒)

続いて、中央値の使い方はどうでしょうか。

中央値の使い方

正規分布から著しく外れた場合には、より頑健な中央値四分位点最大値・最小値最頻値が用いられる。「頑健」とは分布の非対称性や外れ値などの影響を受けにくいことを意味する統計用語である。

Wikipediaより

正規分布から著しく外れた場合とは、「裾が長い分布」が当てはまります。(左右非対称)

そういった正規分布をしていない場合は平均値以外の中央値が代表値としてより適当になってきます。

平均値と中央値を使い間違えるとどうなるのか?

例えば分布の確認をせずに、正規分布ではない者に対して平均値を使うとどうなるでしょう?

身近な例として平均年収のお話があります。

みなさんも違和感を覚えたことはないでしょうか?

「n0代の平均年収ってこんなにあるの!?私の給料って低い!?」

体感と大分違う金額にみなさんも一度は驚かれたことがあるのではないでしょうか。

代表値の使い間違え例:平均年収

実際のところ、平均年収の分布は正規分布ではありません。

https://www.mhlw.go.jp/toukei/saikin/hw/k-tyosa/k-tyosa09/2-2.html
より引用

右裾が長く、正規分布から著しく外れていると言えます。

また、図中にもある通り、中央値と平均値では100万も違っています。

最頻値だとさらに100万近く違います。

このように正規分布ではないものに平均値を使うと色々と間違えが起こってしまいます。

よくインターネットで検索すると「平均年収は〜」と書かれているところが多いですね。今度からは”中央値”で調べましょう。

ところで、正規分布していないものに平均値が使えないのはどうしてでしょうか?

何故中央値の方が感覚に合った値を取るのでしょうか?

平均値は外れ値(異常値)の影響を受けやすい

中央値よりも平均値が高くずれてしまう理由は、平均値が「外れ値」の影響を受けやすいからです。

今回の年収の話でいうとかなりの高年収層が外れ値・異常値に該当すると言えます。(外れ値になりたい

高収入層は少ししかいないにも関わらず、年収の数値としては大きい故に平均の値を引っ張ってしまうのです。

疑問:「常に中央値を使っていればいいのか?」

私はこう疑問に思っていました。

・『正規分布しているのならば、中央値と平均値はかなり近い値を取る』

・『正規分布していないなら中央値がふさわしい。』

常に中央値を使っておけば良いんじゃないの?!

….

はい….そうは問屋が卸しませんでした!w

正規分布しない場合でも平均値を使うべき場合

ここまでお話ししてきたように、何かの値を要約するだけならば(もしかすると常に)中央値でも良いのかもしれません。

しかし、検定などを行う場合はこの限りではありません。

例えば、年収を日本人の中央値に近づけることができる薬があったとしましょう。(!)

簡単にいうと、中央値の人の年収は変わらず、その他の人を中央値の人の年収は徐々に中央値に近づく、という効果です。

その薬の効果を確認するため、全日本人をグループを2つに分け、一方に投与したとします。

年収は正規分布しないので中央値でそれぞれのグループの値を中央値で要約し、投薬後の効果を比較します。

この場合、この薬に本当に効果があったとしたらどうでしょうか?

中央値では分布の変化がわからない

当然ながら、中央値はどちらも変わりません(投与した方はその群の中央値は変化しないし、投与していないほうは何も変化が起きないため)。

ですが、投与した方は平均値が変化しているはずです。

(図を用意しておらず恐縮ですが、)薬の効果が出た場合、一方のグループは全体が中央値に近づき中央値から遠い人が減る。結果、分布の山が以前より鋭くなり裾が短くなることが想像できるでしょうか?

つまり、正規分布してないからといって中央値を使って効果のほどを確認すると、本当は効果があるのに効果がなかったように見えてしまいます。

このように、分布の形に惑わされずに平均値を取って比較するべきケースが存在します。

まとめ:分布の変化を確認する場合は平均値が代表値としてふさわしい

近頃ずっと平均値と中央値の使い分けにパッとしない日々が続いていました。

そんな時にこちらのサイトに出会うことができました。

我楽多頓陳館さん(http://www.snap-tck.com/room04/c01/stat/stat02/stat0202.html)の統計学入門のページにふさわしい例が載っています。(「(5) 要約値と評価指標」参考)

評価指標に適した要約値や代表値を決める時に最も重要なのは科学的な判断であり、データの分布状態に関する数学的な判断は二の次であるべきです。

我楽多頓陳館さん(http://www.snap-tck.com/room04/c01/stat/stat02/stat0202.html)より

分布に変化が伴うことがわかっている場合は平均値を使うべき、ということでしょう。

逆に、分布の変化は関係のない比較の場合は、分布にあわせて代表値を選ぶのが正しいと私は考えています。

みなさんも分布の形に惑わされずに、適切な代表値を使っていきましょう!

また、分布を正しく意識することで、以下のようなこともできるようになります。

それでは!

コメント