math.nakaken88.com
これ見つつ。
一応念の為
代表値だけで分布を把握しようとする事がそもそも危うい。
- 平均値の場合には、標準偏差
- 中央値の場合には、四分位点
最頻値は、実はあんまり使わない。そもそも水準ごとの集計を必要とするから、平均値なんかとは少し取り扱いの概念が異なる。
ちなみに、
平均値 vs 中央値
で示されているようなものの場合、「対数正規分布」と言われているのだから、「対数変換して平均・標準偏差を求め、戻す」のが正しい。
数学的に取り扱いがやりやすいのが平均値
まあ、正規分布を仮定する、と都合がいいものについて使うとか言われるが、
「大数の法則」「中央極限定理」などで、比較的大きな数を扱う場合には正規分布として取り扱う事がだいたい可能である。
中央値は頑健だが、情報量はかなり落ちる。
中央値は、上から数えてちょうど真ん中の順位になるデータの「値」(偶数個(2N)のデータの場合には、順位Nのデータと順位N+1のデータの平均の値)であり、その事しか情報はない。
つまり、大きく外れる値についてはなんにも影響されないのだが、逆に言えばそういう端っこのデータに関しての情報はない。
端のデータが怪しい場合には(これが結構ある)使えるし、平均値の場合には、元々考えられるモデル次第では先に書いたような変換を伴った処理をかましたりするのだが、中央値ではそれが大体は必要がない(変換してもその値の大小関係は変わらない為)。
もう一つ言っておくと、この中央値を想定する場合でも、「順位というものを数値として考えた際にはやっぱり正規分布する」事がだいたい望ましい。
実の所。
中央値は中央値であるし、平均値は平均値である。それ以上でもそれ以下でもない。
超絶簡単に言うと。
元の値の分布が何だったかが分かるデータであればいい。そうでなければあんまり意味はない。ただそんだけだという話。