統計を見る時の諸注意

メモメモ。

  • 統計は原則として差を見るもの
  • 対照が隠れていることがある
  • 統計のデータだけを見て推定することは無理
  • データにはあらわされない測定値の性質などが隠れていることがある。
  • 予測の限界の範囲はある。少なくとも最小値〜最大値。
  • 中央極限定理にも限界がある。
  • 多変量解析の限界がある。
  • 想定出来ない要因・独立でない要因を、データの意味を無視して選択すると酷いことに。
  • 確率的論理と古典的論理の違いの意識が必要。
  • 統計は、相関までしか語れない。故に適応範囲が限定的。
  • 疫学的調査の罠
  • サンプリングをどうするか。実験計画法で述べられたことを理解する必要がある。
  • 誤差論。偶然誤差と系統誤差。
  • 実は殆どの統計的に処理した研究が、理想からは程遠い状態であることを理解するべき。
  • 時間が経過する研究には、時間も強い要因となる。
  • 効果的な治療が見つかった癌の、死亡数は激減する。効果的な検査方法が見つかった癌の、罹患率は増加する。最初のミクロン単位の癌は見つけられない。
  • 測定値の曖昧さ。正常と異常の間は、実際には相当に広い。


地域差を放射線量の差としてみる人も増えるだろうが、食文化の差としてみることも重要で、塩分濃度の差としてみることも重要。時間を絡めると、病気は増える傾向にだいたいある。感染症なら対策が出れば減るが、逆に感染症と思われていないケースが感染症だったと判別するケースもある。癌などは大抵そう。
人間は酷い病気になったら亡くなるが、その死因は多くが癌、脳血管、心血管となる。が、どれも併発可能なので、死亡数を選ぶか罹患数を選ぶかで結果が変えられる。


癌にも実に様々なものがあり、自分が望む結果に合致しそうな癌を選べば大抵上手くいく。補正が必要といわれる多重比較の話を、前研究で当たりつければ研究上多重比較をしていないように見せられるという話。


統計は、サンプルサイズを増やせば問題なくなっていくが、実際に集めたサンプルのサイズがそのまま研究のサンプルサイズとはならない。疫学的に行えば条件が不ぞろいなサンプルとなってしまうため、実際にはサンプルサイズはかなり小さくなると考えるべき。


とかなんとか。


福島原発の影響は、おそらく幾らデータを丁寧に集めるとしても、明確な影響は出ないと予想している。
癌の発現率の個体差、その偶然誤差が含まれる範囲でノイズのような放射線バックグラウンドの差の影響を見ようとしても、相当苦労しても無理、ということ。