ランダムサンプリング、ランダム割付の意味。


コホート研究とかあるんだよなあ。疫学は基本的にランダムサンプリングとはちょっと違う。


そもそもランダムである意味を書く。

ランダムサンプリング


これ、ランダムサンプリングになっていないと判断する理由が記述されていない。

実施内容
対象者
平成27年8月12日時点で名古屋市に住民票のある、中学3年生から大学3年生相当の年齢の女性

(平成6年4月2日から平成13年4月1日生まれの女性)

調査方法
平成27年9月上旬に対象者に調査票を郵送し、記入後に返送していただきました。

名古屋市:子宮頸がん予防接種調査の結果を報告します(暮らしの情報)

条件はあるが、対象者全員への送付なので「全数調査」に近いものになっており、そもそもランダムサンプリングをあえてする意味に疑問符がつく。
あえていえば、名古屋市限定である事、強制回答ではない事、から、情報に偏りは出る事はあるだろう。また、名古屋市民ならではの何かしらの特徴がある可能性もあり、例えば日本国民に結果を拡大して解釈する事は難しいのかもしれない。
が、名古屋市民にランダムに調査票を郵送して回答してもらう「ランダムサンプリング」よりは、偏りは少なくなる。


ランダムサンプリングは、サンプルサイズが大きすぎて全数調査出来ない場合に、少数調査で全数調査の代わりとする為に、偏りをできるだけ避ける為の手法である。

ランダム割付

通常の臨床試験で行われるが、一定条件の被験者を揃えたのち、どの投与がなされるかをランダムに割り付ける。
一番の理由は、二重盲検の為、特に医師側に投与群を悟らせない為である。

ランダマイズは、偏りなしを担保しない。

乱数の偏りの問題ではなく、単純に、不偏性を担保していない。
なので、背景因子を別に集計しておいて、変な偏りがないかをチェックする。人口統計学的調査とかは帳票として必ず作るが、大きなズレがないかを見る。
理想は、偏りない事を明確にチェックとかになるのだが、背景因子をたくさん取ってれば偏りありの項目は出るし、また、それが臨床的に意味のあるほどの偏りがあるかは別途チェックしないといけない。
また、有効性を見る上で、ある程度大事な要因は考慮して結果を見る。


ある程度偏りなしを担保してのランダマイズ手法とかもある。層別ランダマイズとか。
それにしても、全数調査に比べるとどうしたって偏りはある。

結果にケチをつけるのに、「ランダムサンプリングでない」というのは、完全に間違った主張である。

それするくらいなら、「名古屋人が日本の一般市民とは偏り方が違う」とかそういう事をいうべきである。
名古屋の人口ピラミッドと日本人全員の人口ピラミッドとを比較するとか。
名古屋人の食習慣が、一般日本人のそれと違うとか。


まあ、他にも、希望回答形式のアンケートなんで限界があるとか。


なお、疫学調査ではこんな感じでデータ集めするのが基本、頑張って年単位でトレースしようとすると途端にハードルがあがる。無理ではないが、こんな大きなサンプルサイズを得られない。
結構、複雑な数学モデルの理解よりも、ベタな現象の理解をしながら検討した方が時間の節約になる。


おおよそ三千人くらいのデータというのが慣習的にあるのだが、まあ、それくらい集めた時に稀な事象もある程度は拾えるし、ソレ以上に発生が稀な事象は統計的に証明するべき何かではない。
条件をもっと絞り込んだ上で、オーファンドラッグ研究するような、息の長い研究をする必要がある。