ブコメの意図を掴み損ねてると思う。


「母集団」の意味間違えてる奴多すぎ問題

「母集団」ってのは調査したい集団全体のことだよ!世論調査であれば普通は日本の全有権者だよ!

「母集団」の意味間違えてる奴多すぎ問題

ちょっと違うんだよなあ。


普通は推定統計では、母集団は無限大の持ち、母数(パラメータ)は真の値が一つある、という想定だ。
なので、サンプリングしてくる対象の集団と、その結果を適用するような母集団は完全に同一として考えて、何故標本から出てくる結果の値が一致しないかは、サンプリング時のバイアスが原因とする。
ところが、世論調査等では、同様のサンプリングをしていておおよそ正しいやり方で行われているにも関わらず、不思議と支持率等が乖離する(うんまあいや右傾向の調査と左方向の調査でなんかうまいこと偏ってるのがおかしいんじゃないのと言われるとまあそうでバイアスで説明した方がよさげだが、何故そうなっているかは邪推が交じるので止めとく)。
つまり、変なバイアスがない事は前提として、サンプリングしてくる対象の集団と、その結果を適用するような母集団は、それぞれの調査をあわせて見る場合には異なるのだ。


ブコメの話は、そういう所だと思うが。


なお、こういう調査の場合、このサンプリングの元となっている集団というのをいちおう調査対象集団(universe)という言い方がある。他、枠母集団ってのもあるようだけど。ほとんどの場合同一と考えて差し支えないのだが、区別するとすれば、実際の調査データの元となっている集団を調査対象集団といい、統計概念として存在し重み付け等の方法を行って導き出されるパラメータ(母数)を持つ集団の事が母集団である。
で、こんな話って、あんまり統計やってる人でも知らないのだが、ま、区別した方が捗る事もあります。


参考まで。
Universe (economics) - Wikipedia 英語版の方には使い分けの例示がある。
あと、
hiroshisugata.blogspot.jp
再掲。
母集団 | 日経リサーチ
不思議と日本語の説明だとuniverseの意味間違えられていて入れ替わってる事が多い。何でなのかは不明だが。まあ、英語版の記述と林先生(数量化理論とか出してた統計の偉い人)の言ってたことベースでいいだろう。
母集団が無数に想定出来る、というのはちょっと悩むかもしれないが、例えば調査のデータをそのまま用いる訳ではなく重み付けで調整をかけるという事などを考えてみるとよいかと思う。


多分調査をちゃんと学んでいる人は知っていると思う。わたしゃたまたまその手の定義問題を考える事が多かっただけ。
更に言うと、あんまりちゃんとuniverseとpopulationは区別されない。で、それに多分引きずられて母集団という人もいるかと思う。けどまあ元の英語のpopulationがふわっとした単語なのに比べて、母集団って意味限定的だから英語の混同する感覚と日本語の場合はちょっと違うよなとは思う。


なので、申し訳ないが増田の指摘と修正はちょっとずれてる。


達成母集団とかは、多分標的母集団や目的母集団とかの、target populationの訳語だと思うんだけど、それは求める真に近い母集団の方の名前なので、ブコメの調査対象集団の別の話になるかと思う。


余談だけど、どっちか正確なのか、調査している人たちでバトルすると多分結論つかないです。が、複数回調査しようが何か偏ってるので、もう少し追及されてもいいんだと思うのよね。サンプリングフレームというのは、世論調査ってRDDなのでハッキリせんのよね。どこの調査でも同じような枠を使っているはずなんだよなあ。ただ、電話番号には偏りがある。そこら辺の調整の仕方も違うのかもしれない。
元の調査データでの年齢分布なんかの違いが見えれば少しはその違いの原因は分かるかもしれない。