ビッグデータ解析で何がしたいのかが分からないなと思いつつ。

[徳力] 統計学が最強の学問である (西内啓)を読んで、あらためて統計や分析を学ぶことの重要性を再認識中です。」を見て。

■標準誤差を算出する
 標準誤差というのがどういったものかというと、サンプルから得られた割合に対して標準誤差の2倍を引いた値から標準誤差の2倍を足した値までの範囲に真の値が含まれている信頼性が95%という値

[徳力] 統計学が最強の学問である (西内啓)を読んで、あらためて統計や分析を学ぶことの重要性を再認識中です。

メモで書かれたので正確さはないと思いますが、
「何の」という部分が標準誤差や推定統計量を考える場合には重要なので、母集団とか丁寧に潰した方が良いかと。

標準誤差、一般的には、平均値の標準誤差と考えますが、これは、サンプルのデータから導き出される、母集団からサンプリングした場合の平均値の標準偏差の推定値になります。

ある変数の値の確率分布関数が正規分布に従う場合、その変数の平均値-2SD〜平均値+2SDの間に95%の確率で変数の値が収まるでしょうということがあります。
同様に、サンプリングした結果のサンプルの平均値も、(これは特に中心極限定理で、元の変数が特に正規分布していなくても正規分布に近い状態になりますが)、その平均値の平均値(を、実際に取られたサンプルの平均値と推定するわけですが)-2SE〜平均値+2SEに、95%の確率でサンプルの平均値が収まるでしょうという感じですねえ。

ゴチャゴチャと書きましたけど、「平均値の推定値の標準偏差」が「(平均値の)標準誤差」と言われる、感じですかね。

ここまで余談。

実はネットの進化やスマホの普及により、いわゆるビッグデータと言われる、利用者の動向が何でも分析できる時代がすぐそこに見えていることが明らかになっており、統計学の重要性は明らかに増していると感じます。

実はビジネスにおいて、統計学のような数値を元に適切な判断を行うことは、インターネット以前から重要だったわけですが、最大の問題はデータが取れない、もしくは取るのに膨大なコストがかかること、でした。
それが最近はデータ取得コストがあきらかに低下し、逆にデータが手元にありすぎて分析できていない時代に入っています。

[徳力] 統計学が最強の学問である (西内啓)を読んで、あらためて統計や分析を学ぶことの重要性を再認識中です。

ビッグデータは、ネットの進化+移動体追跡みたいなので、単なる利用者データというのも含まれるようになりました。
で、メインコンテンツはこれ、のように思われていますが、実際の所、POSレジデータを参照でぶっこ抜いて〜とか、会社内部で大量に保持しているデータを利用する場合も多いです。こちらの方が、ビッグデータを用いた統計解析で出来る範囲もはっきりしていますし効果も出やすいです。

推定統計の大前提は、過去・現在・未来で、やる手段は限定的であり環境が激変しないことが大前提になります。
変な話、ベンチャー企業が新サービスを世に送る場合、そのマーケティングには既存市場のビッグデータ解析によるマーケティング効率化はイマイチ使えないんです。
ビッグデータ解析ということは必要ない大きな括りでのマーケティング戦略をする他ないはずです。
その辺りの限界を理解していないと、足元すくわれます。

大きくは以上ですが、細かい話ではありますが根本的な話として。
ビッグデータ解析と呼ばれている分野で使われている統計学は、基本的には推定統計とか考えなくていいです。そもそもデータが多すぎて推定する必要があんまないです。
単純に足し算掛け算引き算をデータ全舐めでした結果を素早く出せればよし、という所が求められていますね。