タイトルはつり。正しくは「さっさと死ね」。
かなり愚痴っぽいが、最近しょうもない商談に付き合わされてストレスフル。お客さんがベンダーに見せられた夢を苦笑いしながら聞いていることも多くなって。
理由1:Garbage In, Garbege Out.・・・・・・偽の相関(ちょっと統計用語とは違います)。
幾らアルゴリズムで探索やっても、手段と目的が混ざって結果どうしようもない解析が得られるだけ。
例えば、適当に、「朝飯食ったかどうか」という情報と「テストの点数」という情報が「個人特定情報」で結び付けられる、ビッグデータを想定しよう(ビッグというには小さいかも知れないけど)。
上手いこと、この中で相関は得られるかもしれない。けど、それは「標本空間の中の相関関係」でしかない。われわれのライフログが全て詰まったビッグデータなんかありえないから、この得られた結果を現実空間に適応できるかどうかは、もうバックグラウンドの理論に頼るしかないの。
実際、ビッグデータとして情報を引っかき集めると、「結び付けられる情報」というのは「ゴミも含めた情報」なんかに比べると「びっくりするほど小さくなる」。
ちゃんと計画して作ったデータでも、薬とかでも、市販後調査になると情報の質は格段に落ち、副作用は発生件数以上にはあてにならない(発生確率はもうあてにするべきではなく、だいたいやねーというレベルになる)。発生確率5%未満とか、本当にそうかって言われると、「いやーそりゃ先生が分かって処方してますからね」という感じ。副作用出そうな人は回避するもん。
「テストの点に執着する人種」が「朝飯という占いにすがる」という所があるわけですよ。お母様方とかは特に、「子供がテストの点数が悪くなる要因を減らそうとがんばっておられる」から。これ、「朝飯」だから「この相関は本当かも知れない」と思うわけだけども、「絵馬とか護摩焚き」にしたらどうよ?*1著名な進学校には宗教系列多いので、「ご利益がある」という結果はとても得られやすいと思うよ。
その手の、偽の相関が入り込みやすいのがビッグデータなので。
荒いモデル構築前の探索には使えるかも知れないけどねえ。
いい加減、見る人の色眼鏡が、統計結果に表れるという所は周知されるべき。科学っぽく見えてもいわゆる技術レベルでしかないのよね。
理由2:カーディナリティが低いものしか、結果が使えない
幾らなんでも想定される集団が数十人とかのレベルなら、残念な適用範囲にしかならない。
オーダーメイドな推定とかっつっても、個人に適用する際にアホみたいに長い検査や調査が必要なら、少量からじわじわレスポンスを見つつ適用の方が結果的に早かったりね。
結局そうなると、ビッグデータの情報量そのままじゃなくて、思いっきり情報量を落とした状態で解析した方が計算コストも低くてお得だったりするのよ。幾ら計算機が進歩して生データ解析し易くなりました、っつっても、無駄にコスト支払うってのがもうアレなの。
結果が劇的でないと大して有用ではない、というのもあるしねえ。ビッグデータじゃないと分からない差なんて、それこそ使ったって大して売上に影響しないもんなんだよ。
理由3:個人の単位でデータ結合させる意味あるの?
いや、IDで紐付けやりたい気持ちも分かるし、解析としてそれが正しいのも分かるよ。
けど、要因ごとに紐付けしたってそんな程度の傾向なら大体出せるじゃん。というかそれで出せよ、ということしかビッグデータでもやれそうにはないんだよね。ゴミ多いんで。
「その解析を使って何か出来る側の要因」で解析データ集めて使えばいいだけなんだよね。店舗ごとの対応なら、店舗ごとにデータ集めればいいだけの話で、その顧客層がどうだからこんな商品が売れるだのと解析する前に、自分のところの商品の属性見つつ「この店はどんな傾向のものが売れる」って考えりゃいい。その商品群を分類して、「意外とこの系統の商品が売れるんじゃね?」みたいなところを解析した方が、中央とかでデータ集めて頭ひねるより数倍早いし決定的でもある。
目の前の顧客が潜在的に持っている店舗レベルでは見えない需要とかをビッグデータから洗い出せる?わけがないのよ。所詮、その蓄積を中央に流しているだけなんで。寧ろ、個々の店舗の差分が見えなくなるレベルでしか解析出来ないわ。