データ保有者が提示するデータのあり方
本当は絵を描きたいが面倒臭いのでテキストにする。
1:IDのハッシュ値化
IDの値そのものは不明になるが、IDが同じか違うかが分かるレベル
3:可能性1・2の場合で、全情報を結合させた上でk匿名性の確認
まあ出来るなら自分で統計処理したデータ売るがな、という所なのだけど、一応書いておく。
ぜーんぶ情報を紐付けた上で、「そんな感じの行動履歴でもほとんどの人の情報が重ならない」程度の粒度になっているかきっちり検証している場合には、それもよい。
よいが、出来るなら自分で統計処理したデータ売るがな。その方が安全だし。
4:切符の乗降記録だけ作って、そこにカテゴライズされた性別や年齢情報をつけている状態にする。
k匿名性の検証はした方がよいが、新宿から東京に何時何分にのって何時何分に、三十歳男性が降りた、とかの記録として提示する。
そもそも「個体識別IDを提示する必要なんかない」という開き直りである。
ハッシュ化を考える必要がない。
3か4か。
1は検討の必要もなくダメな案である。例え性別年齢なんかなくたっても行動がトレース出来てしまう。
個人的にはオススメは4で、統計処理を行わなくても大丈夫。深夜の淀川に一人徘徊している人がいるとか分かった所で統計データ内でまったく紐付かないから。
だが、それだと行動履歴分析とは言いづらいし何か素敵な統計資料が出来そうにもないと思ってしまわれるのだろう。
3なら、もうサマリした情報を、データ収集した会社が売る方が早いよな。
統計解析の結果として、本当に滞在時間とかで分析していく必要があるのか
滞在時間で周りの店に客が流れている事を示す、マーケティングに有用であるという話は確約出来ていない。
「店の前を通り過ぎる人」の情報を捨てても「家電量販店で遊んでる人」「ケーキ食ってる人」「駅でヤンキー座りしている人」が区別出来ないなら、滞在時間から類推されるようなデータでマーケティングしても仕方ないんじゃなかろうか。
Webのホームページの滞在時間・広告のクリック履歴とは、全然違うわけである。
「使ってみなくては分からない」とはしばしば言われるが、「使えそうかどうか」はマトモに検討した方がいい。宝くじに五百万突っ込めとか、自分は客にとても言えない。
ビッグデータ解析そのものがイノベーションを起こしているようには思えない。
その周りに付随する、顧客ニーズを中心とした販売戦略を「動かせるようにする」という一手間の方が遥かに重要。
業務の改善「だけで」十分に効果が出るものを、「ビッグデータ解析」という外様の力によって実現するという所であり、要はマトモなコンサルって本当にいないよねという所。
データからの個人特定と、統計の方向は、実は逆。
統計は、「だいたいやね」というお話を積極的にする為のツールであり、でっかいデータからごくわずかの情報に圧縮する所に意味がある。
妊婦が特定出来た!というネタがよく使われてるが、夜中に唐突にレモンほしがってたら妊娠してんじゃないのとかってのの、データから見えてくるような話であって。
あと、売上は数%増えるという事はあるだろうが、ぶっちゃけ細かい業務が増えたらコストも上がる。本当にそのデータ使いこなせるかは不明。
業務上の愚痴。
本当はSIerなんだから、大きなもの売り込みたいんだろうけども。
うっかりするとHadoopとかで内部に持つには解析用の変なチューニング施したサーバを四台確保とかになる訳です。
なので。
売れないっす。浮かれてる大学とかは買ってますけど。あと、元々サーバ資産余らしているような所はアプリ費用だけでやるんでしょうけど。
なので。
仕方ないから、SIerの中でそんな構成を持って、作業込みで請け負う訳です。実例を作って構成を売りたいんですけどそれが出来てない(つーか出来るか阿呆)から外側で。
そう。
本質は、統計データ売りたいんじゃないんですよアレ。
「ビッグデータ金にしたいし、キミらに独占させるから。キミらが売る時に利益載せていいから。」
そう客に言われた時に、コンサルのケツ吹かされてるようなもんです。今までさんざんビッグデータを使った戦略って素晴らしい結果が得られますーって言っているから受けるだろうけど、(´・ω・`)知らんがな。
で。
一生懸命見た目がキャッチーなグラフ作るんですけど、花火のシミュレーションと一緒。綺麗だが意味がない。いつの間にかリサーチ会社と同じような話になってんですよね。
ウチの上の会社もそれしたそうなんだよなあ・・・・・・