色々な切り分け方でデータは眺めて見るべきだよね、という事。

参考:「日記/2013-10-14/ボカロは衰退している? - ShibaPuki

先に上げたURLのXLSデータから*1、セコセコとデータを作ってSAS*2に食わせるまでやってたのだが、どういうグラフ描くかなとか考えてみて、下らない事に気付いて止めた。

ボーカロイドの視聴数・コメント数・マイリスト数を考えるに、人の動線とかを考える。

まず、ニコニコ動画の全体のユーザ数・月間のユニークユーザ数が視聴数に影響を与えるだろうと思われる。単調増加関数を想定出来るだろう。
ユニークユーザ数で思い出したが、言葉通りに解釈するなら視聴数は視聴者ごとの繰り返し視聴数の合算なのだから、マイリスト数は視聴数に影響を与えるだろう。単調増加、と言いたいが、マイリストの使い方が繰り返しに使われる場合と使われない場合を考える必要があるかも知れない。はてなブックマークでブックマークしても、それを再度読むために使われる訳ではないのと似たような感じで、周知の為にマイリスト化しているかもしれないからだ。こうなってくるとユーザの属性が気になる。が、そこら辺は分からんので保留。
ニコニコ動画って、APIかなんかで外部のブログに埋め込み出来るんだっけ。そうなってくると、視聴数に、「ニコニコ内」「ニコニコ外」が絡んで来るだろう。ボーカロイドは確かにニコニコが人気発祥の地ではあるが、その外でどれぐらいコミュニティが出来ているか分からない。ニコニコに棲んでいる人とニコニコ主体ではない人ではその視聴スタイルが違う可能性もある。これも保留。

この手のスタイルを考えるに、多分時期で区別出来るのではないかとも思うが、データが年次では2010からしかないので推定するには不足。時期で考えるなら、年/年月ぐらいで考えても面白いが、単に月を与えても面白かろう。曜日を与えられるならそれも良し。
他のコンテンツが開発されてたらそっちに流れる事もあるんだけど、それはニコニコ動画全体の視聴数を考えるといいのか。

何にせよ、「これとこれに相関がある」というような因果関係のモデルを考えるには、ちょっと思いつくだけでほしい情報が山のようにある。単品持ちだして相関の有無を言っても仕方がない(擬似相関の可能性が多分にある状態。相関がない、も、カテゴリ分けで実はカテゴリ毎に相関が違う可能性もある)。

f:id:houyhnhm:20131015112336p:plain
元グラフに不満があったので作った。四半期平均を取って線を引いている。
ちょびひげみたいなのは、「標準偏差」で作ってある。このひげの範囲でおおよそ95%ぐらいのデータが存在する。母集団の平均値の範囲を意味する平均値の標準誤差では行っていないので、あくまでデータのサマリとしてこのグラフを使う事。
中央値と四分位値なんかも使おうかと思ったが、データがそれなりに多いので平均値・標準偏差で見ても問題なかろう。本当は正規分布に従うかみたいなのをやろうかと思ったが、面倒なので止めた。
グラフX軸にある、1・2・3・4は、四半期を意味する。1が1-3月、4-6月、7-9月、10-12月としている。グラフの端は、平均値はだいたいで見ればいいが、標準偏差についてはデータ量が他の四半期とは異なるため注意が必要。

f:id:houyhnhm:20131015121131p:plain
こっちは、月ごとに平均を取っている。
作り方が微妙に違うが、面倒臭いのでそのまま。


こうしてみると、

確かに、1月から5月までと6月から10月まででは、値が減っている。

感覚としては、2011年位の数値ではないか?

日記/2013-10-14/ボカロは衰退している? - ShibaPuki

というのは、別に間違いではないが、この現象を上手く評価は出来ていない感じはする。
春辺りに一度盛り上がっていたのだけど、今は盛り下がっているというように見える。
ボーカロイドが使われているアニメとかが減ってるのかな?その辺りはあまり分からないが。

*1:余談。そろそろxlsからxlsxに進化していいと思うんだ

*2:統計解析パッケージ。そういやRとの比較であまり言われていない事に、グラフが描くの面倒という事がある。まあ、生データからグラフ描くのはRでも難しい。Excelはスゴイ便利