「大学のそこんところ ~おカネと人と論文と~ 埼玉県立熊谷女子高等学校」へのツッコミ。

まあ、これぐらいは考えないとね、という所で。
大学のそこんところ ~おカネと人と論文と~ 埼玉県立熊谷女子高等学校

スライド3枚め

  • 何故この大学を選んだのか。何を持って選んだのか。
    • 大学数はこれで比較するのは妥当か。
    • 後で出て来るが、「上位国公立大学」「下位地方公立大学」などが恣意的になりがちなので注意。
    • グループ分けがある程度恣意的なのは構わない。問題はその根拠がない事。
      • 変な話、旧帝大とか駅弁大とか首都圏とか。
      • カテゴリ分けを例えば2つだけにすると、結構簡単に「関係する」結果を見る事が出来てしまう。

スライド4枚め

  • 誤字がある
    • 論文数←論分数
  • 集計方法が不明
    • JMP使ったとかはどうでもいいが、主著者の所属大学だけ拾ったのか副著者まで拾っているのか(多分主著者だけだと思いたいけど)
  • 元データに注意(流石にこれは考え切れないと思うけど)
    • 「いつから」「どのようにして」登録されているのかって重要。
    • 主著者の所属は大半が「大学」ではなく「大学院」だと認識出来てる?

スライド5枚め

  • たまに見るがこのグラフは基本ダメ。
    • 右端の平均は、折れ線でつなげていいと思う?
    • 色は、線の色とTop5での色をあわせましょう。
    • 一枚で表現するのが難しければ、二枚ちゃんと出しましょう。上位からの論文数の集計結果とかをソートして出せばいいよ。
    • その"境目"は一体どういう補助線なのか(これ次のスライドには合わない)
      • たまにあるんだけど、「それイカサマ用なので」。

スライド6枚め

  • スライド5枚めから導けない
    • 上位私立大学がおそらく早慶のみ
    • 旧帝大などの区分のリストはここまで一回も出ていない。
    • ちゃんとクラスタとして分かれているか、クラスタとして恣意で分けたとして、じゃあクラスタのそれぞれの平均であるとかの分析がない
  • 経済面などは次につながっていく「アイデア」なので、分析結果とは切り分けるべき。

スライド8枚め

  • 何故「平均」なんか使ったの?
    • 加工してから相関見るってのはちょっと。わざわざ収集したデータが勿体無い
    • 平均が代表値としては使えそうには思うけど・・・・・・微妙
  • 非心度高そうなのでそもそも普通の相関係数計算するのがマズイ。
      • 正規分布仮定出来ないだろうこんなの。
      • かと言って順位相関係数にすればいいかと言われると、この場合には、「上位」「下位」で分割するほうがいいと思う。
  • グラフの軸ちゃんとしましょう。
    • 流石にこれで単位「千円」は間抜けに思えるので。

参考:
http://www4.ocn.ne.jp/~murakou/correlation.htm
http://homepage2.nifty.com/nandemoarchive/toukei_hosoku/soukan_himitsu.htm

スライド9枚め

  • スライド8枚めで書いた事から、この考察はダメです。
    • 指導者が多分ダメなので、まあ仕方ないっちゃ仕方ないのだけど。
    • あと、相関係数の解釈も間違ってます。直線関係として強いかどうかです。

スライド10枚め

  • 論文1本辺りの科研費を、「平均」として求めてよい?
    • 論文の費用が平均使えるような分布になっているかどうか、ですよね。望み薄ですが。

スライド11枚め

  • データで見えなかったものを、考察で捻じ曲げてるのはダメです。
  • コストパフォーマンス、という時に、どんな論文も等価として扱っている事に関してはもっと注意するべきでしょう。

以下略・・・・・・

やはり、「偏りがあるデータ」なので、あんまり相関分析であるとか直接持ち込むのは難しいんですね。


擬似相関、は有名ですが、正規分布ではないもので相関を取る場合に問題になる、というのに関しては、大学で統計ならった人でも結構嵌ってるのを見ます。
逆に、この辺りが判別つくと、「この人は数字を嬲っているだけだ」とかが分かるようになります。結構多いんですよ。

あと細々。

  • 平均値は丸めないか、元の数字よりひとつ小さい有効桁数を用いる
  • 変にアベレージ使うより、合計の方がマシだったりする。
  • 統計処理をする前に、各要因単独でのの分布がどうなっているかというのは調べるの必須
    • まあ、スライドだと省略されがちですが。

感想

高校でもJMP入れてる所あるのかスゲー。
でも、これぐらいだとExcelの分析機能で十分なんですけどね。