まあ、これぐらいは考えないとね、という所で。
「大学のそこんところ ~おカネと人と論文と~ 埼玉県立熊谷女子高等学校」
スライド3枚め
スライド4枚め
- 誤字がある
- 論文数←論分数
- 集計方法が不明
- JMP使ったとかはどうでもいいが、主著者の所属大学だけ拾ったのか副著者まで拾っているのか(多分主著者だけだと思いたいけど)
- 元データに注意(流石にこれは考え切れないと思うけど)
- 「いつから」「どのようにして」登録されているのかって重要。
- 主著者の所属は大半が「大学」ではなく「大学院」だと認識出来てる?
スライド5枚め
- たまに見るがこのグラフは基本ダメ。
- 右端の平均は、折れ線でつなげていいと思う?
- 色は、線の色とTop5での色をあわせましょう。
- 一枚で表現するのが難しければ、二枚ちゃんと出しましょう。上位からの論文数の集計結果とかをソートして出せばいいよ。
- その"境目"は一体どういう補助線なのか(これ次のスライドには合わない)
- たまにあるんだけど、「それイカサマ用なので」。
スライド6枚め
スライド8枚め
- 何故「平均」なんか使ったの?
- 加工してから相関見るってのはちょっと。わざわざ収集したデータが勿体無い
- 平均が代表値としては使えそうには思うけど・・・・・・微妙
- 非心度高そうなのでそもそも普通の相関係数計算するのがマズイ。
- グラフの軸ちゃんとしましょう。
- 流石にこれで単位「千円」は間抜けに思えるので。
参考:
http://www4.ocn.ne.jp/~murakou/correlation.htm
http://homepage2.nifty.com/nandemoarchive/toukei_hosoku/soukan_himitsu.htm
スライド9枚め
- スライド8枚めで書いた事から、この考察はダメです。
- 指導者が多分ダメなので、まあ仕方ないっちゃ仕方ないのだけど。
- あと、相関係数の解釈も間違ってます。直線関係として強いかどうかです。
スライド10枚め
- 論文1本辺りの科研費を、「平均」として求めてよい?
- 論文の費用が平均使えるような分布になっているかどうか、ですよね。望み薄ですが。
スライド11枚め
- データで見えなかったものを、考察で捻じ曲げてるのはダメです。
- コストパフォーマンス、という時に、どんな論文も等価として扱っている事に関してはもっと注意するべきでしょう。
以下略・・・・・・
やはり、「偏りがあるデータ」なので、あんまり相関分析であるとか直接持ち込むのは難しいんですね。
擬似相関、は有名ですが、正規分布ではないもので相関を取る場合に問題になる、というのに関しては、大学で統計ならった人でも結構嵌ってるのを見ます。
逆に、この辺りが判別つくと、「この人は数字を嬲っているだけだ」とかが分かるようになります。結構多いんですよ。
あと細々。
- 平均値は丸めないか、元の数字よりひとつ小さい有効桁数を用いる
- 変にアベレージ使うより、合計の方がマシだったりする。
- 統計処理をする前に、各要因単独でのの分布がどうなっているかというのは調べるの必須
- まあ、スライドだと省略されがちですが。
感想
高校でもJMP入れてる所あるのかスゲー。
でも、これぐらいだとExcelの分析機能で十分なんですけどね。