第一生命が例年行っている「大人になったらなりたいもの」つまり子供のなりたい職業ランキングのキャンペーンで、昨年2017年度の男の子のランキングでは「学者・研究者」が15年ぶりに1位になったというのが大きなニュースになっていました。

なのですが、ここで「日本人が3年連続でノーベル賞を受賞したことなどが影響しているのではないか」というコメントがなされている点に個人的に引っかかりました。僕の記憶にある範囲では、過去に日本人のノーベル賞受賞者が多かった時期でも有名なこのキャンペーンで「学者・研究者」が上位になったケースはそれほど多くなかった印象があるからです。

と言っても、ここで印象が云々言っていてもただの床屋政談になるだけなので、試しにきちんとデータセットを用意してきて、可能な限り定量的に分析してみようと思います。

お断り この記事の末尾の追記1の方が原理的には正しい分析をしているので、そちらも是非ご覧ください。

順序ロジット単回帰で「日本人ノーベル賞受賞者数」と「学者・研究者の順位」との関係性を探る

やることは単なる順序ロジットの単回帰です。多項ロジットとは微妙に異なり、クラス間に大小の順序がある順序尺度を目的変数とするロジットモデルです。詳細は面倒なのでこの辺の本でも読んで下さい。 一般化線形モデル入門 原著第2版 作者: Annette J.Dobson,田中豊,森川敏彦,山中竹春,冨田誠

Annette J.Dobson,田中豊,森川敏彦,山中竹春,冨田誠 出版社/メーカー: 共立出版

共立出版 発売日: 2008/09/08

2008/09/08 メディア: 単行本

単行本 購入 : 15人 クリック : 152回

: 15人 : 152回 この商品を含むブログ (13件) を見る が、僕はこれまできちんと順序ロジットを実践したことがないので、今回はFiS Projectさんの記事「【R】順序ロジットモデルと順序プロビットモデル【比例オッズ】」を参照させていただきました。大変参考になり、有難うございました。

ということで、以下の通りやればおしまいです。ただし下記Rコードをご覧になれば分かる通り、{MASS}と{texreg}の2つのパッケージは先にインストールしておいてください（後者は使ったことがなく今回初めて知りました）。 > d <- read.csv ( 'childrens_dream_nobel_laureate.csv' , header = T , sep = ' \t ' ) > head ( d ) year rank inv_rank laureate 1 1989 4 1 0 2 1990 4 1 0 3 1991 4 1 0 4 1992 4 1 0 5 1993 2 3 0 6 1994 4 1 0 > d1 <- d [, 3 : 4 ] > d1 $ inv_rank <- as.ordered ( d1 $ inv_rank ) > d1 $ inv_rank [ 1 ] 1 1 1 1 3 1 1 1 1 3 1 2 1 4 1 2 2 2 3 2 1 2 2 3 2 1 1 3 4 Levels : 1 < 2 < 3 < 4 > fit <- MASS :: polr ( inv_rank ~ laureate , data = d1 ) > summary ( fit ) Re - fitting to get Hessian Call : MASS :: polr ( formula = inv_rank ~ laureate , data = d1 ) Coefficients : Value Std. Error t value laureate 0.1775 0.3114 0.5699 Intercepts : Value Std. Error t value 1 | 2 0.0405 0.4198 0.0965 2 | 3 1.2620 0.4837 2.6090 3 | 4 2.7180 0.7628 3.5631 Residual Deviance : 68.94633 AIC : 76.94633 > texreg :: screenreg ( fit ) Re - fitting to get Hessian ======================= Model 1 ----------------------- laureate 0.18 ( 0.31 ) ----------------------- AIC 76.95 BIC 82.42 Log Likelihood - 34.47 Deviance 68.95 Num. obs. 29 ======================= *** p < 0.001 , ** p < 0.01 , * p < 0.05 単回帰モデルに過ぎません（つまり順序データとの相関を見ているだけ）し、このモデルの立て方だと「その年の中での影響」つまり同時影響的なものしか見られないことになります。時間遅れも考慮したければVARモデル的な自己回帰モデルが必要ですが、浅学にして順序データでVARモデル的なものを立てる方法は分からず。。。ともあれ、「自然科学分野日本人ノーベル賞受賞者数」は当該年度における「子供のなりたい職業における『学者・研究者』の順位」には有意な影響を与えない、という結果になりました。







個人的にデータを見ていて覚えた感想

2つの変数をプロットしたデータを見れば分かることですが、 1年に最多の4人が受賞した2008年とその翌年で「学者・研究者」の順位が振るわない（3位と圏外）

青色LEDが受賞した2014年とその翌年はどちらも「学者・研究者」が圏外

近年では最も注目を集めた日本人ノーベル賞受賞者である山中伸弥さんが2012年に受賞した際も2位止まりで、翌年は3位に後退している

1993, 1998, 2007年はいずれもしばらく日本人ノーベル賞受賞者が出なかった時期であるにもかかわらず、2位まで上がっている ということが見て取れるので、時間遅れを考慮したとしてもあまり結果は変わらない、つまり「やはり『学者・研究者』の順位と日本人の自然科学分野ノーベル賞受賞者数とは関係がない」のではないかという感想を個人的には持ちました。







Twitterで流れていた説

男の子のなりたい職業で15年振りに「学者・博士」が1位になったってニュースで、「理由は日本人がノーベル賞を受賞したことか」とか言ってるけど絶対違うだろどう考えても天才物理学者桐生戦兎のおかげだぞ仮面ライダーしっかり見ろ — もり (@LovenozoeLive) 2018年1月4日 まぁこちらの方が説得力があるのではないでしょうか（笑）。幼稚園から小学校の男の子が接するメディアと言えば、仮面ライダーのようなヒーローものなどのTV番組というのが定番だと思いますのでさもありなんという気はします。一つ気になるのは「作文の募集時期が7〜9月」であるのに対して、こちらの天才物理学者仮面ライダー番組の放映が「9月3日から」なので、どこまでその影響があるかははっきりしない点です。これは残念ながら手持ちのデータでは分かりません。

ちなみに全くの余談ですが、上記の「2007年にしばらく日本人ノーベル賞受賞者が出ていなかったのに2位まで上がっている」点についてこんなデータを見つけました。 Googleトレンドの結果によれば、この年の10〜12月に放映されたテレビドラマ『ガリレオ』に関連する検索ボリュームが8月に急上昇しています。おそらく番宣などが注目を集めたのではなかったかと思いますが、いかんせん10年も前のことなので僕自身の記憶が曖昧で。。。







注意点 サンプルサイズが小さい（29年分＝29行しかない）

単回帰しかしていない、即ち共変量に「各年度の自然科学系分野の日本人ノーベル賞受賞者数」しか置いていない

自己回帰などの方法で時間遅れを評価していない

モデルの当てはまり及び汎化性能はチェックしていない ので、今回の結果はあくまでも手持ちのデータセットのみから見られる切り口の一つを紹介したものに過ぎません。他にも様々な共変量を加えたり、順位ではなく（例えば）個々の選択肢を挙げた子供たちの人数そのものやそのパーセンテージを目的変数として使うなどすれば、もっと精度の高いモデルになる可能性が高いことを指摘しておきます。





