2016年06月22日 07時00分 ネットサービス

誰でも無料で学術論文を読める「Sci-Hub」でダウンロードされた2800万件の論文を国・曜日・時間・人口比率などを解析してグラフ化



科学誌に投稿された学術論文を読むには購読料を支払う必要があり、これが誰もが科学に触れられる機会を制限しているという批判的な精神から、世界中の学術論文を公開している海賊版サイトとして「Sci-Hub」が知られています。Sci-Hubは論文がダウンロードされた状況についてのデータを公開しており、このデータを詳しく調べると、どのような国でダウンロードが多いのか、論文が閲覧されやすい時間帯はいつなのかなどを知ることができます。



The Winnower | Correlating the Sci-Hub data with World Bank Indicators and Identifying Academic Use

https://thewinnower.com/papers/4715-correlating-the-sci-hub-data-with-world-bank-indicators-and-identifying-academic-use



2015年9月から2016年2月までの間に、Sci-Hubでダウンロードされた論文の数は2800万件に及びます。Sci-Hubはこの大量のダウンロードに関するメタデータを公開しており、このデータをopenSNPの共同創設者のBastian Greshake氏が解析しています。



これは、曜日・時間ごとにダウンロードされた論文の数を示すグラフ。一番上が月曜日で、一番下が日曜日のグラフです。





上記のグラフはUTC時間を基準にしたもので、全世界のダウンロード状況を示しています。これに対して、下記グラフは、Greshake氏の母国であるドイツにおけるダウンロードのみを選別したもの。





香港のデータだとこんな感じ。グラフのおおよその形は国によって大きな違いはなく、ほとんどのダウンロードが現地時間の朝9時から夕方5時までの時間に行われていることが分かります。つまり、夜遅くに自宅でこっそりダウンロードするというわけではなく、オフィスアワーや学術研究時間中に論文がダウンロードされていることが分かるとのこと。





国によって人口が大きく異なるため、単なるダウンロード数だけを見ると、各地域におけるSci-Hubの活況は読み取れません。そこで、Greshake氏は世界銀行が発表している国別人口やインターネットユーザー数などのデータを加味したグラフを作成しています。



以下のグラフは縦軸にダウンロード数の対数、横軸に人口の対数として各国をプロットしたもの。なお、対数はいずれも底は10です。プロットはおおむね右肩上がりに分布していることから、Sci-Hubでの論文ダウンロード数は人口規模に比例すると言えそうです。





上記の各国データを、期待値からの隔たりをグラフにするとこんな感じ。グラフ左端にくるイラン、ロシア、エジプトなどの国では、人口規模に比べてはるかに多くのダウンロードが行われていることが分かります。これらの国で学術誌へのアクセス制限が行われていることと大きな関係がありそうです。





なお、ダウンロード数を人口で割った、国民一人当たりのSci-Hubでの論文ダウンロード数をグラフ化するとこんな感じ。ポルトガル、イラン、チュニジア、ギリシア、チリがトップ5を構成しています。





縦軸を人口1000人あたりのダウンロード数の対数、横軸を人口あたりのGDPとして各国をプロットすると、一人あたりのGDPが増えるほど、論文のダウンロード数が増えるという相関関係があることも判明。





縦軸を人口1000人あたりのダウンロード数の対数、横軸を平均余命として各国をプロットするとこんな感じ。





縦軸に大学でのダウンロード数、横軸に月を各国別にグラフにするとこんな感じ。キリスト教の影響を強く受ける欧米ではクリスマス休暇に大きくダウンロード数が落ち込むことや、イスラエルや中国などは、旧正月やユダヤ教の祭りのある期間という例外を除けば、大きな落ち込みがなくコンスタントにダウンロードされているなど、各国の文化的な違いを見ることができるそうです。

