データサイエンティスト協会が2015年11月に発表した『データサイエンティストに必要とされるスキルチェックリスト』には、行動規範として「データを取り扱う人間として相応しい倫理を身に着けている（データのねつ造、改ざん、盗用を行わないなど）」と書かれています。協会は、これはデータサイエンティストの必須スキルで、かつ見習いレベルでも守らなければないと定義しています。

18年末から報道され、今年に入り一気に社会問題化した厚生労働省の「毎月勤労統計」をめぐる統計偽装問題をこのチェックリストに照らし合わせてみると、厚労省の統計担当者がこの行動規範を全く守っていない「見習いレベル以下」だったことになります。

また、本問題を通じて「データなんて簡単に操作できる」というイメージが広まってしまう恐れさえあります。これは、厚労省が作成する統計で、不正が行われていたことが明らかになったというものです。今回の問題を受け、日本統計学会や日本経済学会も声明を出し、危機感をあらわにしました。

オープンデータに取り組んだり、データが重要だと個人情報保護法を改正したりと、国をあげて統計の重要性を押し出していたのに、蓋を開けてみれば「言ってることと、やっていることが全然違う」という現実。データサイエンティストの1人として慄然（りつぜん）としています。

AI（人工知能）やデータサイエンス界隈は、厚労省の統計偽装問題を「自分たちの身近で起きるかもしれない問題」として捉えることで、何か教訓を得られるのではないでしょうか。AI時代において、間違ったデータやバイアスのかかったデータをAIに学習させることの問題は、18年に米Amazon.comのAI採用システムにおいて「女性差別」の問題が浮き彫りになったことからも注目を浴びています。

政府は国内でのAI活用を推進するものの、基となるデータの信頼性が脅かされる状態では、「どのようにAIを活用するのか」を議論する段階にすら行けないでしょう。

また、統計は専門的な分野としてあまりピンと来ない方も多いかもしれませんが、今回の事件を機に“データを見る目”を養うことは、今後のデータ社会を生きる上で決して無駄にはなりません。

そこで今回は、03年〜18年まで日本銀行で「全国企業短期経済観測調査」（短観）や「マネーストック統計」などの作成に携わられていたエコノミストの鈴木卓実さんと、厚労省の問題に詳しい立憲民主党の初鹿明博衆議院議員に、今回の統計偽装問題について語っていただきました。

一体、なぜこのような大きな問題が起きてしまったのか。データを扱うことの難しさの本質はどこにあるのか。データサイエンスの視点から切り込んでいきます。

「統計偽装問題」が与えた影響と疑惑

―― 今回不正が指摘されたのは、厚労省が作成している「毎月勤労統計調査」という、賃金や労働時間に関する統計です。国の重要な基幹統計の1つでもありますが、何が起こったのか簡単に説明をお願いします。

鈴木さん

鈴木 （1）毎月勤労統計調査において、常用労働者数500人以上の事業所を全数調査すべきところを、04年から東京都で一部の事業所を調査（調査先数3分の1）するように無断で変更した。（2）18年1月に突然、復元処理をしたことから、賃金の伸び率が過大になった（適切なデータ補正をしなかった）。（3）96年から、全国3万3000事業所を調査すべきなのに3万事業者しか調査していなかった――などが挙げられます。詳細を知りたい場合は、「毎月勤労統計調査等に関する特別監察委員会」の追加報告書をご覧になってください。

これにより、失業保険や労災保険などの社会保障費の過少給付という実害が生じ、延べ約1973万人に影響がありました。追加給付等（約570億円）のためのシステム費用などを含めると、総額で約800億円が必要になる計算です。

―― 初鹿さんは、政治家の立場としてどのような懸念をされましたか。

1|2|3|4 次のページへ