• Japanese

提言

プログラミングに挑戦してみよう

三田ITC所長 新保 一成


私は、日頃からコンピュータ上でデータを処理する機会が多い。使うデータは経済統計がほとんどである。政府は、その政策目的、業務目的に応じて実にたくさんの統計調査を実施している。国民には、調査対象である世帯や企業が識別できないように、様々なレベルに集計されたデータが報告書として公表されている。日本の政府統計の総合窓口であるe-Statと呼ばれるポータルサイト(http://www.e-stat.go.jp/)を訪ねれば、どんな統計データが利用できるかを知ることができる。e-Statを通じてインターネットから入手できるデータの多くは、Microsoft社のスプレッドシート・プログラムExcel上に作成された表として配布されている。これらの表は、プリントすればそのまま報告書として使えるほどに非常に綺麗に整形されている。これは、政府統計が冊子体のみで公表されていた時代の名残りである。冊子体の統計データは、年度ごとに公表される。この慣習が電子媒体で公表されるデータにも継承されている。

データを使う目的は、年次を固定して複数のグループや変数の関係について分析したいこともあるし、あるグループや変数を時系列で分析したい場合もある。つまり分析を目的にした統計的、理論的計算をするためには、このように見た目が美しく整形されたデータが使いやすいとは限らない。はっきり言って、使い難いのである。

日本の経済統計だけではなく、国連、OECD、IMF、FAOなどの国際機関が公表するデータを使うことも多い。多くの国際機関は、各国から収集したデータをリレーショナル・データベース・システムで管理し、ユーザーのクエリをWebアプリケーションから受け取り、処理して、たとえばExcelのワークシートとして保存することもできるし、レポートとして綺麗に印刷したり、グラフで表現することもできるようになっている。これならば、クロスセクション、時系列にかかわらず、分析目的に叶った形式でデータを取り出すことができる。分析用のプログラム(たとえば、R)から直接にクエリを出すをことができればなおいい。

私の研究室では、e-Statで得られる日本の経済統計も、国際機関のデータベースからExcelに保存したデータも、pythonでワークシートを直接読み、それをLinuxが動作している研究室のデータベース・サーバーのMySQLに登録し、管理している。研究室のメンバーは、Rからインターネットを通じて研究室のデータベースにクエリを発し、それぞれの研究のために自在にデータを使っている。

分析をするためには、データが個々の分析に適した形で利用できることが前提である。Excel上でコピー&ペーストを繰り返して、公表されているデータを分析のために加工するのに多大な時間を浪費している学生をよく目にする。この方法には、再現性がほとんどない。このような非効率を避けるためには、プログラムを書いて自在にデータを操るのが最善の策だと考える。

ビッグデータの時代と言われるようになって久しい。レジの入力がデータになったり、Twitterでのつぶやきがデータになったり、画像から抽出された情報がテキスト・データや数値データとして使われる日も近いことであろう。このような時代に、スプレッド・シートと統計処理ソフトだけでは到底対応できないであろう。温故知新ではないが、コンピューター言語を自在に操って分析に役立てる学生が増えることを期待したい。

最終更新日: 2014年10月17日

内容はここまでです。