2011-04-06

(BETA) Visualizing radioactivity level using Google public data explorer

文部科学省が公開している都道府県ごとの環境放射能水準の時系列データ
Google Public Data Explorerで可視化してみた。



数値の単位 (μSv/h) が付いていないなど、完成度はまだ低い。Windows XP上のIE8とChorome 11で動作を確認した。Safariでは、「読み込み中...」で止まってしまう。

3月17日から4月4日までの正午のデータだけを登録してある。手元では全ての時間帯のデータを用意したが、Public Data Explorerが1日よりも短い単位を可視化できないからである。

文部科学省は Windows Azure 上に可視化サービスを構築しているようだ。現在の日本語トップページに日本地図があり、各都道府県をクリックするとグラフが表示される。

元データはPDFで公開されている。このPDFからテキストを抽出するには iText を使った。まずは如何様にもデータを加工できるようにすべく、ニュートラルなCSVを作成。これを DSPL 用のCSVに変換した。プログラミングにはJavaを使用。

iTextでPDFから抽出したプレインテキストでは、表の空セルを判別できない。よって、空セルがある表に対しては、データの修正が必要になる。ここはdirty hack。特に埼玉県に空セルが目立つ。PDFで発信された情報から機械可読データを作るのは難しい。


リソース: