オープンデータの前処理に関する課題と対策

このエントリーをはてなブックマークに追加


どうも。
データデザイン部のデータサイエンティスト見習い@宮崎です。
今回はオープンデータの前処理に関する不満課題をお伝えしたいと思います。

凡例、導入

利用者
世の中興奮することいっぱいありますけど、一番興奮するのはオープンデータの前処理をする時だね。
政府
間違いないね!

ニーズ

利用者
地理情報付き人口データと、自社のデータを合わせて新しい店の出店場所を探したいなぁ。人口データってe-Stat(政府統計の総合窓口)にあったよな。

前処理1:データの検索

政府
ヘイヘイヘイヘイヘイラッシャイ!
利用者
野球少年か!
政府
どんなデータをお探しで?
利用者
いやね、地理情報付きの人口データを探してるんだけど
政府
はい、じゃこちら
政府統計一覧 – 人口・世帯:e-Stat
利用者
いや、多いな!
課題1目的に沿った統計を探す
e-Statで分野 > 人口・世帯 と絞り込むとこれだけの統計が出力されます。この中から利用目的にあった統計を探す必要があります。調査の概要などを確認しながら目的の統計を探します。
利用者
もっと絞ってよ、更新頻度が高くて市区町村別くらいで見れるデータないの?
政府
じゃこちらですね。

データセット一覧(一覧形式) – 住民基本台帳に基づく人口、人口動態及び世帯数調査:e-Stat
利用者
いや、多いな!187件もあんの?
政府
はい。
利用者
なにこれ、多くない?もっとさ、数ファイルくらいにまとまってるのないの?
政府
ないですね。
利用者
なんでないんだよ。
政府
さぁ、お上のやることはちょっと。
利用者
お前だろ。
利用者
てへぺろ。
利用者
てへぺろじゃねんだよ。わーったよ。じゃ個別のファイル全部見るからさ。んで、それぞれのファイルの意味はどうなってんの?
政府
タイトルの通りです。
データセット一覧(階層形式-年次-2019 – 住民基本台帳に基づく人口、人口動態及び世帯数調査:e-Stat
利用者
いや、そうなのかもだけどさ、なんかもっと説明とかないの?
政府
ないです。
利用者
なんでないんだよ。わかったよ。見りゃいいんだろ?
データセットの種類検討
利用者
えーと…。集計区分総計・日本人住民・外国人住民に分かれてるのね。そしてその中でそれぞれ集計単位都道府県・市区町村で分かれて、さらに種類人口動態及び世帯数・年齢別人口に分かれてる、と。これが毎年ある感じか?
政府
いえ、昔は集計区分、集計単位、種類が分かれてませんでした。
利用者
なんでそんなバラバラなんだよ。何年から集計区分を追加したとかどっかないの?
政府
調査の概要に多少載せてますが、全部ではないです。
利用者
なんでだよ。全部書けよ!
課題2統計調査の方法が変更されている場合がある
法改正や人口の変化など世の中の状況の変化により統計調査の方法が変更されることがあります。調査の概要に記載されていることもありますが、無い場合はデータセットの中を見たりしながらあたりをつけていきます。

前処理2:データの取得

政府
すいません!
利用者
返事いいな!
で、なにこれ、一個一個ダウンロードしていくの?めんどくせぇな。
政府
いえ、一括ダウンロード機能があります。
一括ダウンロード
利用者
なんだよ早く言えよ、気が気かねぇなぁ。まぁこれは楽でいいや。これで全部ダウンロードできたの?
政府
いえ、ページごとなんであと3回やってください。
利用者
なんで全件一括じゃねぇんだよ。めんどくせぇなぁ。
課題3ダウンロードが大変
一部api化されているものもありますが手作業でダウンロードが必要なデータセットも多くあります。また、人工衛星画像などではftpを用いてのダウンロードが必要なものもあります。

前処理3:データの確認

利用者
おっし、全部ダウンロードできたっと、じゃ早速処理していきたいんだけどこれファイル名って何?
ファイル一覧
政府
さぁ?
利用者
だよね?  はいはい。ファイルの中身見て確認していけってんでしょ。。
利用者
でもなんだよこの呪文みたいなファイル名。
利用者
とりあえず一番上の0001tjin.xlsを開いて。
0001tjin.xls – ファイルの内容
利用者
なになに、タイトルは平成12年3月31日住民基本台帳人口・世帯数、平成11年度人口動態(市区町村別)か。ファイル名が0001tjin.xlsだから…
利用者
全然ワカンねぇな。謎解きか!
政府
あ、タイトル間違ってますね。「平成12年3月31日住民基本台帳人口・世帯数、平成11年度人口動態(都道府県別)」が正しいです。
課題4誤りがある
ファイルの中身、ファイル名などに誤りがある場合があります。内容を確認しながら間違いを訂正していきます。
利用者
なんでそこ間違っちゃうの?え?もうなにを信じればいいの?
政府
お客さんの、シックスセンッ!!ですかね?
利用者
ウルセェよ。なんだよシックスセンッ!!って。バカか。第六感じゃねぇよ。てか間違えんなよ。
利用者
じゃあ0001tjin.xls平成12年3月31日住民基本台帳人口・世帯数、平成11年度人口動態(都道府県別)でいいのね。
利用者
「ファイル名の先頭2桁が西暦の末尾2桁、次の2桁が連番t=都道府県別jin=人口動態」ってとこか。
利用者
じゃこの調子で見ていくと…
ファイル命名規則
利用者
こんな感じだろうよ!
政府
zzz…
利用者
おいお前今寝てただろ!
政府
寝てないす寝てないす!お客さん、さすがです!
利用者
ったくよ、ちゃんとしろよ。てかお前がこれくらい提示しろよ。途中からファイル名の付け方変えやがってよ。
利用者
…。
利用者
あれ、この法則に合わないファイルがあるんだけど?
命名規則に合わないファイル
政府
あ、間違いですね。(6桁目のアルファベットがaではなくsが正解
利用者
xls以外のファイルが1つあるんだけど
不明ファイル[1413sankou.xlsx]
政府
あ、「参考」なんでそのファイルいらないです。
利用者
項目名は…
政府
ファイル毎、年度毎にオリジナリティを入れてます!

オリジナル要素1:表記揺れ

  • 世帯数_計 or 世帯数
  • 自然増減数 or 自然増加数
  • 自然増加率 or 自然増減率
  • 社会増減数 or 社会増加数
  • 社会増加率 or 社会増減率
  • etc

オリジナル要素2:年度によって特殊な出力がある

  • 平成24年度_住民票記載数_その他(法第30条の47)
  • 修正総数
  • 平成17年_(修正世帯数)
  • 平成17年_人口_(修正人口)
  • etc

オリジナル要素3:集計区分、集計単位、種類ごとに出力が違う

集計区分(総計、日本人、外国人)別の出力項目の違い
課題5表記揺れ、年度独自項目、種類などによる項目の違い
表記揺れや種類による出力項目の差異に関しては全ファイルのヘッダーを確認して修正・把握していきます。また、年度独自項目に関しては調査の概要などを確認しながら年度独自項目を確認します。
利用者
いらねぇよオリジナリティ。

前処理4:データの整形

利用者
てかよ、さっきはスルーしたけどさ、このExcelファイルめっちゃ処理しづらいじゃん?
利用者
3行ヘッダーで、結合多用してて、合計行まであるじゃない。(参考:pythonで複数行ヘッダーexcel処理)
Excelファイル – 3行ヘッダー
課題6Excelファイルの整形・正規化
マルチカラムヘッダーのExcelが多いのでこれを任意のルールに基づいて1行に変換していきます。また、データとして扱う場合適切では無い合計行の削除や、値のラベル化(男:1,女:2など)などを行います。
利用者
なんなんだよ、年度毎にファイル数が違う、ファイル名やタイトルが間違ってる、項目名もバラバラ。正規化もされてない。
利用者
こんなん処理しきれねぇよ。
政府
お客さん…。それを整形して売ってくれてる会社がありますよ。
利用者
そりゃいいぜっ!

まとめ

オープンデータは許可されたルールの範囲内で自由に複製・加工ができるとはいえ、以下のような課題があり、気軽に利用するにはまだまだハードルが高い状況です。

  1. 目的に沿った統計を探す
  2. 統計調査の方法が変更されている場合がある
  3. ダウンロードが大変
  4. 誤りがある
  5. 表記揺れ、年度独自項目、種類などによる項目の違い
  6. Excelファイルの整形・正規化

※ 弊社では今回の例の前処理において検討〜実装〜改善で約0.8人月のデータサイエンティストの工数が発生しています。

課題への対策としては、問題を念頭に置いた作業見積もりと要員アサインが有効です。また、長期的にはデータエンジニア・データサイエンティストの育成が必要でしょう。

しかし、私のオススメの対策は「面倒なことは得意な人に任せて、あなたはあなたにしかできないことに集中する」です。弊社のようなデータサプライヤーがすぐ活用可能なデータを安価に提供しています。どんどん外注してください。そして、買ってきたオープンデータと自社データをマッシュアップして、ビジネスを加速すること、そのインサイトを得ることに注力いただくことを強くお勧めします。

地理関連統計データ利活用のご相談はお気軽にご連絡ください。

【無料ウェビナーのお知らせ】
「DX/AI推進を担当しているがうまく進まない」方に最適なウェビナーを企画しました

事業会社がAIを導入するには、現場から経営層までが一体となり、熱量をもってAI開発に携わることが重要です。そしてその成功の鍵となる考え方が「UX first」です。
本ウェビナーでは、これまで弊社が事業会社とAIプロジェクトを進めて感じた気付きから、「UX first」で進める必要性についてお伝えします。

<ウェビナータイトル>
経営層も熱狂させるAI活用~成功の鍵は「UX First」~
<プログラム>
1.データデザイン事業のご紹介
2.AI活用が進まない理由とは
3.AI活用における「UX First」な進め方とは
4.なぜ「UX First」だとうまくいくのか?事例のご紹介
5.QAタイム

日時:2020年12月10日(木) 13:15~14:15
参加方法:Zoomで参加(参加費無料)

お申し込みはこちら

WRITER
Yoshitsugu Miyazaki

データサイエンティスト / ディレクター

宮崎   義継 Yoshitsugu Miyazaki

大手生保系SIer、TOCによるマネジメント変革、Windsurfing labプロジェクトでの組み込み開発及び事業開発を経て2019年11月より富士通クラウドテクノロジーズに入社。データ活用サービスの構築及び企画を担当。

SNSで最新情報を発信しています

最新記事

ページTOPへ