なぜAIプロジェクトはコストがかかるのか?  ~前処理について~

このエントリーをはてなブックマークに追加

こんにちは。データデザイン部でデータサイエンティストを担当しております。堀です。
私はお客様からお預かりしたデータを用いて、AIモデル構築のご支援をさせていただいております。その際に、「1つのモデルを作るにしては時間がかかりすぎているのではないか?」と質問をいただくことがあります。その理由として、従来のシステム開発にはない「前処理」というフェーズが存在することが原因の一つに挙げられます。

今回は、「前処理とは一体何者なのか」、「何を行っているのか」をお伝えします。

 

もくじ

  • 前処理とは
  • 前処理の種類
  • データクレンジングとは
    1. 欠損
    2. 表記ゆれ
    3. 外れ値
  • まとめ

前処理とは

前処理とは、一般的に「データを分析可能な形に加工すること全般」を指します。
この、「前処理」の工程を挟まない場合、「AIモデルがそもそも構築できない」、「AIモデルが構築できたとしても一切精度が出ない」という状態に陥るケースが殆どです。
また、「データ分析は前処理の時間が8割」と言われるほど前処理には時間と労力がかかり、それに伴って費用もかかります。
「前処理」を行うためには「データの生成プロセスの知識」、「分析対象の業界知識」、「分析手法や前処理手法の知識・実装力」が必要となり、前処理フェーズに時間がかかる原因の一つとなっています。

前処理の種類

「前処理」が指す作業範囲の定義は世の中的にも曖昧で、企業や人によって異なる場合がありますが、一般的には「データクレンジング」、「データ結合」、「データ変換」、「Feature Engineering」の4つが前処理と呼ばれています。

この中でも、今回は「データクレンジング」と呼ばれるものについて詳しく解説していきます。

データクレンジングとは

データクレンジングとは、「データを補完、修正、削除することで品質を高めること」を指します。この「データクレンジング」を行うことにより、他の前処理や分析、AIモデルの開発が行えるようになります。
データクレンジングにも複数の種類が存在しますが、今回はよく課題になる3項目について触れていきます。

1. 欠損

「欠損」とは「本来あるべきデータがない状態」を指します。下の表のようなデータです。
欠損が起きているデータでは作ることのできないAIモデルが多く存在するため、対処をする必要があります。
対処をするうえでポイントとなるのは、欠損の種類を把握することです。

この欠損の種類を判断するためには「データの生成プロセスの知識」の理解が必要不可欠です。データ提供者と分析者が同一ではない場合に「データの生成プロセスの知識」をうまく共有できず、大幅に時間を浪費するケースがあるため、データ提供者はデータ分析を行う前に欠損の状態・種類を把握しておく必要があります。
欠損の種類を判断することができたら、次は種類に応じた適切な対処をします。

数多くの対処方法があり、「分析手法や前処理手法の知識・実装力」を持った人物が適切に判断し、対処する必要があります。

2. 表記ゆれ

「表記ゆれ」とは「意味は同一だが表記が異なるもの」を指します。以下のデータは表記ゆれが起きている例です。

表記ゆれを起こしている場合でもAIモデリングは可能ですが、精度が期待できない上に、AIに未知のデータを入れたときに予測できない可能性があります。
表記ゆれの判断はとても難しく、「データの生成プロセスの知識」、「分析対象の業界知識」の2つが必要となります。例えば上記の例だと「みそラーメン大」と「味噌ラーメン大」が実際に表記ゆれなのか判別が付きません。そのため、プロジェクト内で確認を取り合う必要があり、時間がかかります。
データ活用プロジェクトの根幹である、AIモデリングやデータ分析に素早く移れるよう、事前の対策をしっかり行い、確認をすることをおすすめします。

3. 外れ値処理

「外れ値」とは名前の通り「他の値から大きく外れた値」のことです。外れ値が含まれた状態で分析を行うと、本来の性質とは異なった結果になってしまう場合があるため、対処する必要があります。

外れ値には、「測定ミス、入力ミス等で大きく外れている」、「実際に大きく外れている」の2パターンがあり、前者を異常値と呼びます。
この外れ値が、異常値であるのか、そうではないのかを判断することが、AIモデリングにおいてはとても重要になってきます。
異常値の場合は実際あるべき姿のデータと異なるデータのため、必ず前処理で対処する必要があります。

しかし、「実際に大きく外れている」場合は少し注意が必要です。「実際に大きく外れている」場合は「なぜ大きく外れているのか」を突き止めることによって、AIが外れ値を予測できるケースがあるからです。しかし、一般的にはこの予測は難しく、外れ値の削除や、修正する場合が多いです。大事なのは「なぜ大きく外れているのか」をしっかりと把握することであり、この考察を行わない限り、外れ値を削除・修正してよいものか判断がつきません。分析する際は外れ値検出の手法や可視化を活用し、外れ値を見つけ、理由を考察していきましょう。

まとめ

今回は「前処理とは一体何者なのか」、「何を行っているのか」をお話しいたしました。ご紹介した内容以外にもデータの状態によって実行しなければならない前処理はたくさん存在します。
現代は前処理を簡単に行うツールなどが出てきていますが、「データの生成プロセスの知識」、「分析対象の業界知識」、「分析手法や前処理手法の知識・実装力」の3つを持ち合わせていなければ価値はありません。
保有データに対し、どのような前処理が必要であるかを確認することで、スムーズにデータ活用ができる状態にしていきましょう!

何かご不明点がございましたら、お気軽にお問い合わせください
最後までご覧いただきありがとうございました。

データサイエンス基礎講座

過去80社以上の企業様のご参加、90%以上のご参加者様が満足(アンケート結果より)の実績。
半日集中セッションで基礎から体験までフルセットで学べる入門編として、データサイエンス基礎講座を毎月開催しております。

開催日・詳細を見る

WRITER
Takahito Hori

データサイエンティスト

堀 貴仁Takahito Hori

複数業界にてAI活用プロジェクトのデータアナリティクス、データサイエンスを担当。大手飲食店様・不動産会社様のAIモデル構築実績あり。

最新記事

ページTOPへ