【前編】企業が陥りやすいデータの3大課題とは?AI活用前に必ずやるべき「データアセスメント」のご紹介

このエントリーをはてなブックマークに追加

こんにちは。データデザイン部でディレクターを担当しております、八木です。

お客様の課題にあわせ、AIを用いたデータ分析や、予測を行うための学習済みモデルの開発のご支援をしております。年間多くのお客様からAI・データ活用に関するご相談いただきますが、中には、プロジェクトを立ち上げる前に終息したり、スタートできるまでに半年以上時間を要するケースもあります。その最大の要因は、データの準備不足です。

AIプロジェクトを開始するためには、AI活用に適した形でデータが揃っていることが大前提ですが、この大前提ができていないケースが多い印象があります。

今回は、前編・後編の2回にわたり、企業が陥りやすいデータの課題と、AI活用の実現可能性を評価する「データアセスメントレポート」についてご紹介します。

目次 ー 前編

  • 1:陥りやすいデータの3大課題
  • 2:課題1「データが整理できていない」状態とは?
  • 3:課題2「データが汚い」状態とは?
  • 4:課題3「データが足りない」状態とは?
  • 5:まとめ

1:陥りやすいデータの3大課題とは?

これまでに、多くの企業の生データを見させていただきましたが、よくあるデータの課題は「整理できていない」「汚い」「足りない」です。弊社ではこの3点を「データの3大課題」と呼んでいます。
 
 

2:課題1 -「データが整理できていない」状態とは?

1つ目のよくある課題は、「データが整理できていない」です。
例えば、DB定義書がきちんと更新されていない、そもそも存在しないケースや、主キーとなるようなコードがなく、複数のデータを結合して使うことができない状態がこれに該当します。

DB定義書とは、データベースを構築する上で重要な設計書です。カラムの名称や意味、データの型、長さ(バイト)、データ入力の制約、データ同士の結合情報等が記載されています。
DB定義書がないと、テーブル間やデータ間の整合性が失われてしまったり、データに関する意識合わせが困難になり、データの準備に必要以上に時間がかかる場合があります。

主キーとなるコードがないと、複数のデータを結合して使うことができません。業務の実績データに対し、複数のマスターデータが存在する場合、データを結合して分析を行います。しかし、主キーとなるようなコードがユニークで管理されていなかったり、そもそも主キー自体が存在しないような管理状態では、複数のデータを結び付けることができず、AI活用自体が難しくなる場合もあります。

3:課題2 -「データが汚い」状態とは?

2つ目のよくある課題は、「データが汚い」です。
例えば、データのフォーマットがバラバラな状態や、データの重複が多かったり、データの内容自体に偏りがある状態がこれに該当します。

データフォーマットがバラバラになる理由としては、統一フォーマットを作らずに、各部門で異なるフォーマットでデータを管理している場合に陥りやすいです。せっかくデータを溜めていても、フォーマットが異なると、前処理に時間がかかったり、データ項目の定義が異なると、AI活用には使えない場合もあります。

データの重複は、人手で入力しているデータに起きやすく、データ入力の運用方法や、データの取得・蓄積方法に課題がある場合に起こりやすいケースです。

データの偏りは、予測したい内容を含むデータが少ないケースです。例えば、機械の故障を予測したいのに正常稼働時のデータしかないケースや、都心の不動産を査定したいのに大半が地方の売買履歴データ、といったケースがこれに該当します。

なお、データの重複は、データの前処理でカバーできることもありますが、重複している量が極端に多いと、使えるデータが足りなくなる場合もあります。

4:課題3 -「データが足りない」状態とは?

3つ目のよくある課題は、「データが足りない」です。
例えば、分析に必要なデータ項目が取得できていないデータの欠損が多くデータの量が足りないといったケースがこれに該当します。

データ項目に課題があるケースとしては、例えばECサイトにおける適切な在庫管理のために、日次の受注量を予測したいのに、出荷量のデータしか取得ができていない場合などです。

データの欠損は、その名の通り、あるべきデータがない状態です。特定の項目に対して欠損があるケースや、データ項目関係なく、部分的に欠損している場合もあります。人手で入力するようなデータの場合、任意項目になっていたり、入力ルールが現場に委ねられている場合に多く発生します。
この場合、一見データ量が十分あるように見えても、欠損を省いてみると使えるデータが実は少なかった…というような事態に陥ります。

5:まとめ

今回は、「企業が陥りやすいデータの3大課題」について解説いたしました。ご紹介した各種課題は、特に、業務オペレーションの結果として蓄積されているデータの場合に、非常に多く発生します。

データ取得の方法や、管理・運用方法から見直す必要がありますが、まずは、今の「データの状態」をきちんと把握することが重要です。またAI活用においては、AI活用に適した状態かどうかを確認することに意味があります。

弊社では、このようなAI活用の課題に対し、データの事前診断サービスデータアセスメントレポート」を提供しています。次回後編では、データアセスメントレポートの内容についてご説明いたします。

サラリーマンのためのデータサイエンス基礎講座

半日集中型でビジネスパーソンに最適なエッセンスが凝縮されています。
全体像からハンズオンまで網羅した充実カリキュラムは、ご参加者様から毎月大変ご好評いただいてます。

詳しくはこちら

WRITER
Risa Yagi

ディレクター

八木 梨佐Risa Yagi

不動産、放送事業者等、複数のAI・データ活用のディレクターを担当。 WEBサービスのPMや、経営戦略推進などの経験を活かし、お客様のAI活用のプランニングからプロジェクト推進を支援。

最新記事

ページTOPへ