これから、データの「価値」の話をしよう~前編:データの歴史と収集のススメ~

このエントリーをはてなブックマークに追加

こんにちは、データデザイン部でディレクター兼プランナーをしております加藤です。

普段はお客様の事業課題に合わせ、AI・データ活用を軸に課題解決プロジェクトを推進したり、自社の新規サービスを企画、推進したりしています。

今回は、データの「価値」の話を前編:データの歴史と収集のススメ、後編:データ収集方法と活用の勘所、の2部構成でお届けいたします。
私の実案件からみえてきましたデータの「価値」について知っていただくことで、少しでも皆さまのデータ活用の助けになれば幸いです。

そもそもデータとは?

定義

そもそも、「データ」とはどういった意味なのでしょうか?Wikipediaによると、データの定義は以下となっています。

事実資料をさす言葉。言語的には複数形であるため、厳密には複数の事象や数値の集まりのことを指し、単数形は datum(データム)である。

[出典]Wikipedia「データ」より引用

上記のように、当たり前ですが定義は広いです。もう少し解像度を上げてみましょう。国際標準化機構の「ISO/IEC 2382-1」および日本工業規格の「X0001 情報処理用語-基本用語」では以下のように定義されているようです。

“A reinterpretable representation of information in a formalized manner suitable for communication, interpretation, or processing.”「情報の表現であって、伝達、解釈または処理に適するように形式化され、再度情報として解釈できるもの」

[出典]Wikipedia「データ」より引用

上記でも正直よくわかりません。私がこれからお話するのは、以下「電子データ」のことだと思ってください。

電子データは、コンピュータ内にあるか、コンピュータに取り込める形になったデータである。例えば、単なる印刷物上の文字データと区別して、文字コードに変換された文字データ、単なる印刷物上の画像データと区別して、ビットマップデータやJPEG方式の画像に変換された画像データなどをいう。

[出典]Wikipedia「データ」より引用

これから私がお話するのは、コンピュータに取り込める形になっているデータです。印刷物など実態を伴うものではない点、ご了承ください。

歴史とこれから

では、歴史的にデータはいつ頃から生まれたのでしょうか?諸説ありますが、「人の歴史はデータの歴史:インフォグラフィックで読み解くデータの歴史」によると、最初に電子データが保存されたのは、1858年の「磁気テープフォーマット」の登場によるものだと言われています。我々現代人が誕生したといわれる20万年前(出典:wikipedia「人類の誕生」より)と比べると歴史が浅いことがわかります。

いうまでもなく、これからデータは増え続けるでしょう。調査会社IDCによると、世界のデータ量は、2017年の23ゼタバイトから2025年には175ゼタバイトにまでなると言われています。この数がどれだけ大きいのか、ピンとこない人も多いのではないでしょうか。参考までに、日本語の単位でいうと1ゼタバイトは10垓(がい)バイトにです。垓は、億、兆、京の次の単位です。初めて知る人がほとんどではないでしょうか。

IDC

【出典】ZDnet
Japan「2025年には世界で生成されるデータの約30%がリアルタイムデータに–IDC」
より引用

わずか数百年の間で誕生したデータですが、その数は今後もとどまることなく増加していくでしょう。

 

データの「質」の重要性

データ分析は前処理が8割

ここからが本題です。近年増え続けるデータですが、データ活用の支援をしている我々にとって、活用でもっとも重要だと思うのがデータ「質」です。例えば、膨大なデータ(レコード)はあるけれども欠損があちらこちらにあったり、データそのものの意味がわからない状態では活用しようにも手がつけられません。このようなデータを活用できる形に整理・追加・加工する、つまりデータの「質」を向上させるのが、データサイエンティストの役割とも言われています。こちらについては弊社のデータサイエンティストが語っている記事がありますので、そちらをご覧ください。

「8割がデータの前処理!データサイエンティストの仕事内容について、富士通クラウドテクノロジーズを取材」

データ収集のススメ

そもそもデータがない場合はどうすればよいか?

データの「質」(前処理)が大事というのは、いろんなデータ分析系の記事でご覧になられた方も多いのではないでしょうか?その上でよく頂戴する相談で多いのは、そもそもデータがなかったり(少なかったり)、データあるけど社外に持ち出し不可だったり、どれが活用できるのかわからなかったり、、という内容のものです。

データがないなら新規に取得しよう!

では、どうすればよいか。至ってシンプルで、新規に取得するしかないと思っています。

例えば、弊社のクライアントであるライオン様(ご支援の詳細はこちら「ライオン株式会社の新サービスにて、AIを活用したアルゴリズム開発に協力」)は以下のように考え、新規にデータを取得しました。

  • 「舌苔(舌の白い部分)の色が口臭に関係することは、過去の研究からわかっていました。そこで、スマートフォンのカメラで撮影した舌の色味をスコアリングし、実際に測定した口臭をプロットしてみると、相関関係があったんです。ですが、スマートフォンの機種や光環境によって判定結果にばらつきが出てしまいました。測定環境が変わると、同じ基準で口臭判定ができないのです。ただ、自身が画像を見れば、ある程度の口臭判定ができるようになっていました。そこから、AIが使えるのではと思いついたんです」
    (ライオンご担当者様コメント)

つまり、実現したいことに合わせてデータを収集し、適切にラベリングを実施することで活用しうるデータになります。
・・・?
となりますよね?こちらついては後編、活用編でお話したいと思います。

まとめ

いかがでしたでしょうか?今回はデータの「価値」の話の前編:データの歴史と収集のススメについて説明しました。次回がメインと言っても過言ではありません。後編では、データ収集方法と活用の勘所についてご説明したいと思います。お待ちいただけますと幸いです。

9月は導入事例を語ります!データサイエンス基礎講座

データサイエンスの基礎から便利なフレームワーク、そしてデータを直接操作してAI開発を体験できるハンズオンまでを網羅した、人気の半日集中講座。
なんと9月は特別編!大東建託のご担当 宗様による企業のAIプロジェクトの進め方に関する講演があります。レアなチャンスをお見逃しなく。

データサイエンス基礎講座はこちら

資料の無料ダウンロード

貴社の事業課題に向けたAI活用の各種資料をご案内いたします。

資料請求はこちら

WRITER
Daiki Kato

ディレクター兼プランナー

加藤 大己Daiki Kato

主にメーカーやサービス業のAI・データ活用プロジェクトを複数推進。また、新規AI・データ活用サービスの企画・推進も担当。 JDLA Deep Learning for GENERAL 2017

最新記事

ページTOPへ