【前編】画像認識分野で使われる技術とは?代表的なアプローチを6つご紹介

このエントリーをはてなブックマークに追加

皆さん、こんにちは。データディレクターを担当している林です。
今回は、画像認識分野で使われる技術と、その技術を活用した事例を、前編・後編に分けてわかりやすくご紹介します。

【前編】画像認識分野で使われる技術とは?代表的なアプローチを6つご紹介 ※今回はこちら
ビジネスサイドの方に理解しやすいよう、小難しいアルゴリズム名や実装方法は割愛し、技術的手法を直感的に理解しやすいような表現でまとめます。

【後編】画像認識分野の事例を知り、技術の使われ方を理解する!アプローチを検討する際の勘所とは?
前編でご紹介した技術と課題をどう結び付けるのか、また複数の技術的アプローチがある場合、どういった観点で取捨選択をするのかをご紹介します。
事例を複数ご紹介しますので、「画像データを用いて社内の業務を効率化したい」「AIを活用した新規事業を立ち上げたい」という方にとって少しでもご参考になれば幸いです。

画像認識分野における代表的な技術

弊社で用いる代表的な技術として、以下6つがあります。

それぞれを、開発にかかる期間(=費用)、精度、汎用的かどうかという観点で評価しました。

「汎用的かどうか」というのは、例えば「画像データがこういう条件でないと使えない」といった制約があるかどうかを指します。もちろん、課題や用いるデータによってこの評価が必ずしも当てはまらないことがあること、ご承知おきください。

以下、それぞれの項目について詳細を説明していきます。

①マルチラベル分類

対象物が写っている領域を囲い、ラベルつけする作業を「アノテーション」といいますが、マルチラベル分類の場合、この領域を指定する作業が不要なため、開発にかかる期間・費用は物体検出やセグメンテーションより抑えられます。

一方で、学習させる画像データには注意が必要です。
画像全体を見てラベルを予測するため、対象物以外のものを画像に写すと、学習・予測がうまくいきません。
そこで、学習データを集める際や予測を行う際に画面に以下のようなフレームを表示させることで、正しく対象物だけを撮影するようにし、回避することも可能です。

②物体検出

指定した物体が画像内のどこの領域に存在するか、またそのラベルが何かを予測するもの技術です。この予測した領域の四角形を「バウンディングボックス」といいます。

例えば、対象物が複数映っている場合でも、それぞれを認識することができますし、バウンディングボックスの数をカウントすることで、「部品が何個あるか」などを数えることにも応用できます。
マルチラベル認識と比べると、物体の領域をアノテーションする作業が発生するため、開発にかかる工数はかかりますが、複数の対象物を一度に判定することができます。

③セグメンテーション

「物体のラベルを予測したい」「個数をカウントしたい」という課題であれば、「マルチラベル」「物体検出」で対応ができるわけですが、ではセグメンテーションでないと解決できない課題というのはどういったものでしょうか。

・複雑な形状の対象物の領域を「正確」にとらえたいパターン
物体検出はバウンディングボックス内に収める形で領域を予測するのに対し、セグメンテーションはピクセル単位で領域を予測するため、より複雑な形の対象物の形状をとらえることができます。
自動運転などが代表的な例です。街中にある様々な対象物の形状を正確に見分け、自動車が走行できる領域を把握するためにセグメンテーションが使われます。

・面積を求めたいパターン
対象物をピクセル単位でとらえることができるため、面積を計算できます。こちらの例については、後編にて事例と共にご紹介します。

便利な技術のように思えますが、ピクセル単位でアノテーションするのはとても大変です。そのため、開発にかかる期間・費用は物体検出より膨れることが多いです。

④骨格検知

例えば、「監視カメラに映る不審な人物の動きを検出したい」「指差し安全確認をきちんとしているか検出したい」といった場合に使われます。
骨格検知については、注意すべき点が2つあります。

1.画像、映像データによっては正確に検出ができない
例えば、魚眼タイプのドラレコ映像で映像がゆがんでいる場合や、監視カメラ映像であまりに人物が遠くに映っている場合などです。また、骨格検知を行う場合は、映像データの画素数、フレーム数も重要です。あまりに粗い映像ですと正しく検知ができない場合があります。

出典: https://www.yupiteru.co.jp/products/biz_dr/fdr-810/

2.商用利用の際にはライセンス費用がかかる
「open pose」のように人物の骨格を学習済のオープンなモデルがある一方で、これらを商用利用するにはライセンス費用が発生します。

ご参考: https://github.com/CMU-Perceptual-Computing-Lab/openpose#license

⑤レコメンド

弊社では、物体検出やマルチラベルで予測した結果をサポートする位置づけで使うことが多いです。

例えば、予測結果に対して、人の判断が割れる場合です。
見る人が見れば、「傷」にも見えるし、「凹み」にも見えるし、「サビ」にも見える、といった時、AIが「これは凹みです」といったからと言って現場の人は納得できるでしょうか。

そこで、ラベルの予測結果だけではなく、「撮影した対象物は「凹み」です。過去同じように「凹み」と判定された画像はこちらです」とレコメンドすることで、過去の実績に基づいた納得度の高い表示が実現できます。

レコメンドは、参考情報として有力なものである一方で、入力画像そのものの判定根拠を示しているわけではありません。
AIが何をもってその予測結果を下したのか?を見たい場合、次項で説明する「ヒートマップ」を用います。

⑥ヒートマップ

開発段階に、「本当にこの結果は正しいのか?」を確かめるために使うことが多いです。

例えば、マルチラベルで対象物が異常か正常かを認識するAIを開発する場合、このヒートマップでAIが画像のうちどこを見て「異常」「正常」といった判定(ラベル)を予測しているのかを見ます。
この時、画像のうち全く対象物とは関係のない場所を見ていれば、以下のようなブラッシュアップをしていきます。
・学習回数を増やす
・画像データが足りないため、水増しする(画像データが足りないとき、元の画像を回転、加工させることで水増しする行為を「オーグメンテーション」といいます)
・撮影の仕方に問題があるため、撮影のオペレーションを変更する

おわりに

以上、弊社にて画像を用いたAIプロジェクトを推進する際の代表的なアプローチを6つご紹介しました。

後編では、これらを用いてどういった課題が解決できるのか、具体的な事例をご紹介するとともに、技術的手法を取捨選択する際の勘所をご説明していきます。
最後までご覧いただき、ありがとうございました。ぜひ後編もご覧ください!

【無料ebookのご案内】
弊社の金岡と株式会社Legolissの加藤氏による対談記事です

企業のマーケティング活動やプロダクト開発などにおいて欠かせない”データ活用”。
やみくもにデータを利用するのではなく、正しい方法で分析しなければ、真価を発揮することはできません。

そこで今回、弊社の金岡がマーケティング領域でのデータ活用に知見のある株式会社Legolissの加藤氏をお迎えして、「企業に必要なデータ活用」をテーマにお話しさせていただき、その様子をebookにいたしました。
これからデータ活用に取り組む方や、どのように取り組めばよいか悩んでいる方はぜひお読みください。

ebookダウンロードはこちら

WRITER

Maako Hayashi

林   真亜子 Maako Hayashi

AI・データ活用のディレクターを担当。お客様のAI活用のプランニングから プロジェクト推進を支援。 JDLA Deep Learning for GENERAL 2019 #3

SNSで最新情報を発信しています

最新記事

ページTOPへ