【後編】画像認識分野の事例を知り、技術の使われ方を理解する!アプローチを検討する際の勘所とは?

このエントリーをはてなブックマークに追加

皆さん、こんにちは。データディレクターを担当している林です。
今回は、「【前編】画像認識分野で使われる技術とは?代表的なアプローチを6つご紹介」の後編です。
本記事では、技術の選択をどういった観点で行うのか、事例をもとにご紹介していきます。

画像認識における技術選択の方法

どういった技術を組み合わせるかは、ずばり「開発にかけられるコスト」「どこまでをAIに任せるか(=どこまでを運用でカバーできるか)」のバランスで決まります。

AIモデルの評価軸として「ロバスト性(頑健性)」という考え方があります。
多様なデータに対しても正しい予測ができることを「ロバスト性が高い」と表現します。
例えば、売上予測のAIモデルを作ったときに、災害などイレギュラーな状況に陥り売上が急激に下がったとします。
こういった外れ値的な状況におかれたとしても、ある程度は正しい予測ができるようにしておく必要があるということです。

特に画像認識においては、対象物の形状や、撮影時のシチュエーション(照明や天気)などで入力となるデータの性質が大きく変わるため、ロバスト性の高いモデルを作ることが重要になってきます。

しかし、いかなる外れ値にも対応できるモデルを作るにはコストがかかります。
実際の開発プロジェクトでは予算の上限がありますので、画面(UI)設計を工夫することで、外れ値が発生しないような運用を行います。
言い換えると、運用の仕方に制限をつけ、どこまでをAIに任せてどこまでを人が対応するのか、の線引きを行う訳です。

本記事では3個の事例をご紹介します。
限られた予算の中で、どのようにして実運用に落とし込んでいくのか、その過程を具体例を用いてご説明していきます。

①口臭レベルを画像から判定

歯ブラシや歯磨き粉といった消費材メーカーとして有名なライオン様へご支援をした事例です。

ご参考:舌画像判定(ライオン株式会社)

舌表面に付着する「舌苔」と呼ばれる白い汚れが、口臭の原因になると言われています。
つまり、この「舌苔」の付着を舌の色をもとに計測し、口臭レベル1.2.3…といった口臭予測ができるんじゃないか、と考えたわけです。

このように画像をもとにラベルを予測する技術は「マルチラベル分類」と「物体検出」がありますが、この事例では「マルチラベル分類」を採用しています。
なぜ、マルチラベル分類をしたのか?それぞれの技術を使った場合の利用イメージをみながら、ポイントをご説明します。

まず、「マルチラベル分類」は「画像全体に対するラベル」を予測します。
言い換えると、対象物以外の余計なものを撮影してしまうと、正しく予測ができないわけです。
そのため、撮影した画像を人手でトリミングする、または初めから対象物(今回の場合、舌)のみが映るように寄りで撮影をする必要があります。

一方、「物体検出」は「画像全体のうちから対象物の領域(位置)とそのラベル」を予測します。
つまり、「マルチラベル分類」と比較すると、撮影した画像に対して、人手でトリミングをする手間が不要になります。
しかし、AIが対象物の位置を誤って抽出してしまった場合、ラベルの判定もうまくいきません。
ユーザー側で領域を指定することが、そこまで手間ではない場合は、「マルチラベル分類」の方がコストをかけず精度のいいモデルを作ることができます。

また、「マルチラベル分類」を使ったとき、なぜそのラベルを出力したのかが分からないという欠点があります。
こういった時には、「ヒートマップ」を使います。
ヒートマップを使うことで、あてずっぽうではなく、確かに舌の汚れをみて口臭リスクを判定しているかを確認することができます。

②段ボールの破損判定

飲料メーカーであるサントリーグループ様へご支援をした事例です。
※本事例は、現在進行形で実証実験を行っているものとなります。

配達物の段ボールについて、荷崩れや破損が生じた際に、廃棄基準は現場担当者での判断となります。
そうすることで、送り手と受け取り手の間で一方の納得が得られないケースや、トラブルに発展してしまうケースがあります。
こういった課題に対して、スマートフォンアプリにて段ボールの荷姿を撮影することで、出荷可否を判定させようとしました。

この事例でのポイントは、以下2点です。
1.破損の状態は画一性がなく、状況によって幅広い破損が生まれるということ。言い換えると、出荷可否の判定の際にあいまいさが生まれることがある
2.正しい判定を実施することに加えて、破損を受け入れられる説明性納得感が重要であること

出荷可否基準のあいまいさに対して、標準化された基準で判定を下すことも大事ですが、それ以上に判定結果を受け入れられる仕組みを作ることが重要でした。
そこで、この事例では「物体検出」「レコメンド」という技術を採用しています。

当初、「物体検出」のみを用いて破損種別(破れ、潰れ、膨れ、、など)と出荷可否を判定する仕組みを考えていましたが、その場合、なぜその判定になったか?の根拠が分からず、現場での説得に使えないという意見が上がりました。
ここに「レコメンド」を入れると、入力画像に対してよく似た破損をした段ボール画像と、その際どういった判定が下されたのか?を表示できるようになります。
つまり、AIによるブラックボックスな出荷判定ではなく、過去人間が下した判定を根拠とすることができるようになります。

③ドライブレコーダー映像をもとにした危険運転判断

こちらも、サントリーグループ様のうち物流機能を担うサントリーロジスティクス様へご支援した事例です。
ご参考:危険運転操作判定(サントリーロジスティクス株式会社)

元々サントリーロジスティクス様では、フォークリフトに設置したドライブレコーダー映像(以下ドラレコ映像)を定期的に点検し、危険な操作をしていないかどうかを確認する、という運用をされていました。
課題は、この点検業務に膨大な時間がかかるため、見落としが生じたり基準のばらつきが生じるということでした。
そのため、100%目視で点検をするのではなく、AIによって人が見るべきシーンを抽出し、効率的な点検ができるようになることを目標としました。

例えば、サントリーロジスティクス様が危険な操作とする項目の中に「ながら操作」というものがありました。
「ながら操作」というのは、フォークリフトの機体そのものを走行させつつ、荷物を載せるフォークの部分を上下に動かす動作を指します。

当初、「骨格検知」をすることで、手元の動きからフォークリフトの操作の状況を判断させようと考えましたが、結論我々は別のアプロ―チを採用しました。
「骨格検知」が実現できれば、手元の細かい動作や顔の向きなど細かい乗務員の動きを取れるようになりますが、以下2つの課題がありました。

1.入力となるドラレコ映像そのものが魚眼レンズのように歪んでおり、正確に骨格をとらえることが困難
2.手元の細かいレバー操作はフォークリフトの機種によって異なる。そのため、学習させるパターンが膨大になる

1については、映像をキャリブレーションすることで歪みの影響を排除することもできますが、想定している費用・期間を大幅にオーバーすることが予想されました。

2については、技術的な理由に加えて、「フォークリフトは種類によってレバー操作が異なる」というドメイン知識がなければ判断できないことでした。
つまり、技術者(=我々)だけでは判断ができないため、技術的なアプローチを検討する際には、お客様のご協力が必須だということです。

おわりに

今回、3つの事例を通して、技術選択を行う際の勘所をご紹介しました。
なお、最後にご紹介した「ドライブレコーダー映像をもとにした危険運転判断」については、サントリーロジスティクス様と共同開発したシステムをベースとしたサービスを、現在トライアル提供中です。(~2022年1月末)
ご興味のある物流事業者様がいらっしゃいましたら、ぜひ以下よりお問合せをお待ちしております!
「安全荷役AIフォークバディ」トライアル募集ページ

WRITER

Maako Hayashi

林   真亜子 Maako Hayashi

AI・データ活用のディレクターを担当。お客様のAI活用のプランニングから プロジェクト推進を支援。 JDLA Deep Learning for GENERAL 2019 #3

SNSで最新情報を発信しています

最新記事

ページTOPへ