【後編】テレワークの今、考えたいダイバーシティコミュニケーション~聴覚障がいと課題

このエントリーをはてなブックマークに追加

本記事は、「聴覚障がいとオンラインコミュニケーション」をテーマに、近年様々な場面での活用が進んでいる「音声認識AI」による自動字幕システムが、テレワークやオンライン授業を受けている聴覚障がいなどを持つ方のサポートができるのか、導入にあたっての課題等を踏まえながら前後編にわたってご紹介する内容です。

後編では、「音声をテキスト化するソリューションと活用事例」と、「音声認識AIと現場導入の課題」について考えたいと思います。

前編はこちら

音声をテキスト化するソリューションと活用事例

音声を認識しテキスト化する技術は以前から存在していましたが、最近では技術もかなり向上し、様々な場面で活用されるようになりました。

身近な例でいうと、iPhoneなどに実装されている「Siri」や、Amazonが開発した「Alexa」などが挙げられます。他にも病院での電子カルテの音声入力や、TVの字幕の自動作成、議事録の自動作成などの目的での活用も進んでいます。

では、実際に聴覚障がいなどの方のオンラインコミュニケーション課題を解決できそうなソリューションは、存在するのでしょうか。
調べてみると、次のような取り組みやサービスが見受けられました。

事例1:AmiVoice® ScribeAssist

難聴者のテレワーク会議を音声認識でサポート「AmiVoice® ScribeAssist」に新機能搭載
リアルタイムで会議を見やすく文字化

こちらは、議事録作成などの文字起こしを支援する「AmiVoice ScribeAssist」を、聴覚にハンデのある方に配慮し、大きい文字サイズ、カラーユニバーサルデザインに配慮した黒背景、白文字を採用するなどの新たな機能を搭載した、という取り組みです。

これにより、ビデオ会議などへの参加が難しかった聴覚障がいの方でも、オンライン上でのコミュニケーションが取りやすくなることが期待できそうです。

事例2:ToScLive™

オンライン授業向けのリアルタイム音声自動字幕システムToScLive™を開発
-高精度な字幕化により、聞き逃しの防止・授業の振り返りを容易に実現、ウィズ・アフターコロナの社会の学校教育をサポート-

こちらは教育機関向けにリリースされたものではありますが、オンライン授業の内容を音声認識し、リアルタイムで字幕表示してくれるというソリューションです。「えー」「あのー」といった発言を検知し、字幕上の表示を薄くすることもできるそうです。

「ToScLive™」は、東芝が2019年に公表した「会議・講演向け音声自動字幕システム」がもとになっており、利用を教育現場まで拡大させた新たな取り組みと言えるでしょう。

既に慶應義塾大学と法政大学において実証実験を行っているそうで、利用現場の拡大が期待できます。

 

事例3:UDトーク

UDトーク

あまり聞き馴染みがないかもしれませんが、こちらは多くの教育機関や法人で導入されているソリューションです。アプリなので、スマートフォン上でも気軽に利用することができ、無料でも利用が可能です。

私自身もノートテイクボランティアの活動で利用したことがありますが、想像以上に精度が高く、また誤認識についてもリアルタイムで修正することができるため、非常に便利であると感じました。

音声認識エンジンには「AmiVoice Cloud」が使用されており、専門用語などは事前に単語登録などをすることで、誤認識を減らすことができます。

UDトークは元々、開発者である青木氏が聴覚障がいのある方から音声認識で会話を文字化できるアプリが欲しいという提案を受けたことをきっかけに開発に着手したことが明らかにされています。

UDトークの「UD」が「ユニバーサルデザイン」を意味していることからも、聴覚障がいだけでなく、様々なハンデを持つ方のコミュニケーションをサポートすることをコンセプトにされていることが読み取れます。

利用イメージ
UDトーク
 

補足事例:「FUJITSU Software LiveTalk」

FUJITSU Software LiveTalk powered by Zinrai

富士通グループ内でも、聴覚障がいの方や他言語の方とのコミュニケーションをサポートするサービスが存在します。

こちらは、音声認識エンジンに「AmiVoice Cloud」を使用しており、また「Microsoft Azure Cognitive Services Bing Speech API」という多言語音声認識エンジンを使用することで多言語翻訳システムとしても活用することができます。そのため、海外の方とのビデオ会議などでもリアルタイムでの翻訳・テキスト化が可能で、聴覚障がいの方とのコミュニケーションだけでなく、グローバルコミュニケーションが必要な現場でも導入されています。

  

このように、聴覚障がいなどの方のオンラインコミュニケーション課題を解決できそうなソリューションの開発や導入は、徐々に進んでいるように感じます。

ですが、教育機関を中心とした導入は進んでいるものの、冒頭で挙げたような聴覚障がいの方の「業務」をサポートする目的での音声認識AIや自動字幕システムの活用は少ないですし、事例も少ないように感じました。

では、なぜこうした取り組みはなかなか広がらなかったり、うまく現場で活用されなかったりするのでしょうか。
その理由として、私は主に次の2点があると考えます。

音声認識AIと現場導入の課題

精度問題と周囲のポートや配慮の不足

まず挙げられるのは、音声認識の精度の問題と周囲による配慮不足についてです。
AIの精度問題については様々な議論がなされていますが、音声認識AIについても例外ではありません。

この精度の問題について、UDトークの公式サイトでは次のように言及されています。

まず音声認識の精度がどうやって向上をしているか?ということですが、これは無料のアプリを使っていただいてる皆さんに音声データの収集にご協力をいただいていて、それを元に精度が向上しています。つまり「多数派」で精度があがります。男性女性の割合であったり、地域の割合だったり、年齢だったり、そういった要素が統計上現れてきます。
つまり集まりにくい音声データのカテゴリが認識率が低いカテゴリとなります。

先述の通り、音声認識は様々な音声をデータとして集め、それをもとに入力した音声をテキスト化しています。そのため、入力された音声がデータベースの中にあまりない傾向の音声だと、誤認識が増えてしまうということです。
つまり、人によってはうまく認識されない場合もあるため、誤認識を減らしスムーズな会話をするためには、事前に単語を登録したり人の手で誤認識を修正してサポートしたりすることが必要です。

また、当たり前ではありますが、早口で話したり小さい声で話したりするなど、音声認識されにくい話し方をすればもちろん精度は下がってしまいます。
そのため、会議などの場で音声認識AIを導入する場合、周囲の人が機械が認識しやすいよう配慮した話し方をする必要があります。

ですが、こういった周囲の方による単語の登録や誤認識の修正などのサポートや、話し方への配慮などが不足していることが、支援ツールの現場での活用を阻んでいる可能性があります。

実際に、聴覚障がいを持つ方からは次のような意見が挙げられています。

  • 会議で複数の人が同時に発言してしまうと音声認識ツールに反映されず、内容が分からなくなる
  • 様々な支援機器があり、職場で提供されるが、それを利用するための配慮の教育や研修が同僚や上司に対して実施されていない
  • 音声認識ソフトは誤変換もあり、話者が早口になると認識ができない。ゆっくり話してとお願いし、最初の内はゆっくり話してくれるが途中から結局早口になりついていけなくなる

このように、実際の現場では支援ツールは導入されているものの、周囲の方が複数人同時に発言したり、早口になったりしてしまうことで音声がうまく認識されず、だんだんと会話についていけなくなってしまうことがわかります。
また、ツールはあるものの、利用にあたって必要な配慮やサポートが周知されていないこともあるようです。

私はUDトークを実際に使用したことがあると述べましたが、誤認識は一定数発生しますし、誤認識した部分はその都度手打ちで修正して授業内容を通訳していました。
また、定期的にノートテイク講習会があり、ボランティアの通訳技術の向上に向けた研修もありました。

しかし、企業においてはノートテイクボランティアのようにサポートに徹する専門の方はいません。周りの同僚の方が会議に参加しつつ、誤認識を修正するなどしてフォローする方法がスタンダードかと思います。ですが、常にサポートすることはなかなか難しいですし、人材の確保といった面でも苦慮されることも多いかと思います。
また、支援ツールの導入はしているものの、それを利用するにあたって必要な周囲の方によるサポートや配慮について、社内で研修会を開くなどの活動はなされていない場合も多いのではないでしょうか。

利用者が相対的に少ないためビジネス化できない&現場導入に至らない

もう1点は、利用者が相対的に少ないため、ビジネス化に至らない、あるいは現場の導入に至らない、という課題です。

18歳以上の聴覚障がいの方の人口は、2016年時点で34.1万人で、障がいでなくても聞こえに困っている人の人口は推計で1400万人以上であるといわれています。

ですが、やはりマイノリティであることには変わりません。そのため、ビジネスとしての利益が出にくく、開発に取り掛かる企業も少ないことが考えられます。この「ビジネスとして成立しにくいため開発できない」という課題は音声認識AIに限らず、様々な業態に当てはまります。
(そう考えると、聴覚障がいの方への支援を目的に開発され、様々な教育機関や法人で導入されており、低価格で利用できる「UDトーク」は特殊な例なのかもしれません。)

また、聴覚にハンデのある方が企業に入社しても、その数が少なかったりすることで企業全体としての導入にはつながらない、といったケースもあるのではないでしょうか。
そもそも、聴覚障がいのある方へのサポートがあるとわかっている企業しか選択することができない、という可能性もあります。

教育機関で導入が進み、企業ではなかなか進まないというのはこういった背景があるのではないでしょうか。

おわりに

今回は、近年様々な場面での活用が進んでいる「音声認識AI」による自動字幕システムが、テレワークやオンライン授業を受けている聴覚障がいなどを持つ方のサポートができるのか、導入にあたっての課題等を踏まえながら考えてみました。

結論としては、音声認識AIによる自動字幕システムはオンライン授業などでの活用が進んでいるように、ビデオ会議のようなビジネスの場でも十分活用できることが期待できるが、そもそもビジネスとして成立しにくいのでサービスが少ないマイノリティであるため導入に至らない導入されていても他の社員に必要なサポートや配慮が周知されていない、ということが、現場での活用が広まらない理由として挙げられました。

では、どうすればこうしたコミュニケーション課題への活用が広まるのでしょうか。この点に関しては様々な議論があるかと思いますが、ビジネス化に至らないという課題については、事例1や事例2のように既存のサービスをベースに、新たな機能や新たな活用法の1つとしてサービス化することができるのではないかと感じました。
また、周囲のサポートや配慮が不足しているという課題やマイノリティであるが故に導入に至らないという課題については、まずは聴覚障がいの方のようにオンラインコミュニケーションに課題がある方がいるという事実や、UDトークのようなサービスによるサポート方法があるということ、音声認識技術を利用する際は周囲による話し方などの配慮やサポートが重要であることなどを、より多くの方に知ってもらうことが大切です。この記事がそのきっかけになれば幸いです。

まだまだ終わりが見えないコロナ禍の中、聴覚などにハンデがある方が少しでも働きやすい、学びやすい環境で日々を過ごせるよう、今一度考える必要があるのではないでしょうか。

【参考サイト】

【無料ウェビナーのお知らせ】
「AI導入が進まない」「時間ばかりかかって実利用に至らない」方に最適なウェビナーを企画しました

事業会社がAIを導入するには、現場も経営層が一体となるとが重要ですが、「現場に納得してもらえず対立」「経営層に伝わらない」など、うまくいかないケースも。
その解決策として、「最初に皆で画面を作って、現場適用後の使用イメージを共有すると何が起きるのか?」を詳しくお伝えします。

<ウェビナータイトル>
AIは "使われ方" から逆算する~真っ先に実施すべきは画面設計~
<プログラム>
1.経営も現場もAIプロジェクトで皆が同じ方向を向くには
2.画面を作る時のポイント、操作フロー
3.画面を作るとどう変わるか?(before -> after)

日時:2021年4月22日(木) 13:15~14:15
参加方法:Zoomで参加(参加費無料)

お申し込みはこちら

WRITER
アバター

Mana Osada

長田   真奈 Mana Osada

SNSで最新情報を発信しています

最新記事

ページTOPへ