【前編】テレワークの今、考えたいダイバーシティコミュニケーション~聴覚障がいと課題

このエントリーをはてなブックマークに追加

コロナ禍におけるオンラインコミュニケーションの“やりづらさ”

新型コロナウイルス感染症の世界的な流行によって多くの企業でテレワークが進み、教育機関でもオンライン授業の導入が進むなど、様々な場面において「オンライン化」が浸透した2020年。

そうした中、“オンライン上のみ”で行われるコミュニケーションについて、様々な課題が浮き彫りになってきました。
例えば、同僚と気軽なコミュニケーションが取れなかったり、直接指導ができないため後輩のマネジメントがうまくいかなかったり…
ビデオ会議やオンライン授業でも、他人の声が聞き取りづらかったり画面がフリーズしたりするなど、スムーズなコミュニケーションを行うにはまだまだ壁が多いかと思います。

※テレワークにおける“やりづらさ“に言及した記事もございますので、こちらも併せてご覧ください。

withコロナでのフルリモート勤務のつらみ(前編)〜ニューノーマルでのテレワークのコツはゆるゆるの会話にあった〜

withコロナでのフルリモート勤務のつらみ(後編)〜ニューノーマルでのテレワークのコツはゆるゆるの会話にあった〜

一方、こうしたオンラインコミュニケーションの課題の中であまり注目されていないものがあります。
それは、聴覚障がいなどを持つ方がビデオ会議のようなインタラクティブな場面にうまく参加できず、業務や学習に支障をきたしているという課題です。

今回はこちらをテーマに、前後編にわたって近年様々な場面での活用が進んでいる「音声認識AI」による自動字幕システムが、テレワークやオンライン授業を受けている聴覚障がいなどを持つ方のサポートができるのか、導入にあたっての課題等を踏まえながら考えたいと思います。

前編では、「聴覚障がいの方のコミュニケーション課題」「音声認識に使われている技術とは何か」についてご紹介します。

後編はこちら

聴覚障がいとオンラインコミュニケーションの課題とは?

そもそも聴覚障がいを持つ方は、普段どのようにコミュニケーションを行っているのでしょうか。

一口に聴覚障がいといっても、聞こえる程度は人によって様々なので一概には言えませんが、主に読話、手話、筆談、補聴器などを活用してコミュニケーションを取っています。

読話というのは相手の唇の動きや表情から話の内容を把握する方法ですが、このコロナ禍においては多くの人がマスクをしているため、唇の動きや表情を見ることができず、会話の内容を把握することが難しいという現状があります。
また、ビデオ会議においても唇の動きを読み取れるほど画像が鮮明でなかったり、動きがスムーズでないことも多いため、会議に参加するのは難しいと感じているということが障がいのある方を対象に行われたこちらの調査でも明らかにされています。

このように聴覚に障がいがある方の場合、オンライン上のみでのコミュニケーションでは様々な壁が存在していることがわかります。

一方で、こうした障がいのある方を支援する活動も存在します。
私は以前、大学で「ノートテイクボランティア」という活動を行っていました。
ノートテイクボランティアとは、聴覚や四肢障がいなど、授業を受けるのに支障がある方の代わりに板書や授業内容をメモしてその場で通訳する、学習支援の活動です。
現在、様々な大学でオンライン授業が実施されていますが、ノートテイクボランティアも変わりなく実施されており、中には音声認識AIを活用して授業内容をリアルタイムでテキスト化し、誤認識された部分をボランティアが修正しながら授業を受けてもらう、という活動も導入されています。

このように大学等の教育機関では、音声認識AIによる自動字幕システムを活用し、オンライン上でのコミュニケーションにおいてもハンデのある方への影響が少なくなるよう、対応策がとられている場合もあります。

では、そもそも音声認識AIにはどのような技術が用いられているのでしょうか。
まずは音声をテキスト化する技術についてご紹介したいと思います。

音声をテキスト化~用いられている技術とは?

「音声を認識する」ことは多くの人間にとっては当たり前かもしれません。しかし、声の高さやイントネーションなど声質は人によって非常に多様なため、コンピューターが人間の音声を正しく認識することは想像以上に難しいです。

では、どのようにコンピューターに音声を認識させ、テキスト化するのでしょうか。
音声をテキスト化する仕組みについて、高性能な音声認識技術で著名な「AmiVoice」では、次のように紹介されています。

以下、この仕組みについて詳細にまとめられていたサイトの内容を援用しつつ、説明したいと思います。

音声認識技術では、まず入力された音声データの音の強弱や周波数といった特徴量を抽出し、コンピューターが認識しやすい形にデータを整形するところから行います。この作業は「音響分析」と呼ばれ、以下のようなイメージで行われています。

次に、音響分析で抽出した音声の特徴量を、どの記号(音素モデル)に近いのか照合し整合率を計算する、「音響モデル」という処理が行われます。

出典:「音声認識の仕組み

さらに、日本語テキストを多く集めて統計処理をした「言語モデル」を使い、文字列や単語のつながりが日本語として適切かを評価し、正しい文章になるように処理します。

出典:「音声認識の仕組み

そして、言語モデルの単語と音響モデルを結びつけるために使われるのが、「発音辞書」です。音素ごとにモデル化されたデータ(音素音響モデル)を、発音辞書を元に音の組み合わせを照合し、「単語」として認識させます。
例えば「A-R-I-G-A-T-O-U」を「A-RI-GA-TO-U」といった形で言語モデルの単語と音響モデルを結びつける処理を行います。

以上が、音声認識技術の仕組みです。
プロセスとしては、「音響分析」を行い、コンピューターが認識しやすい形にデータを変換した上で、「音響モデル、言語モデル、発音辞書」の処理を行い、より正確な形でテキスト化するという流れになります。

そして、こうした一連のプロセスをディープラーニングで1つの「ニューラルネットワークモデル」で実装することで、膨大な予測や処理を行うことが可能になり、音声認識技術の飛躍的な向上が実現されています。

音声をテキスト化する「音声認識AI」の具体的な仕組みについては以上となります。

では、こうした技術は冒頭で挙げたような、聴覚障がいの方がオンラインコミュニケーションなどで感じている“やりづらさ”を解消する手段にはなるのでしょうか。
そこで、音声認識AIの活用事例と、聴覚障がいの方が抱える課題を解決してくれるようなサービスはあるのか、調べてみました。

後編では、「音声をテキスト化するソリューションと活用事例」と、「音声認識の精度と現場導入の課題」についてご紹介したいと思います。

【参考サイト】

【お知らせ】
AI活用の経済効果に関するebookをご提供します

データやAIの活用において「やってみないとわからないこと」が多い一方、ビジネスに活用する以上、どのような効果が見込めるのか検討した上で取り組みたいのも当然です。

そこで今回、AIを活用した際の費用対効果に関するebookをご用意しました。無料でダウンロードできるのでぜひご活用ください。

ebookダウンロードはこちら

WRITER
アバター

Mana Osada

長田   真奈 Mana Osada

SNSで最新情報を発信しています

最新記事

ページTOPへ