2021年は自然言語処理が熱い3つの理由

このエントリーをはてなブックマークに追加

2021年に入りDX(デジタルトランスフォーメーション)に関するニュースや広告を目にしない日はほとんどなくなりました。さまざまな企業がDXを謳い、DXに関する書籍も多く刊行されています。

あわせて、2010年代後半からビジネスで注目を集めていたAIの技術開発の流れも大きく変動し、自然言語処理に対する注目が高まっています。

この記事では、DXへの注目が高まる中で、自然言語処理技術の注目が高い理由を解説します。

DXの流れで注目が高まる自然言語処理

自然言語処理技術の発展

2010年代にAIへの注目が大きく高まった理由の一つに自然言語処理技術の発展があります。自然言語とは、私たち人間が普段、書いたり話したりする日本語や英語のような言語のことで、プログラミング言語に比べて曖昧性が高いという特徴があります。

2011年、アメリカで人気のクイズ番組「ジョパディ!」で、IBM「Watson」が歴代チャンピオン2人に圧勝し、大きく話題になりました。最先端の自然言語解析を活用し、瞬時に回答する様子に多くの人が驚いたのです。

上記はコンピュータが人間の言語、すなわち自然言語を認識し、回答できることを証明し、AIの長い歴史の中でも大きな転換点になったでしょう。

一方で、当時のWatsonはルールベースを採用していました。膨大な文献の中から類似した言葉を検索し、その中から正解の可能性が高い回答を選択するという仕組みで、トリビア形式のクイズとの相性が良かった点も、この勝利に起因したと言えます。

画像認識の分野

それからAIの分野で大きく注目を集めたのは画像認識の分野でした。2012年、GoogleはAIを活用して猫を認識することに成功したと発表し、世界に衝撃を与えました。演算用チップ「GPU」に大きな躍進があった当時、膨大なデータを学習し、特徴を自ら捉えて判断するディープラーニングに注目が集まったのです。

従来は難しいと言われていた画像認識の分野で、ディープラーニングの可能性が広がると、ビジネスの局面でも画像認識の活用が大きく検討されます。

実際、2010年代活用が進んだディープラーニングの事例は画像認識を活用したソリューションでは、自動運転をはじめ、故障や異常の検知などが多く目立っています。

自然言語処理技術の活用

では、自然言語処理の分野に視点をずらすとどうでしょうか。実は現在、自然言語処理を活用した事例は、そのほとんどがチャットボットに集中しているのが現状です。チャットボットと言っても、あらゆる人間の言葉に回答できるわけではなく、選択肢を選んで回答まで導いたり、特定の単語に照応して回答するシステムが多く、実は人間レベルの自然言語処理技術は実現していません。

自然言語処理技術と音声認識と組み合わせ、2017年にはAIスピーカーが大きく注目され、GoogleやAmazon、国内ではLINEなどが参入し、市場を大きく拡大させますが、やはり人間のあらゆる言葉に対応できるわけではなく、IoT機器の操作や音楽の再生、天気やニュースのお知らせなど特定のタスクに偏っているのが現状です。

私たち、特にオフィスワーカーは、その業務のほとんどで自然言語を活用して仕事をしています。メールを送ったり、プレゼンテーションをしたり、会議においても自然言語が満ち溢れています。画像認識のソリューションは、AI-OCR(画像からテキストを抽出し電子データに変換する仕組み)など、分野が限られています。

2020年からのDXへの注目により、特にオフィスワークの効率化が大きく前進しました。経理やマーケティング、企画から営業まで、それぞれの分野の課題を解決するさまざまなSaaSが生まれ、徐々にオフィスワーカーの仕事が楽になっています。一方で、未だにオフィスワーカーに残されているのは自然言語を活用するタスクです。

DXの流れの中で、オフィスの業務効率化にAIを活用するには、自然言語処理技術の発展が求められ、これからさらに市場が拡大していくことが予想されます。

2021年は自然言語処理が熱い3つの理由

テキストデータの増加

テキストデータだけの量を単純に推計した調査は多くありません。

しかし、IDC Japanの予測によると全世界で発生するデータの量は、2025年には163ゼッタバイト(163兆ギガバイト)に達します。しかも、増加するデータのほとんどは、人間が作り出す非IoTデータです。

人間が作り出す非IoTデータといっても、もちろんさまざまな形式があるため、単純にテキストデータの増加だけを指し示すものではありません。

しかし、現在、私たちのコミュニケーションの発達により、テキストデータが収集しやすい環境が構築されています。

例えば、社内コミュニケーションツールでは、SlackやChatworkを活用する事例が増加してきました。また、議事録の生成ツールが発展し、今後は会議のデータのデータ化も進んでいくことが予想されます。はんこの廃止などにより、紙媒体の書類が減少し、電子化されることが増加していることも起因しています。

ペーパーロジックが実施した調査では、東京の企業の36%が2020年度予算でペーパーレスシステムの導入費用を計上したとされています。また、書類をPDF化している企業は74.7%に上ります。

今後も社内のテキストデータが増加していきます。DXの流れの中で、テキストデータの活用を検討しつつ、最終的には自然言語を活用した従業員のタスクを減少させていくことが、業務効率化の大きな前進に繋がっていくでしょう。

汎用言語モデルの進化

前述の通り、現在の自然言語処理技術の活用では、ルールベースやシナリオ(選択肢)型のチャットボットや、簡単な情報の検索などの分野にとどまっている現状があります。

一方で、研究開発の分野では、大きな技術革新が進んでいます。

2018年、Googleは汎用言語モデル「BERT」を公開しました。従来の自然言語理解のタスクの多くで最高の性能を達成し、現在はGoogle検索にも導入されています。BERTでは、事前学習と言って、まず大量のデータを学習します。その後、少量のデータを使用することで、それぞれのタスクに対応させる手法です。BERTは、複雑な文章にも対応し、正確な結果を返せる点で優位性があります。例えば、「港区で六本木以外の地区のマンションのおすすめを教えて」「オリンピックはなぜ延期になったの?」などより人間に近い対話が実現しやすくなります。

また、汎用言語モデルで衝撃を与えた代表的なのは「GPT-2」です。2019年、アメリカの非営利団体「OpenAI」は、テキスト生成モデル「GPT-2」を公開しました。800万に及ぶWebページを人間が整理し、それを学習することでさまざまな文章を生成できます。

2020年には「GPT-2」がさらに進化した「GPT-3」が発表。約45TBにおよぶ大規模なテキストデータを学習し、約1750億個のパラメータを利用して学習し、あたかも人間が書いたような文章を自動で生成することが可能になりました。

このままGPT-3の軽量化などが進めば、提案書やマニュアル、企画書を自動生成したり、メールの変異心を代理で行ってくれたり、コールセンターのオペレーターの一次受けを担うなど、ビジネスのさまざまな面で衝撃を与えることになります。

日本企業の汎用言語モデル技術への参入

英語圏での自然言語処理技術の発展の流れに、日本国内の企業も合流し、日本語圏での自然言語処理技術が大きく発展しようとしています。

2020年11月、LINEは世界初の日本語に特化した超巨大な言語モデルを開発すると発表しました。100億ページ以上の日本語データを学習データとして利用するとしていて、今後、日本語における自然言語処理技術の水準が大きく向上すると予想されています。

また、2021年4月、チャットボット「りんな」などを提供するrinnaは日本語に特化したGPT-2の言語モデルを構築し、オープンソフトウェアとして公開しました。今回、公開したモデルは中規模サイズのものですが、今後は異なるサイズのモデルの公開も予定しています。

また、NVIDIAは4月13日、GTC 2021にて、対話型AIフレームワーク「Jarvis」を提供開始すると発表しました。高精度な自動音声認識や言語理解の能力を有しており、日本語にも対応しています。

おわりに

「真のDXは自然言語処理技術の発展なしになし得ない」と言っても過言ではありません。自然言語処理が発達した未来は、言うならば私たち一人ひとりに秘書がつくような未来です。

一方で注意しなくてはなりません。自然言語処理技術をはじめとしたAIの発展は、「人間を超えた」と短絡的に考えられがちです。一方で依然として向いているタスクがあります。

自然言語処理技術が発展するこれからの数年間、いかに技術を見極め、活用することにこそ、企業の競争優位性の源泉があるといえるでしょう。

【無料ebookのご案内】
弊社の金岡と株式会社Legolissの加藤氏による対談記事です

企業のマーケティング活動やプロダクト開発などにおいて欠かせない”データ活用”。
やみくもにデータを利用するのではなく、正しい方法で分析しなければ、真価を発揮することはできません。

そこで今回、弊社の金岡がマーケティング領域でのデータ活用に知見のある株式会社Legolissの加藤氏をお迎えして、「企業に必要なデータ活用」をテーマにお話しさせていただき、その様子をebookにいたしました。
これからデータ活用に取り組む方や、どのように取り組めばよいか悩んでいる方はぜひお読みください。

ebookダウンロードはこちら

WRITER

 

  Asei AI/DX専門ライター「Asei」

AIやDXなどが専門のライター。累計執筆数500本以上。 「曖昧な技術を具体的に」を心がけ、トレンドに合わせてさまざまな視点から発信します。フリーのフォトグラファーも。

SNSで最新情報を発信しています

最新記事

ページTOPへ