汎用後言語生成モデルの社会的インパクト|BERTやGPT-3がもたらす未来は?

このエントリーをはてなブックマークに追加

2010年頃から高まったAIのブームも2021年、落ち着きを見せています。「現場での活用」に注目が集まり、デジタル技術やデータを網羅的に活用しようとする流れが強まり、DXがホットワードになっています。

しかし、AIのブームが落ち着く前に、着眼しなくてはいけない点があります。それは自然言語処理の発展です。自然言語処理(テキスト分析AI)の発展により。2010年代以上のブームが再来し、声高に言われてきた「AIが社会を変革する」が実現してしまう可能性もあります。

この記事では昨今、技術発展が進む自然言語処理の中でも汎用言語生成モデルの発展に注目し、社会がどのように変革し、仕事のあり方が変わるのかについて解説していきます。

自然言語処理の現在地|画像認識に置いていかれた自然言語処理

市場が拡大した画像認識と予測

まず、最初に自然言語処理が現在、どのような状態にあるのかを、社会的な視点で考えていきましょう。

2010年代に加熱したAIブームの火付け役となったのは画像認識技術でした。従来の技術では猫の画像を猫、車の画像を車と判断するには、人間が詳細なルールを記述し、それに沿った物体でなければ、その物体であると認識できませんでした。

しかし、計算機やデータベース、ネットワークの発展により、機械学習技術の中でもディープラーニングが発達し、人間が詳細にルールを記述しなくても、コンピュータが自ら特徴を把握し、物体を認識できるようになりました。

では、画像認識技術によってどのように社会は変動したのでしょうか。社会一般では顔認識の活用が拡大し、認証に使われるようになりました。また、製造業や小売業など、リアル空間で展開されるビジネスでは、異常検知や人流の把握などに活用され、コストの削減や機会の最大化に活用されています。

このようにAIの市場を盛り上げた牽引役は画像認識技術ですが、最も社会で活用が進んでいるのは予測技術でしょう。

今まで、多くの分野では人間の勘や経験に頼って売上などの計画を立てており、ベテランに依存していました。そこで時間経過とともに保存された時系列データとともに需要や売上などを予測する活用が広がりを見せています。

また、インターネットの分野ではスマートフォンの普及やWebアプリケーションの増加により、ユーザから多くのデータを取得できるようになっています。そこで、広告の効果を予測し、効果を最大化するためのプラットフォームが生まれています、

画像認識に比べ、予測は多くの分野で活用が可能なため、多くの産業分野で活用が進んでいます。

自然言語処理技術の発展

ここまで画像認識や予測の活用が進む背景を解説してきました。では、自然言語処理はどうでしょうか。

自然言語処理は従来から注目され、技術発展が進んでいます。特に活用が進んでいるのがチャットボットとの活用です。チャットボットによって大きく変化した分野はコールセンターなど顧客へのフロントに立つ分野です。

従来では、膨大な顧客を抱えている企業の場合、コールセンターの業務が逼迫していました。これにより、コールセンターの離職率が高くなってしまったり、顧客の電話の待機時間が長くなり、満足度が下がってしまうなど、多くの課題を抱えていました。

そこで単純な内容であれば、チャットスタイルで自動応答できるチャットボットが注目され、多くの企業で導入されています。

しかし、チャットボットの活用が進んでいながらも、人的な対応は0になっていません。それは、顧客が入力した文章の中の単語と、予め用意された膨大な回答例をマッチさせて回答しているため、汎用的に顧客のリクエストに対応できないからです。

チャットボット以外の分野では、膨大な量のテキストを分析する活用も見られます。例えば、SNS上の膨大なテキストデータからトレンドなどを分析したり、社内の膨大な営業資料を分析し、商談の成果UPに活用するなど、人間が処理しきれない量のテキストを分析する事例も増えています。

このように、一定の技術活用は見られますが、自然言語処理の活用はまだ未熟な段階と言えます。

テキストを分析/認識し、そこから知見を得る取り組みは多く生まれていますが、テキスト分野では、分析や認識だけではなく、生成できるかどうかが技術の活用を進める鍵になるからです。

私たち人間の多くが、普段の業務で画像を生成することは少ないですが、テキスト生成をする機会は1日に何度もあります。同僚との会話によるコミュニケーションもテキストを生み出さなくては成り立ちません。

画像認識であれば、画像を認識してどんな物体が映っているのかがわかれば、製造や警備などの分野で活用を進めることができます。しかし、テキストでは、認識するだけでなく、次のテキストを生成しなくては人間の業務を本質的に代替し、効率化することはできないのです。

以上のことからも、自然言語処理は発展を続けながらも、活用の視点では画像認識に遅れを取っているのが現状です。

汎用言語生成モデルの登場

ここまで述べてきたように、自然言語処理の活用をさらに進めるには、テキスト生成が鍵になります。そこで注目されるのが汎用言語生成モデルの登場です。

現在、英語圏を中心に急激に汎用的な言語生成モデルの開発が進んでいます。BERTやGPT-3などのモデルはその発表と同時に大きく話題になりました。

Googleが2019年に発表したBERT

BERTは2018年10月にGoogleが発表した汎用言語モデルです。Googleの検索エンジンに採用されており、2018年12月には日本語を含め世界の70言語に導入されています。正式名称は「Bidirectional Encoder Representations from Transformers」といい、変換器(Transoformers)による双方向のエンコード表現と直訳できます。翻訳や文書分類、質問応答などのさまざまなタスクにおいて当時の最高スコアを叩き出しました。

BERTの特徴はその汎用性の高さにあります。モデルの構造を修正せずとも、さまざまなタスクに応用できるBERTは、テーマに合わせた専用の再学習(ファインチューニング)をすることで精度を高められます。

一方でBERTにはいくつかの課題があります。汎用性が高い一方で、計算のパラメーターが多く、巨大なモデルになったため、学習に時間がかかったり大きなメモリが必要になるなどのデメリットが生まれます。

一般に配布されているBERTモデルでは、16個のGoogleが自社開発したTPU16台を使って学習に4日かかるといわれており、また精度を上げるためにパラメーターを増やしても逆に精度が落ちてしまうなどの複雑さもあり、扱うのが困難という課題もありました。

OpenAIが2020年に発表したGPT-3

GPT-3は2020年7月にアメリカの非営利団体 OpenAIが発表した言語モデルです。BERTと同じくTransformerの手法を使ったモデルで、OpenAIが2019年に発表したGPT-2の後継となるモデルです。

GPT-3はWikipediaやWebサイトから収集されたCommon Crawlなどの45TBにも及ぶデータを前処理した570GBのテキストデータを学習しており、このデータに対して1750億ものパラメータを持ったモデルで学習することで、かつてない巨大な言語モデルになりました。

文章生成に特化しており、簡単な指示文から、まるで人間が書いたような自然な文章やプログラムのコードの作成を自動化可能で注目が集まっています。

一方でGPT-3もBERTと同様に計算に膨大な費用や時間がかかってしまうというデメリットもあるほか、人間が当たり前のように理解している自然の摂理や生成した文章の矛盾に気づくことができないという問題もあります。さらには、膨大な学習データの中には現在では受け入れられない価値観なども含まれてる可能性があり、学習データへの依存度が高いという問題があります。

課題はありつつも、GPT-3などの技術が日本語に対応して公開されることで、日本語圏の多くのサービスがさらに発展する可能性があります。

モーダル間の情報変換も可能にする自然言語処理

2021年、Open AIは、GPT-3の仕組みをベースとした「DALL-E」と呼ばれるテキスト入力から画像を生成するトランスフォーマーを発表しました。

例えば、「アボカドの形をしたアームチェア」というテキストを入力すると、このテキストの意味に合致した画像のデータを生成して出力します。

【引用】Open AI 「DALL·E: Creating Images from Text

DALL-Eで生成された写真は入力したテキストの空間や時間、論理の概念を理解し、表現する力を持っており、多くの場面で活用の可能性があります。特にデザイナー業務を大きく代替する可能性もあるでしょう。

見出しにも書かれている「モーダル」とは、情報の種類を意味する言葉です。DALL-EのようなAIが開発されることで、「テキスト→画像」のようにモーダル間で情報を変換することが可能になり、社会の多くの画面で革新が生まれます。

同様に、モーダル間の変換では、自然言語をプログラミング言語に変換するサービスも生まれています。

Open AIはマイクロソフトとともに、GPT-3を活用して自然言語をベースとしたテキストからプログラムコードを自動生成するプロジェクトをはじめると2021年5月25日に発表しています。今後もGPT-3の発展が続けば、今人間が当たり前にこなしている知的な作業も代替可能になっていくと予想されます。

日本語圏での汎用言語モデルの動向

では、ここで汎用言語モデルの日本語圏での動向をお伝えします。

LINEは、2020年11月25日、NAVERと共同で世界で初となる日本語に特化した超巨大言語モデルを開発すると発表しました。100億ページ以上の日本語データを学習させ、1750億以上のパラメータを持ち、日本語圏での自然言語処理分野で大きく技術向上が予想されます。同社は、超巨大言語モデルの開発を発表して以来、特に大きなリリースをしていませんが、今後は同社のサービスへの活用のほか、第三者へのサービス提供も考えられます。

東京大学松尾研発・AIスタートアップのELYZAは国内最大の日本語AIエンジン「ELYZA Brain」を開発・提供しています。文章の作成支援だけでなく、高精度な対話システム、大量の文章からの情報抽出などの多くの分野で活用可能です。

rinnaは2021年8月25日、日本語に特化し、GPT-2とBERTの事前学習モデルを、その学習を再現するためのソースコードをGitHubなどに公開したと発表しました。学習データとして、日本語CC-100とWikipediaのオープンソースデータ計75GBを使用しており、45日感をかけて学習させています。これにより十分な汎用性を獲得し、利用者の目的に沿って多様なタスクに対応可能です。

汎用言語モデルは社会にどのようなインパクトを与えるか|私たちは「自然言語」を通してほとんどの仕事をしている

ここまでは自然言語処理技術の動向だけでなく、汎用言語モデルの世界的な動向を振り返ってきました。

では、汎用言語モデルは社会にどのようなインパクトを与えるのでしょうか。簡単に言えば、第3次AIブームを超える注目が集まり、社会のあらゆる仕事のあり方が変革するでしょう。

そもそも、私たちはメールや資料の作成、商談など、テキスト(自然言語)なしに仕事を進めることができません。また、当たり前のことですが人間が2人以上いる職場であれば会話も必ず生まれます。

今まで、仕事で使われる人間の自然言語処理は、チャットボットなど部分的にしか代替できませんでした。しかし、GPT-3規模で、なおかつさらに軽量化した日本語版モデルが生まれれば私たちの仕事のあり方は根底から変化していくでしょう。

例えば、以下のような活用が挙げられます。

 

  • メールへの自動返信
  • 営業資料の自動生成
  • 人間が一切介在しない顧客対応
  • 会議の議事録作成、要約

簡単に言えば、一人ひとりに秘書がつくような未来が訪れるといえます。特にVUI(Voice User Interface)を活用して声でサービスを操作できるようになれば、人間はタイピングからも開放され、社長のように意思決定をし、方向性を決める重要性が高まっていきます。

なお、今後の仕事がどのように変化していくのか。こちらの記事で詳しく紹介しています。ぜひご覧ください。

WRITER

  

  Ken AI/DX専門ライター「Ken」

AIやDXなどが専門のライター。累計執筆数500本以上。 「曖昧な技術を具体的に」を心がけ、トレンドに合わせてさまざまな視点から発信します。フリーのフォトグラファーも。

SNSで最新情報を発信しています

最新記事

ページTOPへ