自然言語処理による評判分析の実現

このエントリーをはてなブックマークに追加

はじめに

こんにちは。データデザイン部でデータサイエンティストの役割を担っている高橋です。
前回はテキストデータを活用していく上で生じる「表記ゆれ」の問題を取り上げて、実際にどんな対処をしていくのか見てみました。
今回は具体的な例を上げて、どんな技術を適用すると実現できるのか?という点をお話したいと思います。

目次

  1.  問題設定
  2. 自然言語処理の適用
  3. 係り受け解析の適用
  4. まとめ

1.問題設定

毎シーズンごとに新しい商品を世の中に売り出している企業があります。ECサイトであればシーズンごと、商品ごとにたくさんのレビューが評価点と共にお客様の手によって書かれます。SNS上にもレビューと考えられる文章がたくさん投稿されます。「前のデザインのほうが良かった」「こんな使い方をしていたのにその機能がなくなった」等あらゆる観点からレビューされていきます。商品を改良してより良いものにしていきたいと考えたときに、このレビュー文から商品企画や開発陣が想像もしてなかった観点を取り入れていく必要があります。
ただ、人手で大量に投稿されたレビューを追いかけることは現実的ではありませんし、多く目についた意見を議題に上げても定量的ではないので「反対意見もあるんでしょ?」とか「一部の人が言ってるだけでしょ。」という風になりがちです。

2.自然言語処理の適用

自然言語処理の強みは大量のテキストデータを処理・可視化・集計し、定性的な内容を定量的に評価、分析可能にする点です。

しかし、分析をする前にはデータを集めないといけませんし、フォーマットも整える必要があります。
テキストデータは基本的に非構造化データですが、テキストを含むcsv、tsv、json形式にすることが一般的です。
レビュー文の場合、レビュー文とともにどの商品に対する言及か?ということを最低限項目として持つ構造化データになっていれば問題なく分析できます。

データが集まれば早速分析といきたいところですが、テキストデータの前処理を行わなければいけません。
下に示しているものが、テキストデータを分析、モデリングする際の一般的なフローです。

テキストデータといっても特許申請の文章からSNSに投稿される文章までさまざまです。
特にSNS上のテキストデータには商品のレビューとは関係のない、絵文字や顔文字が含まれていることが容易に想像ができます。
また、同じ商品の属性について指していても、異なる表現が含まれているかもしれません。
これについては以前お話した表記ゆれ解消の考え方を適用します。

3.係り受け解析の適用

係り受け解析とは、形態素解析と並んで基礎技術となる自然言語(書き言葉)処理の構文解析です。
テキストデータを分析する際に、単語間の修飾関係を推定するために用います。
実際に係り受け解析した結果を可視化したものを見てみましょう。
「料理の味は普通でしたが、接客のレベルは高かった。」というテキストに対して係り受け解析を実施すると以下のようになります。

矢印があったり「nmod」であったり、「nsubj」であったりとなんのことかわかりませんね。
これはUniversal Dependenciesと呼ばれる依存構造アノテーション仕様で決められてるタグと単語間の関係を表したものです。
「料理の味は普通」という部分と、「接客のレベルは高かった」という部分で切り出して見てみましょう。

 

  • この文では「料理、味、接客、レベル」という4つの名詞が存在しています。
  • 「nmod」は名詞修飾語に該当します。ここでは「何の」味なのか?という発想を持つと解釈しやすく、係り受け関係を持ち「料理の味」を構成していることがわかります。
  • 「nsubj」は主語名詞に該当します。「何が」高かったのか?と考えると、「レベル」が高かった、「何の」レベルなのか?と考えると「接客のレベル」という感じで解釈していきます。
  • 「case」は格表示です。「〇〇が」、「△△の」というふうに主語や目的語とセットで構成されます。

このように、あるレビュー文に着目したとき、何に言及されているか?という観点から分析を進めることができます。

4.まとめ

今回は、係り受け解析を取り上げて、どんな技術を適用すると実現できるのか?という点をお話しました。
自然言語処理の強みは大量のテキストデータを処理・可視化・集計し、定性的な内容を定量的に評価、分析可能にする点です。
一方で技術の中身や実際にどんな感じで処理されてアウトプットが出てくるの?というイメージが湧きづらい領域かなと思います。
今回の記事で少しでもテキスト分析が身近に感じていただければ嬉しいです。
これからテキストデータを活用していきたいが、どの程度データがあればやりたいことに繋がるか?プロジェクトの前段階でデータの概要を把握しておきたいといったニーズにはデータアセスメントを実施することも可能ですのでお気軽にご相談ください。

 

お気軽にご相談ください

データ活用からAI開発まで、お客様の事業課題を解決するお手伝いをいたします。
お困りの方はどうぞお気軽にご相談ください。

お問い合わせ・ご相談はこちらから

自然言語処理によるポジ・ネガ判定

今回ご紹介した「自然言語処理」によるテキストデータ分析の詳細はこちらからご覧いただけます。

詳しくはこちら

WRITER
Yusuke Takahashi

データサイエンティスト

高橋 佑典Yusuke Takahashi

統計と機械学習を活用した構造化データ分析、自然言語処理を担当。デジタルマーケティング業界でのデータ分析プラットフォーム構築支援、不動産業界での価格査定モデルを構築。

最新記事

ページTOPへ