テキストデータ活用における表記ゆれの解消

このエントリーをはてなブックマークに追加

導入

こんにちは。データデザイン部でデータサイエンティストの役割を担っている高橋です。
今回は、テキストデータを活用していく上での課題を取り上げて、どのように対処していくのかをご紹介します。

テキストデータの活用

自然言語処理(テキストデータの分析)は第三次AIブームと同時に画像や音声といったメディアデータの活用として注目されるようになってきました。
最近ではチャットボットやスマートスピーカーが代表的な活用事例として取り上げられます。

しかし、なるほど自然言語処理の歴史は長く、1990年代のインターネット台頭の裏では検索システムや情報推薦、なるほどスパムメールのフィルタリングに活用されています。
また2000年代に入ってからはECサイトの増加により、顧客の声がレビュー文という形で集まり、その分析に用いられることもあります。
同時にSNSが出てきてリアルタイムに大量のテキストがやり取りされるようになり、マーケティングに用いるため企業で盛んに分析が行われています。

企業がテキストデータを活用していこうとしたときに、必ず解決していかないといけない課題があります。
今回は自然言語処理での課題の一つ、表記ゆれについて取り上げてみようと思います。

課題(表記ゆれ)

自然言語処理には表記ゆれの問題がつきまといます。
以下に代表的な表記ゆれの例を示します。

  • 文字種の多様性
    • りんご
    • リンゴ
    • 林檎
  • 字体の異なり
    • 付属
    • 附属
  • 送り仮名の異なり
    • 受付け
    • 受付
  • 外来語の異なり
    • コンピューター
    • コンピュータ
  • 略語
    • 取り扱い説明書
    • 取説
  • 文脈
    • 講師、先生、教授
  • 業務システム上のゆれ
    • ハンバーグ定食(昼)
    • ハンバーグ定食(90グラム)

このような表記ゆれが発生する原因として、日本語が持つ表現の多様性があります。
これは日本語の面白い点でもありますが、テキストデータを分析していく上では多くがノイズとして障害となります。

辞書の導入

上述したように、テキストデータには様々な表記ゆれが存在し、これはテキストデータを活用して様々な課題解決に繋げていこうという取り組みの障害になります。
特に表記ゆれの問題は、単語レベル(自然言語処理を行う上での最小単位)の問題ですのであらゆる処理、分析結果、モデルに影響を及ぼします。

単純に考えると、表記ゆれパターンをルールとして設定して、置換してしまえばよいと考えるでしょう。
そこでこの問題解決するためには、例で示したような表記ゆれしている単語を同一グループであるという情報を持った辞書を構築し、適用してあげることが考えられます。
この辞書は一から作ることももちろん良いのですが、一般的には自然言語処理の研究の成果として公開されている形態素解析用の辞書や同義語辞書といったものを用います。
例えば日本語の形態素解析器であるSudachiに含まれる同義語辞書は以下のようになっています。

このように一般的な単語の表記ゆれであれば、同一のグループとして扱うことで問題を解決できます。
一方で、文脈や業務システム上の揺れは企業固有の問題であることが多く、通常の辞書には登録されていません。
そういった場合、企業ごとに個別の辞書を保持し、適用していく必要があります。

また、辞書の登録・適用以外にも、機械学習を用いて辞書を半自動で構築したり、単語の同時発生確率を使ってモデルを作り既知の表現に統一するアプローチも存在します。
しかし、機械学習によるアプローチは万能ではなく、ある表記ゆれには有効だが、別の例では全く通用しない、間違えてしまうということがあります。
人手で整備した辞書の適用と機械学習によるアプローチはどちらが良いというものではなく、ビジネス適用する場合ははじめに人手による辞書、次に辞書と機械学習の組み合わせを適用します。

まとめ

自然言語処理の課題、表記ゆれの対応についてまとめました。
言われると「ああ、そういうこともあるよね。」と思われるかもしれません。
しかしデータ活用プロジェクトのうち前処理が8割と言われているように、テキストデータの活用も例外ではありません。
表記ゆれを丁寧に解消していくことが、プロジェクトの成功への近道だと考えています。

【無料ウェビナーのお知らせ】
「DX/AI推進を担当しているがうまく進まない」方に最適なウェビナーを企画しました

事業会社がAIを導入するには、現場から経営層までが一体となり、熱量をもってAI開発に携わることが重要です。そしてその成功の鍵となる考え方が「UX first」です。
本ウェビナーでは、これまで弊社が事業会社とAIプロジェクトを進めて感じた気付きから、「UX first」で進める必要性についてお伝えします。

<ウェビナータイトル>
経営層も熱狂させるAI活用~成功の鍵は「UX First」~
<プログラム>
1.データデザイン事業のご紹介
2.AI活用が進まない理由とは
3.AI活用における「UX First」な進め方とは
4.なぜ「UX First」だとうまくいくのか?事例のご紹介
5.QAタイム

日時:2020年12月10日(木) 13:15~14:15
参加方法:Zoomで参加(参加費無料)

お申し込みはこちら

WRITER
Yusuke Takahashi

データサイエンティスト

高橋   佑典 Yusuke Takahashi

統計と機械学習を活用した構造化データ分析、自然言語処理を担当。デジタルマーケティング業界でのデータ分析プラットフォーム構築支援、不動産業界での価格査定モデルを構築。

SNSで最新情報を発信しています

最新記事

ページTOPへ