オープン辞書によるロシア語の形態素タグ付けを効果的に行うマルチヘッドベースのアーキテクチャ

arXiv cs.CL / 2026/4/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、文法カテゴリの正確な予測に焦点を当てた、ロシア語の形態素タグ付けのための新しいマルチヘッド注意機構アーキテクチャを提案する。
  • 単語をサブトークンに分割して前処理し、その後サブトークンのベクトルをトークン単位の表現へ集約する手順を学習することで、オープン辞書の利用を可能にする。
  • このアプローチは、単語の一部(例:接頭辞や語尾)から形態学的なパターンを分析でき、学習データセットに出てこなかった単語にも対応するよう設計されている。
  • SinTagRus および Taiga データセットでの実験では、一部の文法カテゴリにおいて 98〜99%という非常に高い精度が報告されており、従来の既知の結果を上回っている。
  • 本モデルは、市販のGPUでの学習が実用的であることを位置づけ、RNNや、大規模なラベルなしテキストによる事前学習(BERT型のワークフローとは異なる)を回避し、先行研究よりも処理速度が向上すると主張している。

Abstract

この記事は、ロシア語における形態素タグ付けの問題を解決するために、Multi-head attention(マルチヘッド注意)に基づく新しいアーキテクチャを提案する。単語ベクトルの前処理では、まず単語をサブトークンに分割し、その後、サブトークンのベクトルをトークンのベクトルへ集約する学習済みの手順を行う。これにより、オープン辞書をサポートし、単語の一部(接頭辞、語尾など)を考慮しながら形態的特徴を分析できるようになる。オープン辞書により、将来的に学習データセットに存在しない単語も分析できる。SinTagRusおよびTaigaデータセットで実施した計算実験では、いくつかの文法カテゴリに対して、提案アーキテクチャが精度98〜99%およびそれ以上を示し、これまでに知られていた結果を上回る。10語中9語について、アーキテクチャはすべての文法カテゴリを正確に予測し、当該語ではどのカテゴリを分析してはいけないかも示す。さらに、提案アーキテクチャに基づくモデルは、一般向けのグラフィックスアクセラレータで学習でき、RNNに対するMulti-head attentionの利点をすべて保持する(提案手法ではRNNは使用されない)。また、BERTのような大量のラベルなしテキストに対する事前学習を必要とせず、これまでの結果よりも処理速度が高いことが示される。