概要: データ不足は、低リソース領域において依然として持続的な課題です。既存のデータ拡張手法は、大規模言語モデル(LLM)の生成能力を活用して大量の合成データを作り出しますが、これらのアプローチは多くの場合、質よりも量を優先しており、ドメイン固有の戦略を欠いています。本研究では、法律情報検索(IR)向けに特化した、パーソナベースのデータ拡張フレームワークであるDALDALLを提案します。本手法では、弁護士、検察官、裁判官などのドメイン固有の専門家パーソナを用いて、バニラなプロンプト手法よりも著しく大きな語彙的・意味的多様性を示す合成クエリを生成します。CLERCおよびCOLIEEのベンチマークでの実験により、パーソナベースの拡張は、Self-BLEUスコアで測定される語彙多様性の向上を達成しつつ、元のクエリへの意味的な忠実性を維持することが示されました。さらに、パーソナ拡張データで微調整した密なリトリーバ(dense retrievers)は、元データで学習したものや汎用的な拡張で学習したものと比べて、常に競争力のある、またはそれを上回る想起(recall)性能を一貫して示します。これらの結果は、パーソナベースのプロンプトが、専門的で低リソースな領域において高品質な学習データを生成するための効果的な戦略であることを裏付けます。
DALDALL:LLM-Personaを活用することで法律領域における語彙的・意味論的多様性のためのデータ拡張
arXiv cs.CL / 2026/3/25
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、データの希少性が継続する低リソース環境における法律情報検索を改善するための、パーソナベースのデータ拡張フレームワークDALDALLを提案する。
- 一般的なプロンプトで大量の合成クエリを生成するのではなく、DALDALLは、領域に特化した専門職のパーソナ(例:弁護士、検察官、裁判官)を用いて、語彙的および意味論的な多様性がより高い合成クエリを生成する。
- CLERCおよびCOLIEEベンチマークでの実験により、パーソナベースの拡張は(Self-BLEUによって測定される)語彙的多様性を改善しつつ、元のクエリに対する意味論的忠実性を維持することが示された。
- パーソナ拡張データで微調整した密なリトリーバは、元データで学習したリトリーバや一般的な拡張戦略を用いた場合と比べて、競争力またはそれ以上のリコールを達成する。
- 全体として、本研究は、専門化した法律IRタスク向けのより高品質な学習データを作成するための有効なアプローチとして、パーソナベースのプロンプトを位置付ける。

