DALDALL：LLM-Personaを活用することで法律領域における語彙的・意味論的多様性のためのデータ拡張

arXiv cs.CL / 2026/3/25

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、データの希少性が継続する低リソース環境における法律情報検索を改善するための、パーソナベースのデータ拡張フレームワークDALDALLを提案する。
一般的なプロンプトで大量の合成クエリを生成するのではなく、DALDALLは、領域に特化した専門職のパーソナ（例：弁護士、検察官、裁判官）を用いて、語彙的および意味論的な多様性がより高い合成クエリを生成する。
CLERCおよびCOLIEEベンチマークでの実験により、パーソナベースの拡張は（Self-BLEUによって測定される）語彙的多様性を改善しつつ、元のクエリに対する意味論的忠実性を維持することが示された。
パーソナ拡張データで微調整した密なリトリーバは、元データで学習したリトリーバや一般的な拡張戦略を用いた場合と比べて、競争力またはそれ以上のリコールを達成する。
全体として、本研究は、専門化した法律IRタスク向けのより高品質な学習データを作成するための有効なアプローチとして、パーソナベースのプロンプトを位置付ける。

概要: データ不足は、低リソース領域において依然として持続的な課題です。既存のデータ拡張手法は、大規模言語モデル（LLM）の生成能力を活用して大量の合成データを作り出しますが、これらのアプローチは多くの場合、質よりも量を優先しており、ドメイン固有の戦略を欠いています。本研究では、法律情報検索（IR）向けに特化した、パーソナベースのデータ拡張フレームワークであるDALDALLを提案します。本手法では、弁護士、検察官、裁判官などのドメイン固有の専門家パーソナを用いて、バニラなプロンプト手法よりも著しく大きな語彙的・意味的多様性を示す合成クエリを生成します。CLERCおよびCOLIEEのベンチマークでの実験により、パーソナベースの拡張は、Self-BLEUスコアで測定される語彙多様性の向上を達成しつつ、元のクエリへの意味的な忠実性を維持することが示されました。さらに、パーソナ拡張データで微調整した密なリトリーバ（dense retrievers）は、元データで学習したものや汎用的な拡張で学習したものと比べて、常に競争力のある、またはそれを上回る想起（recall）性能を一貫して示します。これらの結果は、パーソナベースのプロンプトが、専門的で低リソースな領域において高品質な学習データを生成するための効果的な戦略であることを裏付けます。

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

日経XTECH

日立製作所と日立エナジー、エネルギーインフラ向けAIサービスを提供

日経XTECH

Lemonade 10.0.1がLinuxでAMD Ryzen AI NPUを使うためのセットアップ手順を改善

Reddit r/artificial

2026年ディベロッパー決戦：Claude Code vs. Google Antigravity

Dev.to

Googleの2026年3月スパムアップデート：SEOへの影響と今やるべきこと | MKDM

Dev.to

DALDALL：LLM-Personaを活用することで法律領域における語彙的・意味論的多様性のためのデータ拡張

要点

関連記事

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

日立製作所と日立エナジー、エネルギーインフラ向けAIサービスを提供

Lemonade 10.0.1がLinuxでAMD Ryzen AI NPUを使うためのセットアップ手順を改善

2026年ディベロッパー決戦：Claude Code vs. Google Antigravity

Googleの2026年3月スパムアップデート：SEOへの影響と今やるべきこと | MKDM

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer