Luwen 技術レポート

arXiv cs.CL / 2026/4/9

💬 オピニオンSignals & Early TrendsModels & Research

要点

  • この記事は、「Luwen」(arXiv:2604.06737v1)を紹介する。これは、法律用語や推論上の課題により適切に対応することを目的とした、中国語のオープンソース法律言語モデルである。
  • Luwenは基盤モデルのBaichuanをベースに構築され、法律領域のユースケースに合わせて、法律コーパスでの継続的事前学習、厳選した法律の指示データによる教師あり微調整、統合された法律知識ベースを用いた検索拡張生成(RAG)を通じて適応している。
  • 本論文では、Luwenを5つの法律タスク――判決予測、司法尋問(judicial examination)、法律の要約、法令条文に関する質問応答、司法判断の推論――で評価しており、予測設定と生成設定の両方を扱っている。
  • 実験結果は、Luwenが複数の強力なベースラインを上回ることを示し、記述された法律ドメイン適応戦略の有効性を裏付けている。

要旨: 大規模言語モデルは幅広い自然言語処理タスクにおいて目覚ましい能力を示してきましたが、法領域への適用は、関係する専門用語、複雑な推論要件、そして急速に変化する法的知識のために依然として困難です。本論文では、3つの主要な手法によりBaichuan基盤モデルを土台として構築したオープンソースの中国語法務言語モデル「Luwen」を提示します。すなわち、大規模な法務コーパスに対する継続的な事前学習、慎重に厳選した法的な指示データを用いた教師ありファインチューニング、そして包括的な法的知識ベースと統合した検索拡張生成です。予測設定と生成設定の両方を含む、代表的な5つの法務タスクに対してLuwenを評価します。具体的には、法的判決の予測、司法試験、法文書の要約、法令条文の質問応答、そして司法判断の推論です。実験結果は、Luwenが複数の強力なベースラインを上回ることを示しており、汎用目的の言語モデルを法領域へ適応させる本アプローチの有効性が確認されます。