専門家が意見を分けるところで、モデルは失敗する：フランスの裁判決定における暗黙の法的引用の検出

arXiv cs.AI / 2026/3/25

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、フランスの第一審裁判所が、単なる意味的類似性と法的推論を切り分けることで、民法の規定を暗黙に適用する頻度をどの程度示すのかを調査する。
3名の法律専門家が作成した1,015件の「文章パッセージ–法令条文」ペアからなる注釈付きベンチマークを導入し、暗黙の法的引用の検出を評価するための基盤を提供する。
著者らは、専門家間の不一致がモデルの失敗を強く予測することを見出す。相互注釈者一致度は中程度（κ = 0.33）であり、争点の多くは、テキストが事実の記述なのか法的推論なのかに関するものである。
教師ありのアンサンブルモデルはF1 = 0.70（精度77%）を達成するが、性能には非対称性がある：誤検出（false positives）の大半は、専門家が意見を分けたケースで発生する。
タスクをtop-kランキングとして捉え、複数モデルの合意（コンセンサス）を用いることで改善し、教師なし設定ではk=200において精度76%を達成する。残る誤りは、法的に曖昧な適用に集中している。

日経XTECH

日経XTECH

日経XTECH

Dev.to

Dev.to