監督付き金融NLPにおける計測リスク:JF-ICRにおけるルーブリックと指標の感度

arXiv cs.AI / 2026/5/1

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、ルーブリックの文言、評価指標の選択、集計方針によってラベルやモデルの順位付けが変わり得るため、監督付き金融NLPベンチマークは「客観的」とは限らないと主張している。
  • JF-ICR(253件の固定テスト分割に対し、4つの最先端LLM、5種類のルーブリック、3つの温度、5つの序数メトリクスを組み合わせて評価)を用いて、特に+1/0境界付近で、ルーブリックの文言がモデルの割り当てラベルを大きく変えることを示した。
  • クラス分布の特性により、一般的な一部の指標は情報量が低くなったりノイズが増えたりするため、運用ルールの下では「識別可能」な指標として正確度(Exact accuracy)、macro-F1、重み付きκ(weighted kappa)が適切であると結論づけている。
  • 識別可能な指標の部分集合に絞った場合に限り、順位付け手法(Bradley–Terry、Borda、Ranked Pairs)の一致度が高まり、全5指標を使うと最も近い候補同士で意見が割れる。
  • 位置づけとしては新しいリーダーボードの提示ではなく、ゴールドラベルが存在していても「評価のものさし」にはガバナンスが必要だという報告規律を提案するものだ。