ActuBench:生成と評価のための多エージェントLLMパイプラインによる保険数理推論タスク

arXiv cs.CL / 2026/4/23

📰 ニュースDeveloper Stack & InfrastructureTools & Practical UsageModels & Research

要点

  • ActuBenchは、IAA(国際保険数理人協会)教育シラバスに対応した保険数理の推論テスト問題を自動生成・評価するための多エージェントLLMパイプラインを提案しています。
  • システムは、作問、誤答(ディストラクタ)作成、独立検証とワンショット修復ループ、さらにコスト最適化された要約・トピック付与といった役割にLLMを分業させています。
  • 8社の提供元からの50の言語モデルを対象に、2つのベンチマーク(最難のMCQ 100問と、LLMジャッジで採点する記述式100問)で評価し、主要な知見を3点報告しています。
  • 独立検証が成果を左右し、ローカルでのオープンウェイト推論は費用対効果の面で有望であり、MCQ評価とLLMジャッジ評価ではランキングが大きく異なるため、最前線ではJudgeモードが必要だと示しています。
  • 生成問題、モデルごとの回答、全リーダーボードをリポジトリのチェックアウトなしで閲覧できるWebインターフェースも公開されています。

要旨: 本稿では、国際アクチュアリー協会(IAA)の教育シラバスに整合した高度なアクチュアリー評価問題の自動生成と評価を行うための、多アカウント(マルチエージェント)LLMパイプライン「ActuBench」を提示します。このパイプラインは、アダプタによって4つのLLM役割を分離します。1つ目のエージェントが問題文を下書きし、2つ目がディストラクタ(紛らわしい選択肢)を構築します。3つ目は両段階を独立に検証し、さらに有界なワンショット修復ループを駆動します。4つ目は、コスト最適化された補助エージェントであり、Wikipediaの注記の要約とトピックのラベリングを担当します。作成された問題、モデルごとの応答、および完全なリーダーボードは、リポジトリのチェックアウトなしで、読者や実務者が個々の問題を閲覧できるウェブインターフェースとして https://actubench.de/en/ に公開されます。本研究では、8つの提供元から50の言語モデルを、2つの補完的ベンチマークで評価します――経験的に最も難しい100の多肢選択問題と、LLMジャッジによって採点される100の自由記述(オープンエンド)問題です。そして3つの主要な発見を報告します。第一に、多アカウント検証は負荷を担う(load-bearing)機能です。独立検証者は初回パスで下書きされた問題の大半を指摘し、その多くはワンショット修復ループによって解決されます。第二に、ローカルでホストされたオープンウェイトによる推論は、コスト性能のパレートフロントに位置します。消費者向けハードウェアで動作するGemma~4モデルと、Cerebrasでホストされる120Bオープンウェイトモデルが、ほぼゼロコスト領域を支配します。後者は、リーダーボード最上位との差が1問以内です。第三に、MCQ(多肢選択)とLLM-as-Judgeのランキングは有意に異なります。MCQの足場(スキャフォールド)は性能の天井を押し上げてしまい、最前線での識別にはJudgeモードでの評価が必要です。