LATTICE:暗号エージェントの意思決定支援としての有用性を評価する

arXiv cs.AI / 2026/4/30

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • この論文では、暗号エージェントがユーザーの意思決定をどれだけ支援できるかを、現実のユーザー向けコパイロット場面で評価するためのベンチマーク「LATTICE」を提案します。
  • 6つの評価ディメンションと、暗号コパイロットのワークフロー全体をカバーする16種類のエンドツーエンド課題タイプを定義し、推論や最終結果だけでなく「意思決定支援」に焦点を当てています。
  • LATTICEはLLMジャッジを用いて、ディメンションや課題ごとにエージェントの出力を大量にスコアリングし、専門家による正解ラベルや外部データソースへの依存を避けています。
  • 著者らは、実運用の6つの暗号コパイロットを1,200件の多様なクエリで評価し、総合スコアは概ね近い一方で、ディメンション別・課題別にはより大きな差があることを示しています。
  • 再現可能な研究を支えるためにLATTICEのコードとデータをオープンソース化し、ジャッジ基準は新しい基準やフィードバックに応じて監査・更新できると強調しています。

Abstract

本稿では、現実的なユーザー向けシナリオにおいて、暗号エージェントの意思決定支援としての有用性を評価するためのベンチマーク「LATTICE」を紹介します。従来の暗号エージェントのベンチマークは主に、推論ベースまたは結果ベースの評価に焦点を当ててきましたが、エージェントがユーザーの意思決定を支援できる能力を評価することはしていませんでした。LATTICEはこのギャップを、(1) 重要な意思決定支援の特性を捉える6つの評価次元を定義し、(2) 暗号コパイロットのエンドツーエンドのワークフローをカバーする16種類のタスクタイプを提案し、(3) これらの次元とタスクに基づいてLLMジャッジを用いてエージェント出力を自動的にスコアリングすることで埋めます。重要なのは、次元とタスクが、専門家アノテータによる正解データや外部データソースに依存せず、LLMジャッジを用いて大規模に評価可能となるよう設計されている点です。これらの依存関係の代わりに、LATTICEのLLMジャッジ用のルーブリックは、新しい次元、タスク、基準、および人間からのフィードバックが得られた際に、継続的に監査および更新できるため、信頼でき、かつ拡張可能な評価を促進します。他のベンチマークがしばしば一般的なエージェントの枠組みを共有する基盤モデル同士を比較するのに対し、私たちはLATTICEを用いて、実際の暗号コパイロット製品で使われているプロダクションレベルのエージェントを評価します。これは、エージェント品質の決定においてオーケストレーションとUI/UX設計が重要であることを反映しています。本論文では、多様な1,200のクエリに対して6つの実世界の暗号コパイロットを評価し、次元、タスク、およびクエリカテゴリにわたる内訳を報告します。実験の結果、評価対象のほとんどのコパイロットは総合スコアとしては同程度の達成を示す一方で、次元レベルおよびタスクレベルの性能ではより大きく異なることが分かりました。このパターンは、意思決定支援の質における意味のあるトレードオフが存在することを示唆しています。つまり、ユーザーが異なる優先事項を持つ場合、総合ランキングだけでは示されない形で、異なるコパイロットのほうが適している可能性があります。再現可能な研究を支援するために、本稿で用いたLATTICEのコードとデータをすべてオープンソースとして公開します。