LATTICE:暗号エージェントの意思決定支援としての有用性を評価する
arXiv cs.AI / 2026/4/30
📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文では、暗号エージェントがユーザーの意思決定をどれだけ支援できるかを、現実のユーザー向けコパイロット場面で評価するためのベンチマーク「LATTICE」を提案します。
- 6つの評価ディメンションと、暗号コパイロットのワークフロー全体をカバーする16種類のエンドツーエンド課題タイプを定義し、推論や最終結果だけでなく「意思決定支援」に焦点を当てています。
- LATTICEはLLMジャッジを用いて、ディメンションや課題ごとにエージェントの出力を大量にスコアリングし、専門家による正解ラベルや外部データソースへの依存を避けています。
- 著者らは、実運用の6つの暗号コパイロットを1,200件の多様なクエリで評価し、総合スコアは概ね近い一方で、ディメンション別・課題別にはより大きな差があることを示しています。
- 再現可能な研究を支えるためにLATTICEのコードとデータをオープンソース化し、ジャッジ基準は新しい基準やフィードバックに応じて監査・更新できると強調しています。



