広告

ADeLe:タスク全体にわたるAIの性能を予測し、説明する

Microsoft Research Blog / 2026/4/2

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • この記事は、現在のAI/LLMベンチマークが一般に、結果を生み出す根本的な能力を説明することなく、タスクの遂行性能を測定していると主張する。
  • それに対し、ADeLeを提示する。ADeLeはマイクロソフトの研究プロジェクトであり、プリンストン大学およびバルセロナ自治大学(Universitat Politècnica de València)と共同で、より広範なタスク群にわたるAIの性能を予測し説明することを目的としている。
  • 本研究は、重要なベンチマーク上の制約に焦点を当てる。すなわち、新しいタスクに対する結果を確実に事前予測できず、失敗に対する信頼できる説明も提供できない点である。
  • アプローチは、タスク横断の能力シグナルに着目することで、モデル評価をタスク固有ではなく、より解釈可能で汎用的にすることを目指している。

AIベンチマークは、大規模言語モデル(LLM)が特定のタスクでどの程度の性能を発揮するかを報告しますが、その性能を生み出す根本的な能力についてはほとんど洞察を与えません。これらは失敗の理由を説明せず、新しいタスクでの結果を確実に予測することもできません。これに対処するため、マイクロソフトの研究者はプリンストン大学および Universitat Politècnica de Valènciaとの協力のもと、ADeLe(新しいタブで開きます)(AI […]

この記事はADeLe: Predicting and explaining AI performance across tasksとしてMicrosoft Researchに最初に掲載されました。

広告