AIベンチマークは、大規模言語モデル(LLM)が特定のタスクでどの程度の性能を発揮するかを報告しますが、その性能を生み出す根本的な能力についてはほとんど洞察を与えません。これらは失敗の理由を説明せず、新しいタスクでの結果を確実に予測することもできません。これに対処するため、マイクロソフトの研究者はプリンストン大学および Universitat Politècnica de Valènciaとの協力のもと、ADeLe(新しいタブで開きます)(AI […]
この記事はADeLe: Predicting and explaining AI performance across tasksとしてMicrosoft Researchに最初に掲載されました。




