12のLLMのfew-shot性能を計測してわかった3つのこと

Zenn / 2026/3/26

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

要点

  • 12種類のLLMについてfew-shot(少数例提示)性能を計測し、モデルごとに伸び方が大きく異なることを整理した。
  • few-shotの有効性は一律ではなく、タスク特性やプロンプト条件によって改善幅が変動する点が示された。
  • 同じfew-shotでも、例の与え方(形式・選び方・提示数など)により結果が揺れることが観測され、実務では設計が重要だと結論づけている。
  • 計測結果を踏まえ、少数例で性能を見る際の評価観点(比較の仕方・再現性)が実用上の鍵になると示唆している。
LLMにfew-shot exampleを追加すれば精度が上がる。この手法はもう当たり前のように使われていますが、実際にはモデルやタスクによってはexampleの追加で性能が下がることもあります。 以前の記事「例を増やしたらLLMの性能が下がる ── few-shot collapseの発見と検出方法」では、8モデル×4タスクの実験で、few-shot exampleを追加するとかえって性能が下がる「few-shot collapse」という現象について紹介しました。 今回はモデル数を12(クラウド6 + ローカル6)に拡大し、タスクも5つに増やして、前回の発見がより広い範囲で再現するか...

この記事の続きは原文サイトでお読みいただけます。

原文を読む →