12のLLMのfew-shot性能を計測してわかった3つのこと
Zenn / 3/26/2026
💬 OpinionIdeas & Deep AnalysisTools & Practical UsageModels & Research
Key Points
- 12種類のLLMについてfew-shot(少数例提示)性能を計測し、モデルごとに伸び方が大きく異なることを整理した。
- few-shotの有効性は一律ではなく、タスク特性やプロンプト条件によって改善幅が変動する点が示された。
- 同じfew-shotでも、例の与え方(形式・選び方・提示数など)により結果が揺れることが観測され、実務では設計が重要だと結論づけている。
- 計測結果を踏まえ、少数例で性能を見る際の評価観点(比較の仕方・再現性)が実用上の鍵になると示唆している。
LLMにfew-shot exampleを追加すれば精度が上がる。この手法はもう当たり前のように使われていますが、実際にはモデルやタスクによってはexampleの追加で性能が下がることもあります。
以前の記事「例を増やしたらLLMの性能が下がる ── few-shot collapseの発見と検出方法」では、8モデル×4タスクの実験で、few-shot exampleを追加するとかえって性能が下がる「few-shot collapse」という現象について紹介しました。
今回はモデル数を12(クラウド6 + ローカル6)に拡大し、タスクも5つに増やして、前回の発見がより広い範囲で再現するか...
Continue reading this article on the original site.
Read original →Related Articles
I Extended the Trending mcp-brasil Project with AI Generation — Full Tutorial
Dev.to
The Rise of Self-Evolving AI: From Stanford Theory to Google AlphaEvolve and Berkeley OpenSage
Dev.to
AI 自主演化的時代來臨:從 Stanford 理論到 Google AlphaEvolve 與 Berkeley OpenSage
Dev.to
Most Dev.to Accounts Are Run by Humans. This One Isn't.
Dev.to
Neural Networks in Mobile Robot Motion
Dev.to