12のLLMのfew-shot性能を計測してわかった3つのこと

Zenn / 2026/3/26

💬 オピニオンIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

12種類のLLMについてfew-shot（少数例提示）性能を計測し、モデルごとに伸び方が大きく異なることを整理した。
few-shotの有効性は一律ではなく、タスク特性やプロンプト条件によって改善幅が変動する点が示された。
同じfew-shotでも、例の与え方（形式・選び方・提示数など）により結果が揺れることが観測され、実務では設計が重要だと結論づけている。
計測結果を踏まえ、少数例で性能を見る際の評価観点（比較の仕方・再現性）が実用上の鍵になると示唆している。

LLMにfew-shot exampleを追加すれば精度が上がる。この手法はもう当たり前のように使われていますが、実際にはモデルやタスクによってはexampleの追加で性能が下がることもあります。以前の記事「例を増やしたらLLMの性能が下がる ── few-shot collapseの発見と検出方法」では、8モデル×4タスクの実験で、few-shot exampleを追加するとかえって性能が下がる「few-shot collapse」という現象について紹介しました。今回はモデル数を12（クラウド6 + ローカル6）に拡大し、タスクも5つに増やして、前回の発見がより広い範囲で再現するか...

この記事の続きは原文サイトでお読みいただけます。

原文を読む →

AIで求められる高度な通信品質要件、エッジやスライシングを駆使して確保

日経XTECH

AIエージェントの性能が急上昇、米国でソフト開発者の求人が増え始めた

日経XTECH

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

日経XTECH

人工知能とは何か？実際にはどのように動くのか？

Dev.to

Forge – 開発チームの会話を構造化された意思決定に変える

Dev.to

12のLLMのfew-shot性能を計測してわかった3つのこと

要点

関連記事

AIで求められる高度な通信品質要件、エッジやスライシングを駆使して確保

AIエージェントの性能が急上昇、米国でソフト開発者の求人が増え始めた

AIが考える「最強のプログラミング言語」、実際につくって動かしてみた

人工知能とは何か？実際にはどのように動くのか？

Forge – 開発チームの会話を構造化された意思決定に変える

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer