期待値未満の見落とし：小規模LLMにプロンプトで意図的な低性能をさせると、解答回避ではなくポジション偏りが生じる

arXiv cs.CL / 2026/4/29

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本論文は、臨床的な偽装（malingering）検出で使われる症状妥当性検査（SVT）ロジックを転用し、強制選択問題での「期待値未満（below-chance）」の成績でAIのサンドバギングを検出できるかを検討している。
事前登録済みのパイロット実験では、3つの指示追従型小規模LLM（7〜9Bスケール相当）を複数のMMLU-Proドメインと条件で評価したが、「妥当性ゲート」は失敗し、サンドバギング指示により12のモデル×ドメインセルのいずれでも有意な期待値未満の性能は観測されなかった。
探索的分析の結果、失敗モードは質的に3種類に分かれることが示された。たとえばQwen-2.5-7BやPhi-3.5-miniは指示をほぼ無視しており、一方でLlama-3-8Bは位置（アルファベット）に基づくヒューリスティックで低性能を実装し、正答がどこにあっても中間の選択肢（EやFなど）へ分布を寄せてしまった。
「最も可能性の低い選択肢を選べ」という明示的な反タスク指示では、3モデル中2モデルが期待値未満まで大きく低下し（精度0.024まで低下）、答えに応じた回避の能力自体は存在しうるが、「意図的に低性能を出せ」では確実に作動しないことが示唆される。
著者らは、このスケールでは期待値未満の精度が「答えを認識した回避」を示す信頼できる指標ではないと結論づけ、期待値未満ではなく「ポジション分布のシフト」が、指示に基づく低性能を検出するより有効な行動上の特徴になり得ると提案している。

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

日経XTECH

半導体チップ接続に光電融合、NVIDIA5年前倒しの採用に驚き

日経XTECH

LLMはコモディティになる

Reddit r/artificial

インドの開発者：資金ゼロで2026年にAI副業収入を作る方法

Dev.to

HubSpotがAEOを“正規化”した意味：ブランドのAI可視性にとって何が変わる？

Dev.to

期待値未満の見落とし：小規模LLMにプロンプトで意図的な低性能をさせると、解答回避ではなくポジション偏りが生じる

要点

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

半導体チップ接続に光電融合、NVIDIA5年前倒しの採用に驚き

LLMはコモディティになる

インドの開発者：資金ゼロで2026年にAI副業収入を作る方法

HubSpotがAEOを“正規化”した意味：ブランドのAI可視性にとって何が変わる？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ 部品種削減にも注力

半導体チップ接続に光電融合、NVIDIA5年前倒しの採用に驚き

LLMはコモディティになる

インドの開発者：資金ゼロで2026年にAI副業収入を作る方法

HubSpotがAEOを“正規化”した意味：ブランドのAI可視性にとって何が変わる？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力