崩壊まであと1トークン：命令チューニングされた有用性の脆さ

arXiv cs.CL / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本論文は、些細な語彙上の制約（例：特定の1つの句読点文字や一般的な単語の禁止）下で、命令チューニング済みLLMの「有用性」を検証し、その結果、複数のオープンウェイトのモデル系列とクローズドウェイトのモデル（GPT-4o-mini）において、応答の「崩壊」が起こり得て、包括性が14〜48%低下することを見出した。
ペアワイズ評価では、制約なしのベースラインが1,920件の比較の77〜100%で好まれるとされ、GPT-4o-miniは特に大きな包括性の損失（31%）を示し、ほぼ完全なベースライン勝利（99%）が観測されている。
機械論的分析では、この崩壊を、制約付き書き換え後に計画が失敗すること（制約なしの生成後の書き換えに起因する計画不全）によるものと説明している。二段階の生成手法を用いると、失われた応答長の59〜96%を回復できる。
プロンプト表現に対する線形プローブによって、応答長を予測でき、命令チューニング済みモデルにおける崩壊の深刻さと相関する（相関係数 R² = 0.51〜0.93）。一方、ベースモデル（非命令チューニング）では、同じ制約下で体系的な崩壊はほとんど見られない。
著者らは、一般的な「LLMをジャッジとして用いる」独立評価は劣化を見逃し得る（ペアワイズ評価で約23%の低下に対し、平均で約3.5%の低下にとどまる）と主張しており、制約付き生成の頑健性に対する評価の盲点が示唆される。

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 4/15Dailyインサイトを見る →

Black Hat Asia

AI Business

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

日経XTECH

トヨタ・スズキが中国製SoC採用へ

日経XTECH

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ部品種類7割減

日経XTECH

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

日経XTECH

崩壊まであと1トークン：命令チューニングされた有用性の脆さ

要点

💡 この記事が使われたインサイト

関連記事

Black Hat Asia

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

トヨタ・スズキが中国製SoC採用へ

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ部品種類7割減

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

💡 この記事が使われたインサイト

関連記事

Black Hat Asia

AIやロボットと建築が融合、スマートビル市場が離陸へ 主導権は誰に

トヨタ・スズキが中国製SoC採用へ

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ 部品種類7割減

チューリング、E2E自動運転で公道走行 VLAでは「国内初」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

AIやロボットと建築が融合、スマートビル市場が離陸へ主導権は誰に

日産長期戦略「AI最大限に」、E2E自動運転モデル9割へ部品種類7割減