TEMPER:定量的推論における感情的攪乱の検証
arXiv cs.CL / 2026/4/10
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、数値の量と関係性をすべて保持したまま、定量的推論の問題文を書き換えて感情的なバリアントに変換する、制御された感情翻訳フレームワークTEMPERを提案する。
- TEMPERを用いて著者らは、GSM8K、MultiArith、ARC-Challengeにまたがる5,400件の検証済み「感情–中立」ペアで構成されるTemper-5400を構築し、約10億規模からフロンティア級までの18の言語モデルに対して評価を行う。
- 著者らは、数値コンテンツが変わらない場合でも、感情的な枠付けだけで定量的推論の精度が2〜10ポイント低下し得ることを見出す。
- 推論時に感情的バリアントを中立化すると失われた精度の大部分が回復し、劣化の原因がコンテンツの破損ではなく感情的な文体にあることを示唆する。
- 著者らは、このベンチマーク構築手法が感情に限らず一般化可能であり、制御されたスタイル翻訳によってより広範なロバスト性テストを可能にすると主張する。




