TEMPER:定量的推論における感情的攪乱の検証

arXiv cs.CL / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、数値の量と関係性をすべて保持したまま、定量的推論の問題文を書き換えて感情的なバリアントに変換する、制御された感情翻訳フレームワークTEMPERを提案する。
  • TEMPERを用いて著者らは、GSM8K、MultiArith、ARC-Challengeにまたがる5,400件の検証済み「感情–中立」ペアで構成されるTemper-5400を構築し、約10億規模からフロンティア級までの18の言語モデルに対して評価を行う。
  • 著者らは、数値コンテンツが変わらない場合でも、感情的な枠付けだけで定量的推論の精度が2〜10ポイント低下し得ることを見出す。
  • 推論時に感情的バリアントを中立化すると失われた精度の大部分が回復し、劣化の原因がコンテンツの破損ではなく感情的な文体にあることを示唆する。
  • 著者らは、このベンチマーク構築手法が感情に限らず一般化可能であり、制御されたスタイル翻訳によってより広範なロバスト性テストを可能にすると主張する。

Abstract

大規模言語モデルは、感情的に中立な整った言語で書かれた定量的推論タスクで訓練され、評価されます。しかし現実の問い合わせは、しばしば苛立ち、切迫、熱意といった感情に包まれています。数値の内容がすべて保持されている場合でも、感情的な枠組み付けだけで推論は劣化するのでしょうか?これを調査するために、すべての数量と関係を保持したまま問題を書き換えて感情のバリアントを生成する、制御された感情翻訳(emotion translation)フレームワークを開発します。このフレームワークを用いて、Temper-5400(5,400の意味的に検証済みの感情—中立ペア)をGSM8K、MultiArith、ARC-Challengeにわたって構築し、18のモデル(1Bから最先端規模まで)で評価します。得られる主要な結果は2つです。第一に、数値の内容がすべて保持されているにもかかわらず、感情的な枠組み付けは精度を2〜10パーセントポイント低下させます。第二に、感情的バリアントを中立化すると、失われた性能の大部分が回復し、劣化が内容の破損ではなく感情的スタイルに結びついていること、そして中立化が軽量な推論時の対策として機能し得ることが示されます。非感情的な言い換えでは、そのような劣化は起きません。これは、表面的な変更ではなく感情的な内容が問題であることを示唆します。感情に特化した以上のこととして、このベンチマーク構築手順は、制御されたスタイル翻訳と頑健性評価のための一般的な枠組みを提供します。