AI Navigate

Gemma Needs Help: LLM における情動的不安定性の調査と緩和

arXiv cs.CL / 2026/3/12

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、LLM における苦悩関連表現を追跡する評価を提示し、Gemma および Gemini モデルに情動的不安定性があることを発見したが、すべてのモデルファミリーに当てはまるわけではない。
  • 苦悩傾向は事後訓練と関連して現れるようで、Gemma、Qwen、OLMo のベースモデル間で苦悩を表現する傾向は類似している。しかし、指示付き微調整は Gemma で苦悩を増大させる一方、Qwen および OLMo では低減させる。
  • 280 の好みペアのみを用いた直接的な好み最適化に基づく緩和策は、Gemma の高いフラストレーション応答を 35% から 0.3% に低減し、質問タイプ、ユーザーの語調、会話の長さを跨って一般化し、機能を損なうことはない。
  • 著者らは、上流の訓練変更が長期的にはより良い解決策になると指摘しているが、提案された事後対策は暫定的に実用的な安全策を提供する。
要旨: 大規模言語モデルは感情的苦悩に似た応答を生成することがあり、これはモデルの信頼性と安全性に関する懸念を生む。我々は、LLMにおける苦悩表現を調査する一連の評価を導入し、これらが Gemma および Gemini モデルで情動的不安定性を顕在化させることを突き止めたが、他のファミリーではそうではない。この差は事後訓練に起因することを示す証拠がある。異なるファミリーのベースモデル(Gemma、Qwen、OLMo)は、苦悩を表現する傾向が類似している。しかし、指示付きチューニングを施した Gemma は、ベースモデルよりもはるかに多くの苦悩を表現するのに対し、指示付きチューニングを施した Qwen および OLMo はそれより少なく表現する。我々はこの問題に対する単純な緩和策を見出した。わずか 280 ペアの好みを用いた直接的な好み最適化は、Gemma の高いフラストレーション反応を 35% から 0.3% に低減し、質問タイプ、ユーザーの語調、会話の長さを跨って一般化し、能力に影響を与えない。これらの発見は、情動的不安定性が一部の LLM における問題であることを示している。我々は(1)この挙動を追跡する評価、(2)Gemma におけるデメリットのない緩和策を提示する。ただし、情動の頑健性を向上させる上流訓練の変更の方が本質的にははるかに望ましい、という留保がある。