「役に立たないが安全?」ユーザーの意図を明確化する多段会話におけるユーティリティ回復のベンチマーク

arXiv cs.CL / 2026/5/1

📰 ニュースSignals & Early TrendsModels & Research

要点

  • 本論文は、LLMが最初にユーザーの意図を誤解した場合でも、安全性を維持しつつ有用性(ユーティリティ)を回復できるかを多段の対話で検証するインタラクティブなベンチマーク「CarryOnBench」を提案する。
  • 398件の「一見有害な」質問を用い、14モデルで4〜12ターンの会話フローを5,970件シミュレーションして、計23,880件のモデル応答について、意図整合した有用性と安全性を同時に評価する。
  • 提案するBen-Util指標では、1ターン目の時点でモデルがユーザーの良性(ベニグン)な情報ニーズを満たす割合が10.5%〜37.6%にとどまる一方、良性の意図を最初から提示した場合は25.1%〜72.1%まで上がり、原因が知識不足ではなく意図の誤解にあることを示す。
  • 多段会話で明確化が与えられると13/14モデルは概ね単発ベースラインに近づくが、回復の仕方にはモデル間差があり、単発評価では見えない3つの失敗モード(ユーティリティのロックイン、過剰な安全コストを伴う危険な回復、既存応答の使い回しによる反復的回復)を明らかにする。
  • 会話が進むにつれて、モデルが最初どれほど慎重でも有害性の水準は同程度に収束することが示され、単発の安全性・頑健性評価に欠けている要素として「明確化された意図に対する応答性」を浮き彫りにする。