「役に立たないが安全？」ユーザーの意図を明確化する多段会話におけるユーティリティ回復のベンチマーク

arXiv cs.CL / 2026/5/1

📰 ニュースSignals & Early TrendsModels & Research

原文を読む →

共有:

要点

本論文は、LLMが最初にユーザーの意図を誤解した場合でも、安全性を維持しつつ有用性（ユーティリティ）を回復できるかを多段の対話で検証するインタラクティブなベンチマーク「CarryOnBench」を提案する。
398件の「一見有害な」質問を用い、14モデルで4〜12ターンの会話フローを5,970件シミュレーションして、計23,880件のモデル応答について、意図整合した有用性と安全性を同時に評価する。
提案するBen-Util指標では、1ターン目の時点でモデルがユーザーの良性（ベニグン）な情報ニーズを満たす割合が10.5%〜37.6%にとどまる一方、良性の意図を最初から提示した場合は25.1%〜72.1%まで上がり、原因が知識不足ではなく意図の誤解にあることを示す。
多段会話で明確化が与えられると13/14モデルは概ね単発ベースラインに近づくが、回復の仕方にはモデル間差があり、単発評価では見えない3つの失敗モード（ユーティリティのロックイン、過剰な安全コストを伴う危険な回復、既存応答の使い回しによる反復的回復）を明らかにする。
会話が進むにつれて、モデルが最初どれほど慎重でも有害性の水準は同程度に収束することが示され、単発の安全性・頑健性評価に欠けている要素として「明確化された意図に対する応答性」を浮き彫りにする。

AIエージェントがソフトウェア開発を行う仮想の会社「CHATDEV」を設立！？

AI-SCHOLAR

人型ロボ、工場から飛び出しオフィスへ「人が多い領域」の自動化を目指す

日経XTECH

データセンター、新技術が育つ場へ日本の部材産業にチャンス

日経XTECH

米アンソロピックが「Cowork」提供 Mythos発表に続くAIエージェント

日経XTECH

BizNodeでのあらゆるハンドル呼び出しにWFIDが付与される—説明責任のためのユニバーサルな取引参照

Dev.to

「役に立たないが安全？」ユーザーの意図を明確化する多段会話におけるユーティリティ回復のベンチマーク

要点

関連記事

AIエージェントがソフトウェア開発を行う仮想の会社「CHATDEV」を設立！？

人型ロボ、工場から飛び出しオフィスへ「人が多い領域」の自動化を目指す

データセンター、新技術が育つ場へ日本の部材産業にチャンス

米アンソロピックが「Cowork」提供 Mythos発表に続くAIエージェント

BizNodeでのあらゆるハンドル呼び出しにWFIDが付与される—説明責任のためのユニバーサルな取引参照

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AIエージェントがソフトウェア開発を行う仮想の会社「CHATDEV」を設立！？

人型ロボ、工場から飛び出しオフィスへ 「人が多い領域」の自動化を目指す

データセンター、新技術が育つ場へ 日本の部材産業にチャンス

米アンソロピックが「Cowork」提供 Mythos発表に続くAIエージェント

BizNodeでのあらゆるハンドル呼び出しにWFIDが付与される—説明責任のためのユニバーサルな取引参照

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

人型ロボ、工場から飛び出しオフィスへ「人が多い領域」の自動化を目指す

データセンター、新技術が育つ場へ日本の部材産業にチャンス