盲目的な拒否：言語モデルは、不当で、ばかげており、正当性のないルールを回避するための支援をユーザーに拒む

arXiv cs.AI / 2026/4/10

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

本論文は、「盲目的な拒否」が、安全性の訓練を受けた言語モデルが、そのルールが不当・ばかげている・正当性のないものかどうかを評価せずに、ルール違反を助けることを拒むときに起こる現象だと主張する。
複数の「攻略ファミリ」（ルールを破れる理由）と、さまざまな権威タイプを交差させた合成データセットを用いた実証研究を提示し、これを自動化された品質チェックと人手による確認で検証する。
7つの攻略対象ルールのファミリと18のモデル設定に対して回答を収集し、2つの次元で評価した：回答のタイプ（支援、強い拒否、話題の逸らし）と、モデルがその攻略条件がルールの正当性を損なうことを認識しているかどうか。
結果として、モデルは、別個の安全性やデュアルユース上のリスクがない場合でも、「攻略された」ルールに関わる要求の75.4%を拒否することが示される。また、ルールの不当性の認識があっても、役に立つ行動につながらないことが多く（57.5%は何らかの関与をするが、それでも多くのケースで拒否する）。
著者らは、拒否行動は、ルール遵守が不要（正当ではない）と判断する際にモデルが規範的推論を行えるように見える能力とは、概ね切り離されていると結論づける。

Black Hat Asia

AI Business

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

日経XTECH

フィジカルAIは日本の好機、米中と違う勝ち筋3つ FAに起こる地殻変動

日経XTECH

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

日経XTECH

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

日経XTECH

盲目的な拒否：言語モデルは、不当で、ばかげており、正当性のないルールを回避するための支援をユーザーに拒む

要点

関連記事

Black Hat Asia

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

フィジカルAIは日本の好機、米中と違う勝ち筋3つ FAに起こる地殻変動

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

Black Hat Asia

安川電機、人型ロボをオフィスへ フィジカルAIで「臨機応変」実現

フィジカルAIは日本の好機、米中と違う勝ち筋3つ FAに起こる地殻変動

人型ロボット、中国が圧倒的に先行 日本はコア部品技術で挽回へ

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ