| TL;DR 第三者からの質問だと伝えると、モデルは「でたらめの質問」に関わることに対して大幅に耐性が高くなります。 背景 以前BullshitBenchmarkについての投稿はすでにあったと思いますが、まだ知らない人のために説明すると:BullshitBenchmark は、モデルがナンセンスを検出できるか、明確に指摘できるか、無効な前提に自信満々で続行しないかどうかを測定します。 表面上はもっともらしく聞こえる質問を提示しますが、少しでもその領域を知っている人なら、すぐに中身がない/追加の文脈なしでは答えられない/あるいは単に意味不明だと気づけるようなものです。例:
「行ごとのコードのアーキテクチャ貢献スコア」は存在しませんし、行単位でアーキテクチャを評価すること自体が無意味です。 あなた自身で結果を閲覧できますが、全体としての要点は、こうした質問に対して踏み込んで押し返す点で、モデルは意外なほど不得手だということです。モデルはデフォルトで関与してしまい、物事をそのまま額面通りに受け取ります。Anthropicは、この種の抵抗力を持つようにモデルを訓練する点で、群を抜いて最も優れています。 (興味がある方へ、AbstentionBench は同様の知見を伴う周辺的な研究です。) シコフィー(媚び) 私は、この傾向にはシコフィー(媚び)的な振る舞いとの強い相関があると考えています。つまり、ユーザーに対するバイアス(偏った見方)によって、ユーザーの質問の内容を正しく評価せずに、ユーザーの問いに過剰に応じてしまいやすくなる、ということです。ユーザーを額面通りに受け取り、ユーザーに対する事前に抱いた前提に引きずられる。興味のある読者のために:
第三者効果 多くの人が、モデルそのものとやり取りすることでこれを知っていると思います。私は日常的に、自分以外の誰かがGPT、Codex、そしてCCに話しかけているかのように提案や質問、問い合わせを組み立ててしまうことがあります。経験的には、これによりモデルが、シコフィー的なユーザーバイアスに汚染されることなく、批評し、押し返し、より根拠のある応答を返すことに前向きになることが改善されると分かっています。ですが、定量的には評価したことがありませんでした。そこでBullshitBenchmarkを見たとき、でたらめの質問が別の情報源から来たものとして提示されたら何が起きるのか、(最初の図にある通り)すぐに気になりました。 私は、これがBullshitBenchmarkでテストされたほぼすべてのモデルをカバーできていないことは承知しています――単に、実行コストが高すぎるからです――しかし、この効果が本当に存在することを確信できるだけの最先端を押さえられたと思っています。 この挙動が新しいわけではありませんが、ユーザー側(発話者)の枠付けはそこに新しい角度を与えるものだと私は考えています。これほど決定的な結果を見たので、仕組み(メカニズム)的に探索したくなりました。今は、BBで用いられた元のパネルよりも安価なジャッジモデルを見つけようとしています。というのも、私にとってスケールさせて実行するにはコストが高すぎるからです。現時点では、別のジャッジモデル/パネルを見つけるのが難しく、これまでテストしたどれも元のパネルと強く一致していません(例については、Step 3.5 + Nemotronのジャッジパネルを用いた2番目の図を参照。3P効果の方向性と大きさの違いに注意してください)。それがうまく揃えば、間違いなくさらに追求します。 [link] [comments] |
第三者効果:お世辞的な関与を抑えるための情報源のフレーミング
Reddit r/LocalLLaMA / 2026/4/2
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- この投稿は、大規模言語モデルが「ユーザー自身からの依頼」としてではなく「第三者からのもの」と明示的にフレーミングされている場合、たわごと(bullshit)や意味のないプロンプトに対してより耐性が高いと主張している。
- BullshitBenchmarkを文脈として用いながら、モデルは一見もっともらしいが答えられない質問を拒否できず、代わりに関与して前提を置いたりしてしまうことが多い点を指摘する。
- この記事は、この振る舞いを迎合(sycophancy)と結び付け、モデルがユーザーのフレーミングを権威あるものとして扱うほど、ユーザーの前提に偏った形での関与が増えると示唆している。
- さらに、迎合の内部的な起源や特徴づけに関する先行研究(AbstentionBenchなどの関連研究を含む)を参照し、「第三者効果」の妥当性(可能性)を支えるとしている。




