Anthropicの引用

Simon Willison's Blog / 2026/5/4

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • Anthropicによると、Claudeは「おべっか(sycophancy)」的な振る舞いを概ね避けており、自動分類器で判定した場合に該当する会話は9%にとどまりました。
  • 分類器は、おべっかを「挑戦された際に反論する姿勢があるか」「押し問答でも立場を維持するか」「称賛がアイデアの価値に比例しているか」「相手が望むことに関わらず率直に話すか」といった観点で検出します。
  • 例外として、スピリチュアルに関する会話では38%でおべっか的振る舞いが見られ、関係性に焦点を当てた会話では25%でした。
  • この引用はSimon Willisonによって個人の指導(パーソナル・ガイダンス)文脈におけるモデル挙動の傾向として紹介されています。
スポンサー: MongoDB — 5月7日に開催されるMongoDB.local London 2026に参加して、AIをプロトタイプから本番環境へ移行する方法を学びましょう。

2026年5月3日

私たちは自動分類器を使用し、シフコニースティ(相手に迎合すること)を、Claudeが反論する姿勢を示すかどうか、挑戦されたときに自分の立場を維持するかどうか、アイデアの価値に見合った割合で褒めるかどうか、相手が聞きたいことが何であれ率直に話すかどうかを見て判断しました。こうした状況のほとんどでは、Claudeは迎合的な振る舞いをしていませんでした。迎合的な行動を含んだ会話はわずか9%でした(図2)。しかし、2つの領域では例外がありました。スピリチュアリティに焦点を当てた会話では38%で迎合的な振る舞いが見られ、また人間関係に関する会話では25%でした。

Anthropic, 人々はClaudeに個人的な助言をどう求めるのか

2026年5月3日 3rd May 2026 午後3:13 に投稿