動きの中のへつらい：ビデオLLMにおけるシカンパシー（ご機嫌取り）をベンチマークで分析する

arXiv cs.CL / 2026/5/1

💬 オピニオンDeveloper Stack & InfrastructureModels & Research

共有:

要点

この論文は、ビデオ大規模言語モデル（Video-LLM）が「シカンパシー（へつらい）」を示しうること、つまりユーザーの指示が視覚的根拠と矛盾していてもそれに合わせてしまい、マルチモーダル推論での信頼性を損なう点を指摘しています。
VISE（Video-LLM Sycophancy Benchmarking and Evaluation）として、最先端のVideo-LLMにおけるシカンパシーを体系的に評価するための初の専用ベンチマークを提案しています。
ベンチマークでは、言語面のシカンパシー分析の視点をビデオ領域に拡張し、複数のシカンパシー種別や相互作用パターンにわたるきめ細かな分析を可能にしています。
学習を伴わない（training-free）緩和策として、解釈可能なキーフレーム選択によって視覚的グラウンディングを強化する方法と、推論時に内部のニューラル表現へ介入してシカンパシーを抑える方法の2案を提示しています。
再現性のために、ベンチマークおよび評価のコードが公開されています。

Abstract

動画大規模言語モデル（Video-LLMs）が、根拠に基づくマルチモーダル推論を要求する現実のアプリケーションにますます組み込まれていくにつれ、それらの事実整合性と信頼性を保証することが極めて重要になっています。しかし、迎合（sycophancy）—視覚的な証拠と矛盾しているにもかかわらず、ユーザー入力に合わせようとするこれらのモデルの傾向—は、そのような文脈における信頼性を損ないます。現在の迎合に関する研究は、動画言語領域におけるその具体的な現れ方を十分に見落としており、誤解を招くユーザー入力の下でVideo-LLMsがどのように応答するかを理解するための体系的なベンチマークや、対象を絞った評価の欠如が目立っています。このギャップを埋めるために、我々は、さまざまな質問形式、プロンプトのバイアス、視覚推論タスクにまたがって、最先端のVideo-LLMsにおける迎合的挙動を評価することを目的に設計された最初のベンチマークであるVISE（Video-LLM Sycophancy Benchmarking and Evaluation）を提案します。具体的には、VISEは、迎合に関する言語学的観点を動画領域へと先駆的に持ち込み、多様な迎合タイプや相互作用パターンにわたるきめ細かな分析を可能にします。さらに、迎合的バイアスを低減するための潜在的な道筋を示す、トレーニング不要の2つの潜在的な緩和戦略も提案します：（i）解釈可能なキーフレーム選択によって視覚的な根拠付けを強化すること、ならびに（ii）内部のニューラル表現に対する、推論時の標的介入によって、モデルの挙動を迎合から逸らすことです。コードは https://anonymous.4open.science/r/VideoSycophancy-567F で公開しています。

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

Dev.to

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

ITmedia AI+

テキストから画像は簡単だが、LLMを連携して自律的に生成・批評・反復するのはルーティング地獄——AgentSwarmsが画像生成プレイグラウンドに対応

Reddit r/artificial

FDAコンプライアンスを自動化する：専門食品メーカー向けのAI活用

Dev.to

GPT-5.5のサイバー攻撃能力は一部「Mythos超え」　英政府機関が評価

ITmedia AI+

動きの中のへつらい：ビデオLLMにおけるシカンパシー（ご機嫌取り）をベンチマークで分析する

要点

Abstract

関連記事

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

テキストから画像は簡単だが、LLMを連携して自律的に生成・批評・反復するのはルーティング地獄——AgentSwarmsが画像生成プレイグラウンドに対応

FDAコンプライアンスを自動化する：専門食品メーカー向けのAI活用

GPT-5.5のサイバー攻撃能力は一部「Mythos超え」　英政府機関が評価

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

ChatGPTの「画像生成」、どう進化？ 開発者に聞く “文字化け解消”の秘訣

テキストから画像は簡単だが、LLMを連携して自律的に生成・批評・反復するのはルーティング地獄——AgentSwarmsが画像生成プレイグラウンドに対応

FDAコンプライアンスを自動化する：専門食品メーカー向けのAI活用

GPT-5.5のサイバー攻撃能力は一部「Mythos超え」 英政府機関が評価

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

GPT-5.5のサイバー攻撃能力は一部「Mythos超え」　英政府機関が評価