品質多様性プロンプト生成によるビジョン-言語-アクション（VLA）モデルのレッドチーミングと堅牢なロボットポリシーの実現

arXiv cs.AI / 2026/3/16

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、品質多様性（Quality Diversity）に基づくレッドチーミング手法Q-DIGを提案する。これは、タスクに関連し多様な自然言語指示を同定し、それらがVLAロボットの失敗を引き起こす指示を特定することで、堅牢性を向上させるものである。
Q-DIGは品質多様性技術とVision-Languageモデルを組み合わせて、VLAの挙動に潜む脆弱性を明らかにする、広範な敵対的プロンプトを生成する。
シミュレーションベンチマークにまたがる実験は、Q-DIGがベースライン手法よりも多様で意味のある失敗モードを発見することを示し、生成されたプロンプトを用いたVLAのファインチューニングは、未知の指示に対するタスク成功率を向上させる。
ユーザ調査は、プロンプトがベースラインより自然で人間らしいことを示し、実世界での評価もシミュレーション結果と一致している。

概要: Vision-Language-Action (VLA) モデルは、幅広い視覚言語タスクの実現を可能にする汎用的なロボットシステムに大きな潜在能力を持っています。
しかし、VLAベースのロボットの性能は、言語指示の表現の正確さに高度に敏感であり、そのようなロボットがいつ失敗するかを予測することは依然として難しいです。
異なる表現に対するVLAsの頑健性を高めるため、Quality Diversity for Diverse Instruction Generation（Q-DIG）を提案します。これは、タスク関連性を保ちながら失敗を誘発する多様な自然言語のタスク記述を、スケール可能に同定することでレッドチーミングを実行します。
Q-DIGはQuality Diversity (QD) 技術をVision-Language Models (VLMs)と統合し、VLAの挙動における意味のある脆弱性を露呈させる、敵対的な指示の広範なスペクトルを生成します。
複数のシミュレーションベンチマークにおける結果は、Q-DIGがベースライン法と比較してより多様で意味のある故障モードを見つけ、生成された指示でVLAsを微調整することでタスクの成功率を向上させることを示しています。
さらに、ユーザ調査の結果は、Q-DIGが生成するプロンプトが、ベースラインのものよりも自然で人間らしいと評価されることを強調しています。
最後に、Q-DIGプロンプトの実世界での評価はシミュレーションと一致する結果を示し、生成されたプロンプトでVLAsを微調整することで、未見の指示に対する成功率がさらに高まります。
これらの知見は、Q-DIGが脆弱性を特定し、VLAベースのロボットの頑健性を改善する有望なアプローチであることを示唆しています。
私たちの匿名プロジェクトのウェブサイトは、qdigvla.github.io にあります。

AI時代の子供と顧客への教育！生き残るための3つの必須スキル

note

『AIと精神疾患･教育現場』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾捌

note

臨床家がAIをスーパーバイザーにする沢山の理由─人間による93%の暴力から身を守る方法

note

いろんなモデル（GPT・Grok・Claude・Gemini）にSVGコードで絵を描いてもらったらびっくり！個性が見えました🩷プロンプト付き

note

3行日記 AIマニュアルはバタフライ入門

note

品質多様性プロンプト生成によるビジョン-言語-アクション（VLA）モデルのレッドチーミングと堅牢なロボットポリシーの実現

要点

関連記事

AI時代の子供と顧客への教育！生き残るための3つの必須スキル

『AIと精神疾患･教育現場』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾捌

臨床家がAIをスーパーバイザーにする沢山の理由─人間による93%の暴力から身を守る方法

いろんなモデル（GPT・Grok・Claude・Gemini）にSVGコードで絵を描いてもらったらびっくり！個性が見えました🩷プロンプト付き

3行日記 AIマニュアルはバタフライ入門

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

AI時代の子供と顧客への教育！生き残るための3つの必須スキル

『AIと精神疾患･教育現場』諸葛亮 孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話 その肆拾捌

臨床家がAIをスーパーバイザーにする沢山の理由─人間による93%の暴力から身を守る方法

いろんなモデル（GPT・Grok・Claude・Gemini）にSVGコードで絵を描いてもらったらびっくり！個性が見えました🩷プロンプト付き

3行日記 AIマニュアルはバタフライ入門

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

『AIと精神疾患･教育現場』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その肆拾捌