InteractWeb-Bench：マルチモーダルエージェントは対話型Webサイト生成で「ブラインド実行」を脱出できるか？

arXiv cs.AI / 2026/5/1

📰 ニュースModels & Research

共有:

要点

本論文は、理想化された入力ではなく非エキスパートのローコード条件下でWebサイト生成を評価するマルチモーダル対話型ベンチマーク「InteractWeb-Bench」を提案する。
現実でのボトルネックとして、曖昧で質の低い指示とモデル理解の間に起きるセマンティックな不一致によって失敗する「ブラインド実行」という失敗モードを明確化する。
InteractWeb-Benchは、要求工学の欠陥分類に基づき、曖昧さ・冗長性・矛盾などの“指示摂動”をペルソナ主導で行い、4種類のユーザーエージェントで多様な行動を系統的に模擬する。
さらに、Clarify／Implement／Verify／Submitの統一アクション空間を備えた対話型実行環境を構築し、意図の反復的な洗練、コード合成、視覚フィードバックによる検証を可能にする。
実験では、最先端のMLLMベースのエージェントが依然としてブラインド実行に陥り、意図認識や適応的な対話の限界が示される。

要旨: マルチモーダル大規模言語モデル（MLLM）やコーディングエージェントの進展により、ウェブサイト開発は手動プログラミングから、エージェントによるプロジェクト単位のコード合成へと移行してきました。既存のベンチマークは、特に整っており情報量の多い入力や静的な実行設定といった、理想化された前提に依存しています。これに対し、実世界の開発は重要なボトルネックによって制約されます。それは、非専門ユーザからの曖昧で低品質な指示とモデルの理解との間に生じる意味の不整合であり、これが私たちが「ブラインド実行」と呼ぶ失敗モードを引き起こします。このギャップに対処するために、InteractWeb-Bench を提案します。これは、非専門の低コードユーザ条件下でのウェブサイト生成を対象とした、初のマルチモーダルなインタラクティブベンチマークです。InteractWeb-Bench では、要件工学の欠陥タクソノミに基づいて、曖昧さ、冗長さ、矛盾を含む多様なユーザ行動を体系的に模擬するために、4種類のユーザエージェントと、ペルソナに基づく指示の擾乱を導入します。さらに、エージェントのためのインタラクティブ実行環境を開発します。この環境は、Clarify、Implement、Verify、Submit からなる統一された行動空間を備えており、意図の反復的な洗練、コード合成、ならびに視覚的なフィードバックに基づく検証を可能にします。大規模な実験と分析の結果、最前線の MLLM ベースのエージェントでさえブラインド実行に閉じ込められており、意図の認識と適応的な対話に関する限界が明らかになりました。

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

Dev.to

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

ITmedia AI+

GPT-5.5のサイバー攻撃能力は一部「Mythos超え」　英政府機関が評価

ITmedia AI+

ミストラルが新フラッグシップ「Medium 3.5」でチャット・推論・コードを1つのモデルに統合

THE DECODER

なぜ Word2Vec で「hot」と「cold」が近くなるのか？ ― 連想の3分類で読み解く

Qiita

InteractWeb-Bench：マルチモーダルエージェントは対話型Webサイト生成で「ブラインド実行」を脱出できるか？

要点

関連記事

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

GPT-5.5のサイバー攻撃能力は一部「Mythos超え」　英政府機関が評価

ミストラルが新フラッグシップ「Medium 3.5」でチャット・推論・コードを1つのモデルに統合

なぜ Word2Vec で「hot」と「cold」が近くなるのか？ ― 連想の3分類で読み解く

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

ChatGPTの「画像生成」、どう進化？ 開発者に聞く “文字化け解消”の秘訣

GPT-5.5のサイバー攻撃能力は一部「Mythos超え」 英政府機関が評価

ミストラルが新フラッグシップ「Medium 3.5」でチャット・推論・コードを1つのモデルに統合

なぜ Word2Vec で「hot」と「cold」が近くなるのか？ ― 連想の3分類で読み解く

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

GPT-5.5のサイバー攻撃能力は一部「Mythos超え」　英政府機関が評価