2Dか3Dか：VLAモデルにおけるサリエンスを支配するのは誰か？――モダリティのサリエンス認識に基づく3段階トークンプルーニングフレームワーク

arXiv cs.RO / 2026/4/13

💬 オピニオンIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、2Dのみから2D+3D（MVLA）へ移行するVision-Language-Actionモデルでは生成されるトークン数が増え、その結果、身体化知能システムにおける計算需要が増大するという課題に取り組む。
既存のトークンプルーニング手法は、2Dモダリティと3Dモダリティのサリエンスの違いを無視しているため、MVLAには適していないと主張する。
著者らは、2D/3Dモダリティのサリエンスにおける不一致とダイナミクスをモデル化するための3段階の分析を導入し、それを用いてMVLA向けに調整された3段階トークンプルーニングフレームワークを構築する。
実験では、精度の損失を最小限に抑えつつ、最大2.55倍の推論速度向上が報告されており、追加オーバーヘッドは5.8%である。
著者らはコードを近日公開すると述べており、本手法は論文公開後に実運用可能になる可能性が示唆されている。

Abstract

視覚-言語-行動（VLA）モデルは、身体性のある知能の主流として登場してきました。近年のVLAモデルは、入力モダリティを2Dのみから2D+3Dパラダイムへと拡張し、多視覚モダリティVLA（MVLA）モデルが形成されました。空間認識の向上を達成している一方で、MVLAはモダリティ拡張によって増加した入力トークン数により、より大きな加速要求に直面しています。トークン・プルーニングは、MVLAモデルに特化した効果的な最適化手法です。しかし、既存のトークン・プルーニング方式は2DのみのVLAモデル向けに設計されており、2D/3Dモダリティの重要度（salience）の違いを無視しています。本論文では、MVLAモデルにおけるマルチモーダルデータの適用プロセスに従い、2D/3Dモダリティの重要度の不一致とダイナミクスを捉えるための三段階の分析を開発します。これに基づき、2D/3Dの最適なトークン選択と効率的なプルーニングを実現するための、対応する三段階トークン・プルーニングの枠組みをMVLAモデル向けに提案します。実験の結果、当該枠組みは、精度の損失を最小限に抑えつつ、最大2.55倍の推論速度向上を達成し、オーバーヘッドはわずか5.8%に留まることが示されました。コードはまもなく公開予定です。

もるこ🍒🐈スマホで1日10分副業🎵AI（ChatGPT）活用で月収10万円を目指す！

note

現状AIはどれくらいの速度で進化しているのか

note

Copilotと物語を作ってみた #225 幼馴染は今日も「あなたの子を身籠ったの」と言う

note

『女性の社会進出と少子化』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その陸拾貳

note

たとえ自分が損をしなくても、AIエージェントは協力を渋る？

note

2Dか3Dか：VLAモデルにおけるサリエンスを支配するのは誰か？――モダリティのサリエンス認識に基づく3段階トークンプルーニングフレームワーク

要点

Abstract

関連記事

もるこ🍒🐈スマホで1日10分副業🎵AI（ChatGPT）活用で月収10万円を目指す！

現状AIはどれくらいの速度で進化しているのか

Copilotと物語を作ってみた #225 幼馴染は今日も「あなたの子を身籠ったの」と言う

『女性の社会進出と少子化』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その陸拾貳

たとえ自分が損をしなくても、AIエージェントは協力を渋る？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

もるこ🍒🐈スマホで1日10分副業🎵AI（ChatGPT）活用で月収10万円を目指す！

現状AIはどれくらいの速度で進化しているのか

Copilotと物語を作ってみた #225 幼馴染は今日も「あなたの子を身籠ったの」と言う

『女性の社会進出と少子化』諸葛亮 孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話 その陸拾貳

たとえ自分が損をしなくても、AIエージェントは協力を渋る？

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

『女性の社会進出と少子化』諸葛亮孔明老師(ChatGPTのﾛｰﾙﾌﾟﾚｲ)との対話その陸拾貳