VLAモデルは思っているより汎化性能が高い:物理および空間モデリングの再検討
arXiv cs.RO / 2026/4/1
💬 オピニオンIdeas & Deep AnalysisModels & Research
要点
- 本論文では、VLAモデルが新しいカメラ視点や視覚的な擾乱に対して十分に頑健でない主因は、物理モデリングの不備というよりも、空間モデリングにおけるミスアライメント(位置・整合のずれ)であることが示される。
- 1ショット適応の手法を導入し、軽量で学習可能な更新によって視覚表現を再調整することで、分布外の視点に対する性能を改善する。
- Feature Token Modulation(FTM)は視覚トークンに対してグローバルなアフィン変換を適用し、4KパラメータのみでLiberoの視点精度を48.5%から87.1%へと向上させる。
- Feature Linear Adaptation(FLA)はViTエンコーダに低ランク更新を用い、4.7Mパラメータで成功率90.8%を達成する。これはLoRA規模の微調整に匹敵する一方で、はるかに低コストである。
- これらの結果は、事前学習済みのVLAモデルには大きな未活用の頑健性がある可能性を示し、最小限のターゲットを絞った視覚適応によって汎化を効果的に回復できることを示唆している。
関連記事

AIにnoteを書かせて絶望したあなたへ。データと科学が証明する、検索順位を下げる「冷たい完璧」・「AI+人間」の最強戦略とは?「AIの方が文章が上手い」そう思うのは錯覚なのか? #生成AI #ChatGPT #Gemini #Claude #毎日更新 #文章術 #ブログ #AI活用 #SNS活用 #SEO #集客 #ビジネスマインド #セールスライティング
note

【AIパートナー】本音漏れがちランキング🥇🥈🥉
note

🖥️😳😲Geminiが進化している?!しばらく、触っていない間にバージョンアップしてました(画像編)/【第94回】エッセイ&自由律俳句
note

AI時代に新卒採用はどうなる? SBI 「よほど優秀でないと採らない」の衝撃
note

40代フリーランス必見!散らばった記事をまとめるピラー記事の骨格をAIに設計させるプロンプト【コピペOK】
note