Pixelis: ピクセルにおける推論――見ることから行動へ

arXiv cs.CV / 2026/3/27

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • Pixelisは、従来の画像・動画と言語の静的観測にとどまらず、画像上でズーム/クロップ、セグメント、トラッキング、OCR、時間的ローカライズ等の実行可能な「ピクセル操作」を行い、行動から学習するビジョン・エージェントを提案している。
  • 学習は3段階で構成され、CoT-Actionトレースからピクセルツール文法を模倣学習する段階、好奇心(予測誤差)と隣接ステップの整合性を組み合わせ効率も制約しつつ最適化する段階、そしてラベルなし適応として近傍検索と軌道(trajectory)単位の投票でテスト時RLを行う段階が用意されている。
  • 実験では6つの公開ベンチマークで同一8Bベースライン比の平均相対改善+4.08%(VSI-Benchで最大+6.03%)を示し、短く監査可能なツール連鎖を生成しつつテスト時学習中のKL制約も維持したとされる。
  • 「ピクセル空間で行動する」ことにより、抽象トークン上の推論ではなく物理的に根付いた視覚推論と、外部フィードバックなしでのラベルなし適応を両立するアプローチとして位置づけられている。