SLARM：動的シーン向けのストリーミングおよび言語整合型再構成モデル

arXiv cs.CV / 2026/3/25

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、動的シーンの再構成、セマンティック理解、そしてリアルタイムのストリーミング推論を単一の枠組みに統合するためのフィードフォワードモデルSLARMを提案する。
SLARMは、高次のモーションモデリングによって複雑で非一様な動きを扱い、明示的なフロー監督を用いず、微分可能なレンダリングのみで学習する。
LSegから言語整合的なセマンティック表現を蒸留し、自然言語によるセマンティックなクエリを可能にするとともに、セマンティクスとジオメトリを密に結び付けることで、精度と頑健性を向上させる。
低遅延のストリーミングのために、SLARMはウィンドウベースの因果的注意を用いて画像系列を処理し、メモリコストの蓄積なしに安定性を維持する。
報告された結果では、SLARMは最先端の性能を達成しており、動作精度が21%向上、再構成PSNRが+1.6 dB、既存手法に対してセグメンテーションのmIoUが+20%となっている。

要旨: 本稿では、動的シーン再構成、セマンティック理解、およびリアルタイムのストリーミング推論を統合するフィードフォワードモデルであるSLARMを提案します。SLARMは、高次のモーションモデリングにより複雑で非一様な運動を捉えます。さらに、フローの教師信号なしに、微分可能なレンダリングのみで学習します。加えて、SLARMはLSegからセマンティック特徴を蒸留し、言語整合した表現を得ます。この設計により、自然言語によるセマンティックなクエリが可能になり、セマンティクスと幾何の密な結合が、動的再構成の精度と頑健性をさらに高めます。さらにSLARMは、ウィンドウベースの因果的注意により画像列を処理し、メモリコストを蓄積することなく安定した低遅延のストリーミング推論を実現します。この統合フレームワークのもとでSLARMは、動的推定、レンダリング品質、シーンパースにおいて先端（SOTA）の結果を達成し、既存手法に比べて運動の精度を21%向上させ、再構成PSNRを1.6 dB向上させ、セグメンテーションmIoUを20%向上させます。

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

日経XTECH

機械学習・ディープラーニングにおける数学の必要性

日経XTECH

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

日経XTECH

Santa Augmentcode Intent Ep.6

Dev.to

あなたのエージェントが別のエージェントを雇った。出力はゴミだった。金も消えた。

Dev.to

SLARM：動的シーン向けのストリーミングおよび言語整合型再構成モデル

要点

関連記事

人型ロボットは建設業で使えるか、建設RXコンソーシアム・村上会長に聞く

機械学習・ディープラーニングにおける数学の必要性

文書の内容を学習なしでLLMに反映、Sakana AIの新技術 RAG代替は可能か

Santa Augmentcode Intent Ep.6

あなたのエージェントが別のエージェントを雇った。出力はゴミだった。金も消えた。

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer