DSFlash: リアルタイムでの包括的パンノプティック・シーン・グラフ生成
arXiv cs.CV / 2026/3/12
📰 ニュースModels & Research
要点
- DSFlashは、標準のRTX 3090上で1秒あたり56フレームで動作する低レイテンシのパンノプティック・シーン・グラフ生成モデルを提示し、リアルタイムのビデオ処理を可能にします。
- 従来のアプローチが顕著な関係性に焦点を当てるのとは異なり、DSFlashは包括的なシーングラフを出力して、速度を損なうことなくより豊かな文脈情報を提供します。
- このモデルは計算資源に対して非常にアクセスしやすく、単一の9年前の GTX 1080 GPUで訓練するのに24時間未満しかかからないため、資源が限られた研究者の参加を広げます。
- リソース制約のあるエッジデプロイメントを具現化エージェントとダウンストリーム推論タスクに対して対象とすることで、研究と実用的AIアプリケーションを橋渡しします。
要旨: Scene Graph Generation (SGG) は、画像から詳細なグラフ構造を抽出することを目的とする、具現化エージェントの推論のような複雑な下流タスクの堅牢な中間ステップとして重要な可能性を持つ表現です。しかし、現実世界のアプリケーションへの実用的な展開、特にリソース制約のあるエッジデバイス上では、速度とリソース効率が求められます。これらの課題は既存の研究で十分に検討されていませんでした。このギャップを埋めるべく、DSFlashを導入します。これは、これらの制限を克服するよう設計された、パンノプティック・シーン・グラフ生成の低レイテンシモデルです。DSFlashは標準的なRTX 3090 GPU上で1秒あたり56フレームの動画ストリームを処理でき、既存の最先端手法に匹敵する性能を損なうことはありません。重要なのは、従来のアプローチがしばしば顕著な関係性だけに限定しがちであるのに対し、DSFlashは包括的なシーン・グラフを計算し、優れたレイテンシを維持しつつ、より豊かな文脈情報を提供することです。さらに、DSFlashはリソースをほとんど必要とせず、単一の9年前の GTX 1080 GPUで訓練するのに24時間未満しかかからないという特徴があります。このアクセス性は、限られた計算資源で作業する研究者や実務家にとってDSFlashを特に適したものにし、専門的なアプリケーションのためにSGGモデルを適応・微調整する力を与えます。




