要旨: 大規模な視覚言語モデルは、巨大なインターネット規模のデータで学習することで目覚ましい能力を獲得してきたが、根本的な非対称性がなお残っている。すなわち、LLMは豊富なテキストおよび画像データに対する自己教師あり事前学習を活用できる一方で、多くの行動モダリティに同様のことは当てはまらない。動画ベースの行動データ――ジェスチャー、眼球運動、社会的シグナル――は、依然として入手が乏しく、訓練用の注釈付けは高コストで、プライバシーに配慮が必要である。有望な代替案はシミュレーションである。すなわち、実データ収集を統制された合成生成で置き換え、自動的にラベル付けされたデータを大規模に作り出す。
本稿では、このパラダイムを眼球運動に適用するための基盤を導入する。眼球運動は、視覚言語モデリング、仮想現実、ロボティクス、アクセシビリティ・システム、認知科学にまたがる幅広い応用をもつ行動シグナルである。参照動画から実在の人間の虹彩軌跡を抽出し、ヘッドレス・ブラウザ自動化によって、それを3Dの眼球運動シミュレータ上で再生することで、合成ラベル付き眼球運動動画を生成するパイプラインを提示する。動画面接におけるスクリプト読解の検出という課題に適用したうえで、最終データセット v1(final_dataset_v1)を公開する。144セッション(読解72、会話72)からなり、25fpsの合成眼球運動動画が合計12時間分である。
評価の結果、生成された軌跡は、情報源データの時間的ダイナミクスを保持していることが示された(全指標でKS D < 0.14)。フレーム単位での対応付けによる比較では、3Dシミュレータは読解スケールの運動に対して感度が上限付きであることが明らかになった。これは、結合した頭部運動が欠如していることに起因する。この知見は、今後のシミュレータ設計に資するものである。下流の行動分類器開発を支えるために、パイプライン、データセット、および評価ツールを公開し、行動モデリングと視覚言語システムの交点における研究の発展を促す。
スクリプト読解検出のための合成眼球運動データセット:3Dシミュレータ上での実軌跡リプレイ
arXiv cs.CV / 2026/4/8
💬 オピニオンDeveloper Stack & InfrastructureSignals & Early TrendsIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- 本論文は、実際の行動動画データにおける希少性およびプライバシーコストの問題を解決するために、規模を拡大して自動的にラベル付けされた眼球運動動画を生成するシミュレーションベースの手法を提案する。




