VLM駆動の構造化描画表現による音声同期ホワイトボード生成
arXiv cs.LG / 2026/3/30
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- この論文では、8つのSTEM領域をカバーし、描画要素ごとにミリ秒精度のタイムスタンプを付した、ナレーション音声と対応づけられた24件のExcalidrawデモレーションから成る新しいデータセットを紹介する。
- LoRAで微調整した視覚言語モデル(Qwen2-VL-7B)を評価し、小さなデモセットのみを用いて、音声と同期した構造化ストローク列を生成する。
- トピック層化した5-fold実験により、タイムスタンプを条件付けすることが、除去したベースラインと比べて時間的な整合性を大幅に改善することを示す。
- このモデルは、訓練で見ていないSTEMの対象に対する領域横断の汎化も示しており、学習領域を超えた転移可能性が示唆される。
- 著者らは、この手法を実際の教室における制作ワークフローへ拡張できる可能性や、さらなる研究のためにデータセットとコードを公開することについて議論している。




