STAR:転換点アラインメントとセグメント単位DPOによる空間推論におけるカスケーディングエラーの軽減
arXiv cs.CV / 2026/4/2
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文では、トポロジカルアンカーと転換点アラインメントを用いて、LLMベースの構造化された空間ナビゲーションにおけるカスケーディングエラーを軽減するための2段階フレームワークSTARを提案する。
- STARの第1段階では教師あり微調整を行い、空間セマンティクスを内面化するとともに、初期の誤りにつながりやすく、その誤りが後続で増幅されがちな冗長な経路を刈り込む。
- 第2段階では、Spatial-aware Segment-level Direct Preference Optimization(SDPO)を用いて、長期ホライズンのナビゲーション中の自己修正を改善する。
- 著者らは、人の着想に基づく転換点アノテーションを備えたRedMaze-23Kデータセットを公開し、空間推論のトレーニングおよび評価をより適切に支援することを目的とする。
- 実験では、オープンソースモデル間で最先端の結果が報告されており、32B版のSTARがDeepSeek-V3を上回る(29.27% vs. 25.00%)とともに、GPT-4性能の82.4%を達成した。




