STAR：転換点アラインメントとセグメント単位DPOによる空間推論におけるカスケーディングエラーの軽減

arXiv cs.CV / 2026/4/2

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文では、トポロジカルアンカーと転換点アラインメントを用いて、LLMベースの構造化された空間ナビゲーションにおけるカスケーディングエラーを軽減するための2段階フレームワークSTARを提案する。
STARの第1段階では教師あり微調整を行い、空間セマンティクスを内面化するとともに、初期の誤りにつながりやすく、その誤りが後続で増幅されがちな冗長な経路を刈り込む。
第2段階では、Spatial-aware Segment-level Direct Preference Optimization（SDPO）を用いて、長期ホライズンのナビゲーション中の自己修正を改善する。
著者らは、人の着想に基づく転換点アノテーションを備えたRedMaze-23Kデータセットを公開し、空間推論のトレーニングおよび評価をより適切に支援することを目的とする。
実験では、オープンソースモデル間で最先端の結果が報告されており、32B版のSTARがDeepSeek-V3を上回る（29.27% vs. 25.00%）とともに、GPT-4性能の82.4%を達成した。

Abstract

構造化された空間ナビゲーションは、大規模言語モデル（LLM）の空間推論における中核的なベンチマークです。Visualization-of-Thought（VoT）のような既存のパラダイムは、複雑なトポロジーにおいて連鎖的な誤りが起きやすいという問題があります。これを解決するために、我々はトポロジカルアンカーに基づく2段階フレームワークSTARを提案し、人間の着想にもとづく転回点アノテーションを備えたRedMaze-23Kデータセットを導入します。第1段階では、教師あり微調整を用いてモデルが空間的意味論を内在化し、冗長な経路を刈り込めるようにします。第2段階では、長期ホライゾンのナビゲーションにおける自己修正を洗練させるために、Spatial-aware Segment-level Direct Preference Optimization（SDPO）を採用します。実験の結果、STARはオープンソースモデルの中で最先端の性能を達成します。32B版はDeepSeek-V3（29.27% vs. 25.00%）を上回り、GPT-4の性能の82.4%に到達します。