大規模言語モデルからのセマンティック特権情報（SPI）でエキスパートのように運転スタイル認識を行う

arXiv cs.RO / 2026/5/6

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、既存の運転スタイル認識が低レベルのセンサ特徴に依存しがちであり、人間が運転行動を判断する際の豊かなセマンティック推論を取りこぼしていると主張しています。
そのギャップを埋めるため、LLM（大規模言語モデル）から得たセマンティック特権情報（SPI）を用いて、認識結果を人間の解釈可能な判断により整合させる新しい枠組みを提案しています。
DriBehavGPTを導入し、運転行動を自然言語で記述させたうえで、その記述をテキスト埋め込みと次元削減により機械学習可能な表現へ変換します。
SPIをSupport Vector Machine Plus（SVM+）の学習に組み込み、人間に近い解釈パターンを近似できるようにしていますが、推論時はセンサデータのみを使うため計算効率を維持します。
実世界の多様な運転シナリオでの実験では、従来手法に比べてF1スコアが車間追従で7.6%、車線変更で7.9%向上し、効果を示しています。

概要: 既存の運転スタイル認識システムは、大きくは低レベルのセンサー由来特徴に依存して学習しており、人間の専門家に備わる豊かな意味論的推論能力を十分に活用していません。この不一致は、アルゴリズムによる分類と専門家の判断との間に、根本的な不整合を生み出します。このギャップを埋めるために、本研究では、大規模言語モデル（LLM）から導出されるセマンティック特権情報（Semantic Privileged Information: SPI）を統合して、認識結果を人間が解釈可能な推論に整合させる新しい枠組みを提案します。まず、人間が理解できる運転行動の自然言語による記述を生成する、対話型のLLMベースモジュールであるDriBehavGPTを導入します。次に、これらの記述をテキスト埋め込みと次元削減によって、機械学習に適した表現に符号化します。最後に、それらを特権情報としてSupport Vector Machine Plus（SVM+）に組み込み、モデルが人間に近い解釈パターンを近似できるようにします。多様な実世界の運転シナリオにまたがる実験により、SPIを強化した本枠組みが従来手法を上回り、F1スコアがそれぞれ7.6%（車間追従）および7.9%（車線変更）向上することを示します。重要な点として、SPIは学習時にのみ使用され、推論ではセンサデータのみを用いるため、性能を損なうことなく計算効率を確保できます。これらの結果は、意味論的な行動表現が認識精度を向上させる上で重要な役割を果たしつつ、解釈可能で人間中心の運転システムを前進させることを示しています。