強化学習によるVLMにおける神経記号論的・言語ベース推論の動機付け

arXiv cs.CL / 2026/4/27

📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research

共有:

要点

この論文は、視覚と言語を扱うモデル（VLM）において言語ベースの推論を神経記号論的に行うアプローチを提案し、分析的推論の性能と効率の改善を検証しています。
Qwen3-VL-2B-Instruct を基に、4× NVIDIA H200 GPU ノードで強化学習の設定を行った結果、数学・理科・一般知識の問題からなる視覚言語ベンチマークで精度が3.33%向上したと報告されています。
同時に、SymPyとの比較で推論トークンを75%削減し、推論に必要な計算コストを大幅に下げられる点も示されています。
著者は計算面での課題やスケーリング可能性、今後の「考える仕組み（thinking systems）」を神経記号論的言語で高めるための展望についても述べ、学習・推論の手順を公開リポジトリで共有しています。

Abstract

世界には7,407の言語があります。しかし、世界に存在しない言語はどうでしょうか？人間はとても偏狭で、私たちが異星人がどの言語で意思疎通しているのかを気にしないのでしょうか？異星人も人間です！2016年の映画『メッセージ（Arrival）』では、エイミー・アダムスが言語学者のルイーズ・バンクス博士を演じます。彼女は、非逐次的な文から成る異星人の言語（ヘプタポッド）で考えることを学ぶことで、時間を超えて未来を見通す能力を得ます。本研究では、神経記号論的言語における視覚言語概念の表現と推論を探究し、「思考システム」の分析的推論能力と効率の向上を検討します。基盤モデルとしてQwen3-VL-2B-Instructを用い、4 × Nvidia H200のGPUノードを使用することで、数学・科学・一般知識の質問から成る視覚言語評価データセットにおいて、SymPyに比べて推論トークンを75%削減しつつ、精度を3.33%向上させることを達成しました。計算上の課題、スケーリングの可能性、そして視覚言語モデルにおいて神経記号論的言語で思考を改善するための今後の課題を記録しました。学習および推論のセットアップは以下で確認できます: https://github.com/i-like-bfs-and-dfs/wolfram-reasoning.