強化学習によるVLMにおける神経記号論的・言語ベース推論の動機付け
arXiv cs.CL / 2026/4/27
📰 ニュースDeveloper Stack & InfrastructureIdeas & Deep AnalysisModels & Research
要点
- この論文は、視覚と言語を扱うモデル(VLM)において言語ベースの推論を神経記号論的に行うアプローチを提案し、分析的推論の性能と効率の改善を検証しています。
- Qwen3-VL-2B-Instruct を基に、4× NVIDIA H200 GPU ノードで強化学習の設定を行った結果、数学・理科・一般知識の問題からなる視覚言語ベンチマークで精度が3.33%向上したと報告されています。
- 同時に、SymPyとの比較で推論トークンを75%削減し、推論に必要な計算コストを大幅に下げられる点も示されています。
- 著者は計算面での課題やスケーリング可能性、今後の「考える仕組み(thinking systems)」を神経記号論的言語で高めるための展望についても述べ、学習・推論の手順を公開リポジトリで共有しています。




