VLMは本当に「ローソク足」を「読む」のか? 視覚的株価予測のためのマルチスケール・ベンチマーク
arXiv cs.LG / 2026/4/15
💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research
要点
- 本論文は、視覚と言語モデル(VLM)による視覚的株価予測に関する先行ベンチマークが、モデルが視覚入力からローソク足チャートのパターンを本当に理解しているかどうかを十分に検証できていないと主張する。
- 人間のアナリストが長期トレンドと短期の転換(inflection)に関する手がかりをどのように統合するかを反映するために、新しいマルチスケールのローソク足データセットと標準化された評価フレームワークを導入する。
- 評価では、混同行列による診断と情報係数(IC)の時系列指標を用い、特徴ベースの時間的ベースラインとしてXGBoostも含める。
- ベンチマークに代表的なVLMを用いた結果、モデルはしばしば持続的な上昇トレンド/下降トレンドのレジームで主に機能している一方で、より典型的な市場条件では性能が弱いことが示される。
- 本研究は、有意な予測バイアスと、ユーザが指定する予測ホライズンへの感度が限定的であることを見出し、VLMの精密な時間的推論には制約があることを示唆する。




