VLMは本当に「ローソク足」を「読む」のか? 視覚的株価予測のためのマルチスケール・ベンチマーク

arXiv cs.LG / 2026/4/15

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisModels & Research

要点

  • 本論文は、視覚と言語モデル(VLM)による視覚的株価予測に関する先行ベンチマークが、モデルが視覚入力からローソク足チャートのパターンを本当に理解しているかどうかを十分に検証できていないと主張する。
  • 人間のアナリストが長期トレンドと短期の転換(inflection)に関する手がかりをどのように統合するかを反映するために、新しいマルチスケールのローソク足データセットと標準化された評価フレームワークを導入する。
  • 評価では、混同行列による診断と情報係数(IC)の時系列指標を用い、特徴ベースの時間的ベースラインとしてXGBoostも含める。
  • ベンチマークに代表的なVLMを用いた結果、モデルはしばしば持続的な上昇トレンド/下降トレンドのレジームで主に機能している一方で、より典型的な市場条件では性能が弱いことが示される。
  • 本研究は、有意な予測バイアスと、ユーザが指定する予測ホライズンへの感度が限定的であることを見出し、VLMの精密な時間的推論には制約があることを示唆する。

Abstract

画像と言語のモデル(VLM)は、視覚的な株価予測にますます適用されているが、既存のベンチマークはローソク足チャートにおける株価理解を十分に評価できていない。まず、先行研究では、視覚入力の理解が予測性能を実際にどれだけ向上させるか、そしてVLMがローソク足パターンを本当に理解しているかを、うまく切り分けられていない。さらに、既存のほとんどのデータセットと評価設定は、単一期間または表形式の入力を前提として設計されている。しかし、人間のアナリストは強くマルチスケールのローソク足チャートに依拠しており、より長い時間軸はトレンドの方向を捉え、より短い時間軸は転換点の手がかりを与える。そのため、短期と長期の視覚的な市場ダイナミクスを統合するVLMの能力を体系的に評価することが難しい。このギャップを埋めるために、我々はマルチスケールのローソク足チャートのデータセットと、マルチスケールの視覚的市場シグナルを利用するVLMの能力を評価する標準化された評価フレームワークを構築する。評価は、混同行列ベースの診断と、情報係数(IC)の時系列指標を組み合わせて行い、特徴量ベースの時間的ベースラインとしてXGBoostを含める。このデータセットを用いて、代表的なVLMをベンチマークし、マルチスケールの株価データを活用する能力を分析する。実験結果は、多くのVLMが永続的な上昇トレンドまたは下降トレンドの条件下では良好に機能する一方、より一般的な市場シナリオでは予測能力が弱いことを示している。また、予測ホライズンをプロンプトで明示した場合でも有意な予測バイアスと限定的な感度しか示さず、精密な時間的推論に内在する制約があることが示唆される。