Gemma 4 26B(26B)を実用に:2,400回の決算発表から売買シグナルを抽出してみたら「当たる」と「ほぼ騙される」があった

Reddit r/LocalLLaMA / 2026/4/20

💬 オピニオンSignals & Early TrendsTools & Practical UsageIndustry & Market MovesModels & Research

要点

  • 研究者はローカルの「Gemma 4 26B」モデルを使い、3年間分の2,400本の決算コール台本を読ませて、翌5日間の株価変動を予測するための言語特徴を抽出する実験を行った。
  • 約800件でファインチューニングし、単体の4090で推論に約14時間かけたところ、統計的に意味のある1つのシグナルとして、CFOが見通しの章で具体的なガイダンス数値から曖昧な表現へ切り替えると、セクター比で約1.8%の下落につながることが分かった。
  • もう1つの強そうに見えたシグナル(準備発言での「経営者の自信」)は「ゴースト」だった。セクターの勢い(モメンタム)と強く連動しており、言語から価格が導かれる新しい効果ではなかった(相関は約0.85)。
  • 著者は、ローカルモデルは金融分野で固有の台本をAPIに送らず手元で処理できる点で有用だが、見つかったパターンは既知の要因と必ず突き合わせて、見かけだけで自信を持って取引してしまう事故を避けるべきだと結論づけている。
  • 次は決算コールのQ&A部分にモデルの焦点を当て、台本にない管理側の発言ほど本物の予測シグナルが含まれるはずだとして、検証を進める予定だ。

みんなベンチマークやアリーナのスコアを投稿します。そこで、ローカルのモデルが、実際にお金になるようなことをできるのかを確かめたくなりました。そこで、Gemma 4 26B(IQ4_XSの量子化、単体の4090で稼働)を使い、仕事を与えました。過去3年分の2,400件の決算説明会の文字起こしを読み、後5日間で株価がどう動くかを予測する言語パターンを見つける、というものです。

約800件のラベル付き文字起こしで微調整しました。ラベルは単純で、「次の1週間でその株はセクターを上回るか、取り逃すか」です。モデルの仕事は価格予測ではありませんでした。前向きな確信度スコア付きで文にタグを付け、特定の言語の変化を検知することでした。たとえば、経営陣が、正確な数字から曖昧な定性的な表現へ切り替えるような場面です。

2,400件すべてで推論するのに約14時間かかりました。速くはないですが、四半期に1回しか回さないのでまあいいです。

2つ見つかりました。

シグナルA:本物。 CFOが、見通し(アウトルック)セクションで、具体的なガイダンスの数字を出すのをやめて、より曖昧な言い回しに切り替えると(「売上はX〜Yの間になると見込んでいます」ではなく「当社の軌道には自信があります」のような表現です)、株はセクターに対して5日で約1.8%下回ることが分かりました。アウト・オブ・サンプルの600件の文字起こしでテスト。ICは0.04。小さい。でも統計的に有意で、勢い(モメンタム)やバリュー、あるいは標準的なファクターとの相関はほぼゼロでした。重要なのはこの部分です——すでに存在する何かを言い換えているだけではない。

シグナルB:幽霊。 もう一つ、はるかに強いパターンのように見えるものもモデルが見つけました。準備された発言(prepared remarks)セクションでの「経営陣の自信」については、IC 0.09で超過が相関していました。2日ほどかなりワクワクしました。次にこれをセクターのリターンに対して回帰したところ、相関は0.85でした。テックのCEOは、テックが好調だと自信ありげに聞こえます。モデルは言語パターンを読んでいなかった。CEOのトーンという裏口から、セクターの勢いを拾っていただけでした。

シグナルBはすぐに殺しました。既知のファクターで確認していなかったら、たぶん今すぐその「優位性」を見つけたと思って取引していたでしょう。

まとめ——ローカルモデルは、こういう用途には実際かなり良いです。すべてをローカルで動かすことで、他人のAPIに送ることを気にせず、独自の文字起こしを投げ込めました。これが、金融ではとても大きいです。 ただし、モデルが見つけたものは必ず、既存のファクターに対して健全性チェックをしなければなりません。信じがたいほど説得力のある「幽霊」を見つけてしまいます。
次は、決算説明会のQ&A(質疑応答)セクションに特化してモデルを調整してみようと思っています。そこでは経営陣は台本どおりではなく、言葉遣いもあまりリハーサルされていません。そこに本当のシグナルがあるはずだと思っていますが、まだ証明できていません。

金融のテキスト分析にローカルモデルを使っている方、ほかにいますか?どんなセットアップを動かしていて、似たような幽霊シグナルの問題に当たったことがあるか気になります。

submitted by /u/CriticalCup6207
[link] [comments]