みんなベンチマークやアリーナのスコアを投稿します。そこで、ローカルのモデルが、実際にお金になるようなことをできるのかを確かめたくなりました。そこで、Gemma 4 26B(IQ4_XSの量子化、単体の4090で稼働)を使い、仕事を与えました。過去3年分の2,400件の決算説明会の文字起こしを読み、後5日間で株価がどう動くかを予測する言語パターンを見つける、というものです。
約800件のラベル付き文字起こしで微調整しました。ラベルは単純で、「次の1週間でその株はセクターを上回るか、取り逃すか」です。モデルの仕事は価格予測ではありませんでした。前向きな確信度スコア付きで文にタグを付け、特定の言語の変化を検知することでした。たとえば、経営陣が、正確な数字から曖昧な定性的な表現へ切り替えるような場面です。
2,400件すべてで推論するのに約14時間かかりました。速くはないですが、四半期に1回しか回さないのでまあいいです。
2つ見つかりました。
シグナルA:本物。 CFOが、見通し(アウトルック)セクションで、具体的なガイダンスの数字を出すのをやめて、より曖昧な言い回しに切り替えると(「売上はX〜Yの間になると見込んでいます」ではなく「当社の軌道には自信があります」のような表現です)、株はセクターに対して5日で約1.8%下回ることが分かりました。アウト・オブ・サンプルの600件の文字起こしでテスト。ICは0.04。小さい。でも統計的に有意で、勢い(モメンタム)やバリュー、あるいは標準的なファクターとの相関はほぼゼロでした。重要なのはこの部分です——すでに存在する何かを言い換えているだけではない。
シグナルB:幽霊。 もう一つ、はるかに強いパターンのように見えるものもモデルが見つけました。準備された発言(prepared remarks)セクションでの「経営陣の自信」については、IC 0.09で超過が相関していました。2日ほどかなりワクワクしました。次にこれをセクターのリターンに対して回帰したところ、相関は0.85でした。テックのCEOは、テックが好調だと自信ありげに聞こえます。モデルは言語パターンを読んでいなかった。CEOのトーンという裏口から、セクターの勢いを拾っていただけでした。
シグナルBはすぐに殺しました。既知のファクターで確認していなかったら、たぶん今すぐその「優位性」を見つけたと思って取引していたでしょう。
まとめ——ローカルモデルは、こういう用途には実際かなり良いです。すべてをローカルで動かすことで、他人のAPIに送ることを気にせず、独自の文字起こしを投げ込めました。これが、金融ではとても大きいです。 ただし、モデルが見つけたものは必ず、既存のファクターに対して健全性チェックをしなければなりません。信じがたいほど説得力のある「幽霊」を見つけてしまいます。
次は、決算説明会のQ&A(質疑応答)セクションに特化してモデルを調整してみようと思っています。そこでは経営陣は台本どおりではなく、言葉遣いもあまりリハーサルされていません。そこに本当のシグナルがあるはずだと思っていますが、まだ証明できていません。
金融のテキスト分析にローカルモデルを使っている方、ほかにいますか?どんなセットアップを動かしていて、似たような幽霊シグナルの問題に当たったことがあるか気になります。
[link] [comments]

