2bか、2bでないか?カスタムLLMスケジューリング・コンペ

Reddit r/MachineLearning / 2026/4/23

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical Usage

要点

  • 申請者は、トークン(計算)コストを抑えるために「小型LLMを実行するか/実行しないか」を判断することに焦点を当てたKaggleコンペを立ち上げました。
  • 参加者はMMLUベンチマークの問題を使い、「2b」(小型モデルを実行)または「none」(実行しない)を選びます。
  • スコアは重み付きのコスト指標で、無駄な推論、失敗時に高くつくペナルティ、そして成功できたはずなのにスキップした場合にもペナルティが課されます。
  • 現状では小型モデルを実行するコストは変動要素としては扱われておらず(固定)、ただし申請者は今後モデル追加で意思決定の精度を高める予定です。

みなさん、こんにちは。

私は一般的にリソース管理に関心があり、特に、ある回答に対してトークンコストを抑えることに注目しています。そこで、単純な問いをめぐるKaggleのコンペを立ち上げました。その問いとは、小さなモデルを実行すべきかどうかです。より良い意思決定のために、今後は時間をかけてさらにモデルを追加していく予定です。

こちらがコンペです: https://www.kaggle.com/competitions/llm-scheduling-competition

アイデア:

  • MMLUベンチマークから問題が出題されます
  • 答える代わりに、次を判断します:
    • 2b → 小さなモデルを実行する
    • none → スキップする

そして コストベースの指標 があります:

  • モデルを実行すると計算コストがかかる
  • 失敗したときに実行するのは高くつく
  • うまくいったはずのときにスキップすることもペナルティになる

したがって目標は 加重コストを最小化する ことです。

現状の設定はかなり単純で、モデルを実行するコストはまだ考慮されていません。それでも、正しい方向への第一歩になるかもしれません。

みなさんがどんな工夫を考えるのか楽しみです—ルール、分類器、あるいはもっと創造的な何か。

アイデアの議論や質問への回答も大歓迎です!

submitted by /u/WERE_CAT
[link] [comments]