AI Navigate

インサイトインサイト最新記事最新記事一覧 AI大全AI大全カオスマップAIカオスマップ

広告

2bか、2bでないか？カスタムLLMスケジューリング・コンペ

Reddit r/MachineLearning / 2026/4/23

💬 オピニオンSignals & Early TrendsIdeas & Deep AnalysisTools & Practical Usage

原文を読む →

共有:

要点

申請者は、トークン（計算）コストを抑えるために「小型LLMを実行するか／実行しないか」を判断することに焦点を当てたKaggleコンペを立ち上げました。
参加者はMMLUベンチマークの問題を使い、「2b」（小型モデルを実行）または「none」（実行しない）を選びます。
スコアは重み付きのコスト指標で、無駄な推論、失敗時に高くつくペナルティ、そして成功できたはずなのにスキップした場合にもペナルティが課されます。
現状では小型モデルを実行するコストは変動要素としては扱われておらず（固定）、ただし申請者は今後モデル追加で意思決定の精度を高める予定です。

みなさん、こんにちは。

私は一般的にリソース管理に関心があり、特に、ある回答に対してトークンコストを抑えることに注目しています。そこで、単純な問いをめぐるKaggleのコンペを立ち上げました。その問いとは、小さなモデルを実行すべきかどうかです。より良い意思決定のために、今後は時間をかけてさらにモデルを追加していく予定です。

こちらがコンペです： https://www.kaggle.com/competitions/llm-scheduling-competition

アイデア：

MMLUベンチマークから問題が出題されます
答える代わりに、次を判断します：
- 2b → 小さなモデルを実行する
- none → スキップする

そして コストベースの指標 があります：

モデルを実行すると計算コストがかかる
失敗したときに実行するのは高くつく
うまくいったはずのときにスキップすることもペナルティになる

したがって目標は 加重コストを最小化する ことです。

現状の設定はかなり単純で、モデルを実行するコストはまだ考慮されていません。それでも、正しい方向への第一歩になるかもしれません。

みなさんがどんな工夫を考えるのか楽しみです—ルール、分類器、あるいはもっと創造的な何か。

アイデアの議論や質問への回答も大歓迎です！

submitted by /u/WERE_CAT
[link] [comments]

関連記事

Black Hat USA

Black Hat USA

AI Business

ソニーAI、高速・高精度なフィジカルAI 卓球ロボでプロ選手並みに

ソニーAI、高速・高精度なフィジカルAI 卓球ロボでプロ選手並みに

日経XTECH

大手テック企業がAI投資と統合を加速する一方、規制当局と企業は安全性と責任ある導入に注力

大手テック企業がAI投資と統合を加速する一方、規制当局と企業は安全性と責任ある導入に注力

Dev.to

格子ベースのプランに条件付けられた未知環境における軌跡予測

格子ベースのプランに条件付けられた未知環境における軌跡予測

Dev.to

Google Maps×生成AI──ストリートビューで“未来の風景”が見られる機能など追加、衛星画像の分析も大幅に短縮

Google Maps×生成AI──ストリートビューで“未来の風景”が見られる機能など追加、衛星画像の分析も大幅に短縮

Innovatopia

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。

広告