ScoringBench:適切なスコアリング規則で表形式の基盤モデルを評価するためのベンチマーク
arXiv cs.AI / 2026/4/1
📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research
要点
- ScoringBenchは、点推定の指標だけでは捉えきれない確率的予測の品質をより適切に反映する「適切なスコアリング規則」を用いて、表形式の基盤モデルを評価するためのオープンベンチマークとして提案される。
- ベンチマークでは、CRPS、CRLS、区間スコア、エネルギースコア、重み付きCRPS、ブライアスコアなどの複数の分布を考慮した指標に加え、RMSEやR²といった標準的な回帰指標も算出する。
- 実際のデータで微調整したrealTabPFN v2.5およびTabICLを用いた実験では、用いるスコアリング規則によってモデルの順位が変わることが示され、単一の事前学習目的が普遍的に最良であるわけではないことが示唆される。
- 著者らは、金融や臨床研究のように尾部の振る舞い(tail behavior)や非対称なリスクが重要となる高リスク領域では、適切な指標選択が極めて重要だと主張する。
- ScoringBenchは公開リーダーボードとライブプレビューを提供し、透明性・追跡可能性・再現性を支えるために更新はgitのプルリクエストで管理される。
関連記事

Black Hat USA
AI Business

Black Hat Asia
AI Business

裏カツ170日目!アメリア#AIイラスト #画像生成AI #アート #イラスト #生成AI #美女イラスト #創作 #クリエイター #イラストレーター
note

Google Geminiが邪魔?表示を消して元の操作感を取り戻す完全設定ガイド
note

AIにnoteを書かせて絶望したあなたへ。データと科学が証明する、検索順位を下げる「冷たい完璧」・「AI+人間」の最強戦略とは?「AIの方が文章が上手い」そう思うのは錯覚なのか? #生成AI #ChatGPT #Gemini #Claude #毎日更新 #文章術 #ブログ #AI活用 #SNS活用 #SEO #集客 #ビジネスマインド #セールスライティング
note