データセット蒸留を再考：ソフトラベルに関する厳しい現実

arXiv cs.LG / 2026/4/22

💬 オピニオンIdeas & Deep AnalysisModels & Research

原文を読む →

共有:

要点

新しい証拠では、ソフトラベルを用いた下流モデル学習において、単純なランダム部分集合がデータセット蒸留（DD）の最先端手法と同等の性能を示し得ることが明らかになり、「DDの品質改善が常に効く」という前提が揺らいでいます。
ソフトラベル（SL）、固定ソフトラベル（SL）、ハードラベル（HL）の各ラベル条件でのスケーラビリティ分析により、高品質コアセットはSLおよびSL+KDの両条件でランダム基準を明確に上回れず、さらにSL+KDでは固定計算量のもとで部分集合サイズや品質にかかわらずフルデータセットに近い性能が飽和することが分かりました。
これらの結果は、ソフトラベルに基づくモデル評価の一般的な慣行を疑問視しています。ハードラベル設定と異なり、ソフトラベル学習では部分集合の品質が評価にほとんど影響しないためです。
HL設定では、ImageNet-1Kでランダム基準を確実に上回るのはRDEDのみでしたが、それでも強力なコアセット手法に遅れる場合があり、容易なサンプルパッチへの過度な依存が原因だと述べています。
CAD-Pruneと、計算量に整合したDD手法CA2Dを提案し、計算量を考慮して最適な難易度のサンプルを選ぶことで、さまざまなIPC設定で既存のDD手法より高い性能を示すとしています。

35歳主任エンジニア、管理職か専門職かの選択に悩むキャリアの岐路に

日経XTECH

U-NetとTransformerを合体！医用画像セグメンテーションのための新しいネットワークSwin Unetを紹介｡

AI-SCHOLAR

初心者からの「Claude AI」の学び方：ステップバイステップ入門ガイド

Dev.to

サステナビリティアプリのために自作のイベントバスを作った—OpenClawを使ったエージェント自動化で学んだこと

Dev.to

LLMは失敗しない——実行が失敗する：エージェント型AIに必要な制御レイヤー

Dev.to

データセット蒸留を再考：ソフトラベルに関する厳しい現実

要点

関連記事

35歳主任エンジニア、管理職か専門職かの選択に悩むキャリアの岐路に

U-NetとTransformerを合体！医用画像セグメンテーションのための新しいネットワークSwin Unetを紹介｡

初心者からの「Claude AI」の学び方：ステップバイステップ入門ガイド

サステナビリティアプリのために自作のイベントバスを作った—OpenClawを使ったエージェント自動化で学んだこと

LLMは失敗しない——実行が失敗する：エージェント型AIに必要な制御レイヤー

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

35歳主任エンジニア、管理職か専門職かの選択に悩む キャリアの岐路に

U-NetとTransformerを合体！医用画像セグメンテーションのための新しいネットワークSwin Unetを紹介｡

初心者からの「Claude AI」の学び方：ステップバイステップ入門ガイド

サステナビリティアプリのために自作のイベントバスを作った—OpenClawを使ったエージェント自動化で学んだこと

LLMは失敗しない——実行が失敗する：エージェント型AIに必要な制御レイヤー

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

35歳主任エンジニア、管理職か専門職かの選択に悩むキャリアの岐路に