大規模言語モデルのデータ選択における貪欲情報射影

arXiv cs.LG / 2026/3/17

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

貪欲情報射影（GIP）を紹介します。これは、大規模言語モデルの微調整のための訓練例を選択するためのフレームワークであり、データの部分集合とタスク固有のクエリ信号との間の相互情報量を最大化することによって実現します。

要約: 私たちは、\emph{Greedy Information Projection} (\textsc{GIP}) を、大規模言語モデルのファインチューニングのためのトレーニング例を選択するための原理的な枠組みとして提示します。 \textsc{GIP} は、選択を、例のサブセットとタスク固有のクエリ信号との間の相互情報量を最大化することとして位置づけます。これらの信号は、LLMの品質判断、メタデータ、あるいは他の情報源から生じる可能性があります。この枠組みは、データとクエリ埋め込みの両方を用いて定義された閉形式の相互情報量の目的関数を最適化することを含み、自然に「品質」と「多様性」をバランスさせます。このスコアを最適化することは、クエリ埋め込み行列を選択されたデータの張（span）へ射影することを最大化することと等価であり、品質と多様性の共発生の幾何学的説明を提供します。この見解に基づき、効率的な射影ベースの更新を伴う高速な貪欲的マッチング・パースート手法を採用します。指示に従うデータセットおよび数理推論データセットにおいて、\textsc{GIP} は、完全データのファインチューニングと一致する小さなサブセットを、例と計算のごく一部しか使用せずに選択し、品質志向の選択と多様性志向の選択を統合して、効率的なファインチューニングを実現します。

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

Dev.to

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

Dev.to

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

Dev.to

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

Dev.to

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

Dev.to

大規模言語モデルのデータ選択における貪欲情報射影

要点

関連記事

Day 10: 230回の奮闘セッション、結局は一人の人間が文書を読むことに尽きる

本番環境で壊れる、バイラルなAIコーディングデモの背後に潜む5つの危険な嘘

二つのボット、混乱したサーバー: NimbusがAIエージェントのアイデンティティについて明らかにしたこと

OpenTelemetryがLLMトレーシングを標準化しました。コード上では実際にはこのようになっています。

PIXIU: 金融分野向けの大規模言語モデル、指示データ、および評価ベンチマーク

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer