LLMsは強力な表現を構築し、サンプル効率の高い教師あり学習を合理化できる

arXiv cs.AI / 2026/3/13

📰 ニュースIdeas & Deep AnalysisTools & Practical UsageModels & Research

共有:

要点

LLMsは文脈内で入力例の小さく多様なサブセットを分析して、証拠を抽出・整理するためのプログラム的仕様として機能するグローバルなルーブリックを合成します。
このルーブリックは、下流モデルのためのより標準化された形式へと入力の素朴なテキスト直列化を変換するために使用され、表現品質とサンプル効率を向上させます。
ローカルルーブリックは、特定のタスクごにLLMによって生成されるタスク条件付きの要約を提供し、各タスクに合わせた表現を調整します。
EHRSHOTベンチマークの15の臨床タスクにおいて、ルーブリックベースのアプローチは、従来のカウント特徴モデル、素朴なテキスト直列化ベースのLLMベースライン、およびはるかに多くのデータで事前学習された臨床基盤モデルを大きく上回ります。
ルーブリックは監査可能で大規模展開時のコスト効果が高く、タブラー表現へ変換可能で、より幅広い機械学習手法を有効にします。

要約: 実世界のデータセットはますます複雑で異質化しており、教師あり学習はしばしボトルネックとなることが多いのは、入力表現の設計によるものだ。下流タスク向けのマルチモーダルデータのモデリングは、時系列、自由テキスト、構造化データなど、非自明なドメイン固有のエンジニアリングを必要とすることが多い。私たちはこのプロセスを合理化するエージェント的パイプラインを提案する。まず、LLMは文脈内で、テキストとして直列化された入力例の小さく多様なサブセットを分析して、証拠を抽出・整理するためのプログラム的仕様として機能するグローバルなルーブリックを合成する。このルーブリックはその後、下流モデル向けに入力の素朴なテキスト直列化をより標準化された形式へ変換するために使用される。私たちはまた、LLMによって生成されるタスク条件付きの要約であるローカルルーブリックについても説明する。EHRSHOTベンチマークの15の臨床タスクに跨る我々のルーブリックベースのアプローチは、従来のカウント特徴モデル、素朴なテキスト直列化ベースのLLMベースライン、そしてはるかに多くのデータで事前学習された臨床基盤モデルを有意に上回る。性能を超えて、ルーブリックは監査が容易でスケール展開時のコスト効率に優れ、タブラー表現へ変換できるため、幅広い機械学習技術の活用を解放するという利点も持つ。