潜在反復状態ヘッドによるLLM回帰

arXiv cs.CL / 2026/4/3

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、テキスト回帰を行うための軽量アーキテクチャであるRELISHを導入する。これは数値出力をテキストとして生成するのでもなく、複数の生成結果を組み合わせるのでもなく、スカラー目標を直接予測する。
RELISHは、トークン単位の表現に対するクロスアテンションによって洗練される学習済みの潜在反復状態を用い、最後に線形回帰器を用いて最終的な点推定を出力する。
5つのデータセット、4つのLLMバックボーン、2つの学習レジメンにまたがる実験により、RELISHは、自己回帰デコーディングや既存の予測ヘッド手法を含む複数のLLM回帰ファミリにおいて、一貫して先行ベースラインを上回ることが示される。
この手法は非常にパラメータ効率が高く、凍結済みバックボーンの上に追加する学習可能パラメータは約3.4〜3.7Mのみ（全体の約0.01〜0.04%）であり、報告されているLoRA型手法の追加（0.26〜0.42%）よりはるかに小さい。
総じて、RELISHは回帰タスクにおける精度を向上させつつ、コンパクトなヘッド／状態モジュールのみを学習することで微調整コストを低く抑える。

概要: 本稿では、大規模言語モデル向けのテキスト回帰のために設計された新規で軽量なアーキテクチャであるRELISH（REgression with a Latent Iterative State Head）を提示する。数値ターゲットをテキストとしてデコードしたり、複数の生成出力を集約したりするのではなく、RELISHは、凍結したLLM表現からスカラー値を直接予測する。具体的には、トークンレベル表現に対するクロスアテンションを通じて学習済みの潜在状態を反復的に洗練し、その後、線形回帰器によって最終状態を一点推定へと写像する。5つのデータセット、4つのLLMバックボーン、2つのLLM学習レジームにわたって、RELISHは、自己回帰的デコーディング、回帰を意識した推論、既存の予測ヘッド手法を含む、3つの主要なLLM回帰ファミリーすべてにおける先行ベースラインを一貫して上回る。これらの向上にもかかわらず、RELISHはパラメータ効率が非常に高く、凍結したLLMバックボーンごとに必要な学習可能パラメータは3.4〜3.7Mにとどまる（追加オーバーヘッドはわずか0.01〜0.04%）。モデルサイズに応じて増えるLoRAベースの代替手法（0.26〜0.42%）と比べて大幅に少ない。