効率的なクロススケール・ハイパーパラメータ転送による確率的トランスフォーマーのスケーリング

arXiv cs.CL / 2026/4/29

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

本論文は、文脈に応じた単語表現のための白箱型の確率的モデルであるProbabilistic Transformer（PT）をスケールさせる手法を提案する。
PTは標準的なトランスフォーマーよりもハイパーパラメータ選択に対する頑健性が低いが、著者らはMaximal Update Parametrization（muP）を用いて、小型モデルで最適化したハイパーパラメータを追加調整なしで大型モデルへ転送できるようにする。
muPに基づくパラメータ再スケーリングにより、PTを約0.4Bパラメータまでスケールでき、追加のチューニングは不要である。
実験では、Masked Language Modeling（MLM）において、同一のパラメータ予算の条件で標準トランスフォーマーよりもPTが一貫して優れている。
著者らは、この成果を将来的に確率的モデルをより大規模に実運用しやすくするための一歩と位置づけている。

Abstract

文脈における単語表現のためのホワイトボックス確率モデルである確率的トランスフォーマー（Probabilistic Transformer; PT）は、小規模モデルおよび小〜中規模データセットにおいて、計算構造と下流タスク性能の両面で標準的なトランスフォーマーと大きな類似性を示してきました。とはいえ、PTは標準的なトランスフォーマーよりもハイパーパラメータの選択に対する頑健性が低く、効率的にスケールすることが難しくなります。本研究では、最大更新パラメータ化（Maximal Update Parametrization; muP）に従ってPTのパラメータを再スケーリングし、小規模モデルで最適化されたハイパーパラメータを追加のチューニングなしに大規模モデルへ転移できるようにします。このアプローチにより、PTを最大0.4B（4,000万）パラメータのモデルまで正常にスケールすることができました。実験の結果、Masked Language Modeling（MLM）タスクにおいて、同一のパラメータ予算のもとでPTは標準的なトランスフォーマーを一貫して上回ることが示されました。本研究が、将来に向けて、より大規模における確率モデルの実用的な導入に貢献することを期待しています。

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

日経XTECH

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ

日経XTECH

AIエージェントを使ってチームの「生きたナレッジベース」を維持する方法

Dev.to

ik_llama.cpp が Qwen3.5 MTP をサポート開始

Reddit r/LocalLLaMA

OpenAIのモデル、Codex、Managed AgentsがAWSに登場

Dev.to

効率的なクロススケール・ハイパーパラメータ転送による確率的トランスフォーマーのスケーリング

要点

Abstract

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ

AIエージェントを使ってチームの「生きたナレッジベース」を維持する方法

ik_llama.cpp が Qwen3.5 MTP をサポート開始

OpenAIのモデル、Codex、Managed AgentsがAWSに登場

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

Abstract

関連記事

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ 部品種削減にも注力

富岳NEXT「世界一狙わず」 理研・富士通・NVIDIA、AI時代の使われる計算機へ

AIエージェントを使ってチームの「生きたナレッジベース」を維持する方法

ik_llama.cpp が Qwen3.5 MTP をサポート開始

OpenAIのモデル、Codex、Managed AgentsがAWSに登場

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

新体制のトヨタ、E2E自動運転で「キャッチアップ」へ部品種削減にも注力

富岳NEXT「世界一狙わず」理研・富士通・NVIDIA、AI時代の使われる計算機へ