Seq vs Seq: ペア化されたエンコーダーとデコーダーのオープン・スイート

arXiv cs.CL / 2026/3/13

📰 ニュースIdeas & Deep AnalysisModels & Research

共有:

要点

著者らはEttinスイートを紹介します。これは17Mから1Bパラメータのエンコーダー専用モデルとデコーダー専用モデルを対になる形で、最大2兆トークンで学習したものであり、同じトレーニングレシピを用いることで、エンコーダー部門とデコーダー部門の双方においてSOTAレシピを提示し、エンコーダーとしてModernBERTを、デコーダーとしてLlama 3.2およびSmolLM2を打ち負かします。

要旨：大規模言語モデル（LLM）コミュニティは、テキスト生成を容易にすることから、ほぼデコーダー専用の言語モデルにのみ焦点を合わせている。しかし、コミュニティの大きな一部は分類や検索といったタスクのためにエンコーダー専用モデルを依然として使用している。従来の研究はこれらのアーキテクチャの比較を試みているが、パラメータ数・訓練手法・データセットが異なるモデル同士の比較を余儀なくされてきた。私たちは、17Mから1Bパラメータのペアとなるエンコーダー専用モデルとデコーダー専用モデルを含む、最大2兆トークンで学習されたSOTA級のオープンデータ Ettinスイートを導入する。エンコーダー専用モデルとデコーダー専用モデルの両方に同じレシピを適用することで、それぞれのサイズに対してSOTAレシピが生まれ、エンコーダーとしてModernBERT、デコーダーとしてLlama 3.2およびSmolLM2を上回る。従来の研究と同様、エンコーダー専用モデルは分類と検索タスクに長け、デコーダーは生成タスクに長けることを我々は発見している。しかし、デコーダーモデルを継続的な学習を通じてエンコーダータスクへ（その逆も）適用することは、逆方向の目的関数のみを用いる場合に比べて劣ることを示している（すなわち、MNLIでは400Mのエンコーダーが1Bのデコーダーを上回り、生成タスクではその逆になる）。本研究の訓練データ、チェックポイントごとに区分された訓練順序、そして訓練のあらゆる側面を分析・拡張できるようにするための200以上のチェックポイントを含む、すべての成果物をオープンソース化する。

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

日経XTECH

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

日経XTECH

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

日経XTECH

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

日経XTECH

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

日経XTECH

Seq vs Seq: ペア化されたエンコーダーとデコーダーのオープン・スイート

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

要点

関連記事

ブームの裏で制御AI未導入54％、工場の自動化阻むコストと人材不足

光電融合の製造受託に野心、新光電気「TSMCにはない魅力を」

中国AI企業が他社製AIを「ただ乗り蒸留」か 米社が主張、安全保障リスクも

高1数学で理解できる機械学習、回帰直線のグラフ表示へ

AIで人月商売はもう終わり、人売りベンダーの技術者は速やかに逃げ出せ

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer

中国AI企業が他社製AIを「ただ乗り蒸留」か米社が主張、安全保障リスクも