Seq vs Seq: ペア化されたエンコーダーとデコーダーのオープン・スイート
arXiv cs.CL / 2026/3/13
📰 ニュースIdeas & Deep AnalysisModels & Research
要点
- 著者らはEttinスイートを紹介します。これは17Mから1Bパラメータのエンコーダー専用モデルとデコーダー専用モデルを対になる形で、最大2兆トークンで学習したものであり、同じトレーニングレシピを用いることで、エンコーダー部門とデコーダー部門の双方においてSOTAレシピを提示し、エンコーダーとしてModernBERTを、デコーダーとしてLlama 3.2およびSmolLM2を打ち負かします。
要旨:
大規模言語モデル(LLM)コミュニティは、テキスト生成を容易にすることから、ほぼデコーダー専用の言語モデルにのみ焦点を合わせている。しかし、コミュニティの大きな一部は分類や検索といったタスクのためにエンコーダー専用モデルを依然として使用している。従来の研究はこれらのアーキテクチャの比較を試みているが、パラメータ数・訓練手法・データセットが異なるモデル同士の比較を余儀なくされてきた。私たちは、17Mから1Bパラメータのペアとなるエンコーダー専用モデルとデコーダー専用モデルを含む、最大2兆トークンで学習されたSOTA級のオープンデータ Ettinスイートを導入する。エンコーダー専用モデルとデコーダー専用モデルの両方に同じレシピを適用することで、それぞれのサイズに対してSOTAレシピが生まれ、エンコーダーとしてModernBERT、デコーダーとしてLlama 3.2およびSmolLM2を上回る。従来の研究と同様、エンコーダー専用モデルは分類と検索タスクに長け、デコーダーは生成タスクに長けることを我々は発見している。しかし、デコーダーモデルを継続的な学習を通じてエンコーダータスクへ(その逆も)適用することは、逆方向の目的関数のみを用いる場合に比べて劣ることを示している(すなわち、MNLIでは400Mのエンコーダーが1Bのデコーダーを上回り、生成タスクではその逆になる)。本研究の訓練データ、チェックポイントごとに区分された訓練順序、そして訓練のあらゆる側面を分析・拡張できるようにするための200以上のチェックポイントを含む、すべての成果物をオープンソース化する。