概要: EngGPT2-16B-A3B は、Engineering Group のイタリア語 LLM の最新の反復であり、主権的で、効率的で、オープンなモデルになるように設計されています。EngGPT2 は 2.5 兆トークンで訓練されており、Qwen3 の 36 兆や Llama3 の 15 兆より少なく、MMLU-Pro、GSM8K、IFEval、HumanEval などの主要なベンチマークにおいて、8B-16B レンジの密結合モデルと同等のパフォーマンスを発揮します。一方で、推論パワーは 1/5 〜 1/2、訓練データ量は 1/10 〜 1/6 で、訓練に必要なパワーもそれに応じて低減されます。一から訓練された Mixture-of-Experts (MoE) アーキテクチャとして設計された EngGPT2 は、推論ごとに 30億がアクティブな 160億パラメータを特徴とし、エキスパートのサイズは GPT-OSS と Qwen3 の間に位置づけられています。訓練用コーパスの約 25% はイタリア語データで構成されており、同等規模のモデルの中で欧州およびイタリアの NLP タスクに対して強力な能力を提供します。この効率性は、EngGPT2 をオープンウェイトの欧州モデルの成長するポートフォリオの重要な貢献者として位置づけ、パフォーマンスと効率を EU AI Act への完全な適合とともに結びつけることを目指します。EngGPT2 はまた、複数の推論モードを備えた単一モデルでもあります: 非推論、イタリア語または英語での推論、そしてターボ推論(両言語で利用可能な、リアルタイム推論用途のために設計された要点を箇条書きにした推論スタイル)。EngGPT2 は、資源配慮型で高性能な LLM を欧州およびイタリアの文脈に合わせた新しい標準を設定することを目指します。
EngGPT2: 主権的・効率的・オープンな知性
arXiv cs.CL / 2026/3/18
📰 ニュースIdeas & Deep AnalysisIndustry & Market MovesModels & Research
要点
- EngGPT2-16B-A3Bは、Engineering Group社が新たに発表したイタリア語LLMで、主権的・効率的・オープンを目指し、EU AI Actに明示的に適合している。
- 最初から訓練されたMixture-of-Experts(MoE)アーキテクチャを採用し、パラメータ数は約160億、推論時には約30億のアクティブパラメータを有する。8–16Bの全結合モデルと比較して、MMLU-Pro、GSM8K、IFEval、HumanEvalといったベンチマークで競争力のある性能を示す。
- 2.5兆トークンで訓練されており、約25%がイタリア語データである。これにより、この規模での欧州およびイタリア語NLP能力を強化している。
- EngGPT2は大幅な効率向上を謳っており、推論時の必要パワーを同等モデルの5分の1〜半分、訓練データ量と訓練パワーを約10分の1〜6分の1に抑えると主張している。
- 複数の推論モードをサポートしており、非推論モード、イタリア語-英語推論、ターボ推論を含む。リアルタイムの多言語利用ケースや、オープンウェイトの欧州AIエコシステムのモデルとしての位置づけを目指している。