ここ最近のAI競争は、どこかテニスの試合のように感じられます。まず、Anthropicが一般ユーザー向けに新しく高価な最先端の独自(プロプライエタリ)モデルをリリースするのです(Claude Opus 4.7)。そしてその1週間ほど後、ライバルのOpenAIがこちらも負けじと自社の一手を打ち返します(GPT-5.5)。その一方で、DeepSeekのような中国企業だけでなく、Xiaomiまでもが、異なるゲームでユーザーに訴えかけようとしています。最前線に近づきつつも、オープンなライセンスと大幅に低いコストで勝負するのです。
そこで、米国から新たに登場した、手頃で高性能なオープンソースの有力候補にしては少し意外です。今日、(米国の)規模は小さく、あまり知られていないAIスタートアップ、Poolsideから提供が始まったものを見つけました。同社は2023年にサンフランシスコで設立されました。
同社は新しいLagunaの2つの大規模言語モデルを発表しており、どちらもエージェント駆動のワークフロー向けに最適化された手頃な知能を提供します(チャットやコンテンツ生成以上のことを行うAIであり、この場合コードを書いたり、サードパーティのツールを使ったり、そして自律的にアクションを取ったりできる)。さらに、(この呼び方が実に適切なのですが)「pool」と呼ばれる新しいコーディングエージェントや、新しいウェブベースの、モバイル最適化のエージェント駆動コーディング開発およびインタラクティブプレビュー環境「shimmer」も登場しています。これは、外出先でもLagunaモデルでコードを書けるようにするものです。
Poolsideが本日リリースした新しいAIモデルには以下が含まれます:
Laguna M.1: 2250億パラメータのMixture of Experts(MoE)モデル(アクティブは230億)。同モデルはフラッグシップで、高い重要性を伴うエンタープライズや政府機関向けの環境を想定して最適化されています。最大限の推論能力と計画能力を必要とする、複雑で長いスパンのソフトウェアエンジニアリング問題を解くために設計されています。
Laguna XS.2: Apache 2.0のオープンライセンスで提供される330億パラメータのMoE(アクティブは30億)。効率性とコミュニティのイノベーションを重視して設計されたこのモデルは、ローカルでのエージェント駆動のコーディングタスク向けで、単一GPU上で強力なエージェントをファインチューニングしたり、量子化したり、提供(サーブ)したりしたい開発者にとって、柔軟な基盤(ベース)を提供します。言い換えると、開発者はインターネット接続なしで、デスクトップやノートPCにLaguna XS.2をダウンロードして実行できます。完全にプライベートで、安全に保護されています。
注目すべき点として、上で述べたとおり2つのうち現在オープンソースのApache 2.0ライセンスで提供されているのは、より小さいXS.2のみです(Hugging Face)。しかしPoolsideは、さらに大きいM.1をAPIを通じて一時的に無償で提供し、さらにサードパーティの配信パートナーであるOpenRouter、Ollama、Basetenでも展開しており、試してみたい開発者にとって良いユースケースになります。
もう一つの注目点は、今回の2つのLagunaは、最初から学習(スクラッチ学習)されたことです。中国の巨大企業AlibabaのQwenシリーズのような、他社が取り組んできた最近の(そして*咳払い* Cursorのような)ベースモデルをファインチューニング/ポストトレーニングしたものではありません。 *咳払い)。
そしてPoolsideが本日ブログ記事で書いたように、同社はこの数年「高いセキュリティ環境へ投入可能な、能力のあるモデルによって政府および公共部門のクライアントに提供することに集中してきました」。それでも今、より広い研究コミュニティやビルダーを支援するために、オープンソースとして公開する方針に変わったのです。
Xで「なぜ政府機関が、AnthropicやOpenAI、Googleのような先行する米国の大手独自ラボではなくPoolsideを使いたいのか」と聞いたところ、PoolsideのポストトレーニングエンジニアGeorge Grigorevは返信で次のように教えてくれました。 「私たちは、モデルをエンタープライズ顧客に展開するまでのスピードを上げられると考えています。さらに、オンプレミスの完全に隔離された環境で重み(weights)をそのまま出荷できるため、オフラインでも動作します。これは政府/公共部門では重要になる可能性があるはずです。:) ただもちろん、anthropicのエンタープライズは簡単には超えられません」
PoolsideのLaguna M.1とLaguna XS.2はどのように学習されたか
Poolsideは、自社のAIモデルを「Model Factory」という専用のデジタル環境の中で構築しています。
このプロセスの中核にあるのが、会社が持つ強力な社内ソフトウェアであるTitanです。Titanは学習のための「炉(furnace)」として機能します。AIができるだけ効率よく学習できるようにするため、PoolsideはMuonという独自のツールを使用しています。
Muonを高速な家庭教師だと思ってください。標準的な業界手法よりも約15%速く、新しい情報をモデルに習得させるのに役立ちます。30兆トークン規模で学習するとき、この重要な改善効果が効いてきます。
Muonがそれを実現するのは、モデルの「脳」へのすべての更新が、数学的にバランスされ、正しい方向を向くようにするからです。これにより、集中的な学習セッションの途中でAIが混乱したり、行き詰まったりするのを防ぎます。
これらのモデルの学習に使われる情報――信じがたいほどの30兆「トークン」、つまりデータの断片――は、AutoMixerと呼ばれる仕組みを使って慎重に選別されます。
インターネット上で見つかるものを単にAIに与えるのではなく、AutoMixerは異なるデータの混合(ミックス)で用意した60のプロキシモデルからなる「スウォーム(群れ)」を活用し、コード、数学、一般的なWebデータのどの組み合わせが最も優れた推論能力を生むのかを科学的に特定します。
このようにして、料理人が何千もの異なる「レシピ」を科学的に試して、コンピュータのコード、数学、一般知識の理想的なバランスを見つけるのに似ています。
このデータの多くは公開Web由来ですが、そのうち約13%は「合成データ」です。これは他のAIが、現実世界では見つけにくい特定のスキルをモデルに教えるために作った、高品質でカスタムメイドの練習素材です。
モデルが基本的な「学校教育」を終えると、強化学習のための仮想ジムに入ります。この段階では、AIは安全で隔離されたデジタル環境の中で、実際のソフトウェアエンジニアリング問題を解く練習をします。試行錯誤によって学び、バグをうまく修正できたり、動作するコードの一部を書けたりするたびに「報酬(reward)」、あるいは肯定的なシグナルを受け取ります。こうした絶え間ない練習とフィードバックの循環こそが、AIを単なるテキスト生成器から、人間のソフトウェアエンジニアのように複雑で多段階のプロジェクトを計画し実行できる、能力ある「エージェント」へと変えていくのです。
M.1はPoolsideの現在の研究の到達点を示していますが、より小さなLaguna XS.2のほうが、よりインパクトの大きい登場になるかもしれません。
総パラメータがわずか330億(アクティブ30億)というXS.2は、「第二世代」のMoEモデルで、M.1の学習からチームが得たことをすべて取り込んでいます。
Benchmarks show Poolside's Laguna models punch far above their weight class
Langua M.1のパフォーマンスは、実世界のソフトウェア課題を解決するAIの能力を試すために設計されたベンチマーク「SWE-bench Pro」で46.9%を記録し、規模がはるかに大きいQwen-3.5およびDeepSeek V4-Flashに迫りました。
サイズはその一部であるにもかかわらず、Laguna XS.2はSWE-bench Proで44.5%のスコアを達成しており、より大きい兄弟モデルにほぼ匹敵します。
SWE-bench Verifiedトラックでは、M.1は72.5%を獲得し、密なモデルであるDevstral 2(72.2%)を上回ったものの、カテゴリ首位のClaude Sonnet 4.6(79.6%)には及びません。
これらの結果は、M.1が長期的なソフトウェア課題、特に相互に関連する複数のファイルにまたがる複雑な計画を伴うタスクに特化していることを示しています。
より小型のLaguna XS.2は驚くべき効率を示し、高い成果が求められるタスクでは、はるかに大きい兄弟モデルにほぼ匹敵する性能を発揮します。アクティブなパラメータはわずか3Bに過ぎないにもかかわらず、XS.2はSWE-bench ProでClaude Haiku 4.5(39.5%)および大幅に大きいGemma 4 31Bの密なモデル(35.7%)を上回ります。
端末ベースの推論では、XS.2のTerminal-Bench 2.0での30.1%も、Haiku 4.5の29.8%をわずかに上回りますが、それでも同じベンチマークで46.3%を達成したGPT-5.4 Nanoのような特化型「nano」モデルには及びません。
総合すると、これらのベンチマークは、Poolsideがエージェント型RLと合成データのキュレーションに注力してきたことで、その小型モデルが、通常はより密なアーキテクチャに割り当てられがちな「階級」を「上回る」ことを可能にしたことを示唆しています。
Claude Sonnet 4.6のようなトップティアのプロプライエタリモデルは全体の成功率で依然としてリードしているものの、Lagunaファミリー—特にオープンウェイトのXS.2—は、ローカル実行とカスタマイズ可能なエージェントのワークフローを重視する開発者にとって競争力のある代替手段を提供します。
すべてのベンチマークは、Harbor Frameworkを使用し、サンドボックス化された実行環境で実施されました。これにより、結果はモデルが現実的でリソースが制約された環境で機能できる能力を反映していることが保証されます。
Running Laguna XS.2 locally
Laguna XS.2(33B)モデルをローカルで実行するには、ハードウェアが総計330億(33 billion)パラメータに対応できる必要があります。Apple Siliconでは、基本要件は統合メモリ36 GBです。
PCおよびLinuxのユーザー向けには、通常のウェイトならVRAM 60 GB超が必要になることが多い一方で、モデルの4-bit量子化(Q4)対応により、少なくとも24 GB〜32 GBのVRAMを備えたコンシューマ向けGPUで動かせます。例として、先日リリースされたRTX 5090があります。
ストレージも考慮点です。完全なモデルには少なくとも70 GBを確保するか、ローカルの「エージェント」タスク向けに圧縮した版では、おおよそ20〜35 GBを確保しておくとよいでしょう。
最もスムーズな体験のために、PoolsideはOllama、または同社のターミナルベースのエージェントpoolの利用を推奨しています。これらは、コンシューマ向けハードウェア上でモデルのネイティブな推論およびツール呼び出し機能を管理するよう設計されています。
必要な技術要件の詳細(特定の量子化設定やコード実行のサンドボックス化の詳細を含む)は、公式のHugging Faceモデルページと、Poolsideのリリースブログで確認できます。以下に例として推奨されるハードウェアをいくつか示します:
Mac
MacBook Pro(14インチまたは16インチ): M5 Maxチップ搭載モデルを検討してください。M5 Maxは、統合メモリ36 GBから始まる構成を特にサポートしています。M5 Proも利用可能ですが、36 GBの閾値を満たすためには、ベースメモリを超えるようにカスタム設定する必要があります。
Mac Studio / Mac Mini: Mac Mini(M4またはM5 Pro)で、少なくとも48 GBまたは64 GBのRAMに設定したものは、優れたデスクトップ代替になります。
NO "MacBook Neo": このモデルはLaguna XS.2の実行には適しません。2026年初頭に、予算にやさしい選択肢としてリリースされたMacBook Neoは、アップグレード不可のメモリが8 GBに上限されています。33Bパラメータモデルには不十分です。
PC
シングルGPU構成: NVIDIA GeForce RTX 5090は2026年の最有力候補です。GDDR7 VRAMを32 GB搭載しており、Q4量子化を使えばLaguna XS.2を高速に(約45 tokens/sec)処理できます。
プロ仕様の構成: 複雑で長期的なエージェントを動かすプロ開発者の場合、RTX PRO 6000 Blackwell(96 GB VRAM)またはデュアルRTX 5090の構成により、モデルを圧縮による損失なしで実行できます。
最小PCスペック: RTX 4090(24 GB)でも重めの量子化を使えば動作可能ですが、複雑な推論タスクでは性能が遅くなる可能性があります。
pool(エージェント)とshimmer(IDE)
モデルは、それが存在する環境と同じくらい有用です。そしてPoolsideは、Lagunaシリーズを収めるための2つの「プレビュー」製品としてpoolとshimmerをリリースしました。
poolは、開発者のローカル環境向けに設計されたターミナルベースのコーディングエージェントです。これはエージェントクライアントプロトコル(Agent Client Protocol: ACP)のサーバーとして機能し、チームが内部で強化学習(RL)トレーニングに使っているものと同じハーネスです。
研究者たちの独自ツールを一般の人々にも持ち込むことで、Poolsideは実質的に、将来のモデルを鍛える「現実世界のジム」へ開発者コミュニティを招いているのです。
Shimmerは、クラウドネイティブな開発の未来に向けたビジョンを表しています。開発者がWebアプリ、API、CLIを数秒で反復できる「インスタントオン」の仮想マシン(VM)サンドボックスです。
Microsoft Visual Studioのような従来の統合開発環境(IDE)とは異なり、shimmerはPoolside Agentをそのままワークスペースに統合し、GitHubへの変更の反映や既存リポジトリの取り込みを容易にします。
shimmerでおそらく最も驚くべき特徴は、その携帯性です。Poolsideの創業デザイナーAlasdair Monkは、shimmerがスマートフォン上で完全に動いている様子を示すデモを共有しました。
デモでは、スプリット画面のインターフェースがPoolside Agentによる「Happy New Year 2026!」のアニメーション生成を表示し、下では開発環境が動作しています。
Monkが述べたように、スプリット画面ではPoolside Agentを備えたインスタントオンのVM、モバイル端末上ではフルの開発環境が提供されます。
これは、重要度の高いエンジニアリングがデスクトップに縛られるのではなく、エンジニアが画面を持つ場所ならどこでも実現できる未来を示唆しています。
なぜLaguna XS.2をApache 2.0のオープンウェイトとしてリリースするのか?
今回のリリースで最も重要な戦略的な動きは、Laguna XS.2のライセンスです。Poolsideは、XS.2のウェイトをApache 2.0ライセンスのもとで公開しました。
これは非常に許容的なライセンスであり、ロイヤルティなしで商用利用を含むあらゆる目的のために、ユーザーがソフトウェアを使用・配布・改変できることを可能にします。これは、多くの競合が採用している「クローズド」なモデル、あるいは他の一部ラボが使っている、より制限の強い「オープン寄り」のライセンスとは対照的です。
Poolsideのリーダーシップは、この道を選んだ理由を明確に述べています。Poolsideのブログ記事では、「西側には強力なオープンウェイトモデルが必要」であり、ウェイトを公開することが、コミュニティによる評価とファインチューニングを通じてチームの作業を最短で改善するための最も速い方法だという確信を示しています。
高い能力を備えた33Bパラメータのエージェント型モデルの重みを研究者やスタートアップに手渡すことで、PoolsideはオープンAIエコシステムの礎石としての地位を固めようとしています。
Laguna M.1は主にAPIの背後にとどまっている一方で、XS.2のオープンリリースにより、Poolsideの技術が次世代のサードパーティツールに組み込まれることが保証されます。
Poolsideの哲学とアプローチ
Poolsideの取り組みの核となる命題は、ソフトウェア開発が一般知能の最終的な代理指標(プロキシ)として機能する、という点にあります。
ソフトウェアを作るには、長期的な計画、複雑な推論、そして抽象的なシステムを操作する能力が必要です。これらはすべて、人間の認知の中心にある特性です。現在のほとんどのAI「エージェント」が、あらかじめ定義されたインターフェースによるツール呼び出しに制限されているのに対し、Poolsideのエージェントは、問題を解決するために自分自身のコードを書き、実行するよう設計されています。
ツールを使うのではなくシステムを構築する、というこの転換は、AIがデジタル世界とどのように相互作用するかの根本的な進化を示しています。
Applied Research組織に所属するおよそ60人のチームは、ここに到達するまでの3年間を費やし、数万件の実験を行いました。彼らが描くAGIは、知能そのものだけでなく、「人類のための豊かさ(abundance for humanity)」についてでもあります。
テストの通過やコンパイル結果のように検証可能な報酬が存在する領域であるソフトウェアエンジニアリングに焦点を当てることで、彼らは自己改善型のフィードバックループを作り上げました。チームが言うところでは、彼らはデータのための「核融合炉(fusion reactor)」を構築しています。すなわち、既存の人間の知識から知能のあらゆる一滴を汲み出しつつ、RLを使って新しく新鮮な体験から得られる「風のエネルギー」を回収するのです。
Poolsideの歩みはまだ始まったばかりですが、Lagunaのリリースは、2026年において「エージェント型(agentic)」AIがどのようにあるべきかという高い基準を打ち立てています。最前線レベルの性能と、オープンな重みへのコミットメント、そして新しい開発者向けの表面(developer surfaces)を組み合わせることで、彼らは「何を作るか」だけでなく「どのように作るか」にも焦点を当てたAGIへの道筋を描いています。
企業にとっても個々の開発者にとっても、メッセージは明確です。仕事の未来はエージェント型であり、その未来の言語はコードです。




