ミアミ拠点のあまり知られていないスタートアップ、Subquadraticが火曜日にステルスを解除し、大胆な主張を打ち出した。それは、同社が2017年以来すべての主要AIシステムを規定し、そして制限してきた「数学的制約」を完全に逃れることのできる最初の大規模言語モデル(LLMを)構築した、というものだ。
同社によれば、最初のモデルである SubQ 1M-Previewは、計算がコンテキスト長に対して線形に増える、完全にサブ二次(fully subquadratic)なアーキテクチャに基づいて構築された最初のLLMだという。もしこの主張が本当なら、AIシステムのスケーリングのあり方における本物の転換点になる。12百万トークンで、同社のアーキテクチャは他のフロンティア・モデルと比べて注意(attention)の計算をほぼ1,000分の1に抑えるとされる。この数値が独立して検証されれば、既存のあらゆるアプローチによる効率化の伸びを圧倒する規模になり得る。
同社はまた、プライベートベータとして3つの製品も立ち上げる。完全なコンテキストウィンドウを公開する API、コマンドライン型のコーディングエージェントである SubQ Code、そして検索ツールとしての SubQ Searchだ。投資家には、Tinder共同設立者の Justin Mateen、SoftBank Vision Fundの元パートナーである Javier Villamizar、さらに Anthropic、OpenAI、Stripe、Brex における初期投資家が含まれる。同社はシード資金として2900万ドルを調達した。The New Stackによれば、この調達により同社の評価額は 5億ドルだという。
Subquadraticが公表している数字は、驚くべきものだ。AI研究コミュニティからの反応は、控えめに言っても賛否が入り混じっている。純粋な好奇心から、いわゆるヴェイパーウェア(実体のない誇大宣伝)だとする率直な告発まで、さまざまだ。なぜそうなっているのかを理解するには、同社が解決したと主張する問題が何で、しかもなぜ過去の数多くの試みが同じ問題の解決に失敗してきたのかを理解する必要がある。
二次スケーリング問題が、AI業界全体の経済性を形作ってきた
トランスフォーマー型のAIモデルはすべて(OpenAI、Anthropic、Googleなど、事実上あらゆるフロンティアシステムを含む)は、「注意(attention)」と呼ばれる操作に依存している。すべてのトークンが他のすべてのトークンと比較されるため、入力が増えると、相互作用の数——そしてそれらを処理するために必要な計算量——は二次的に増大する。平たく言えば、入力サイズを2倍にしても、コストは2倍にならない。4倍になる。
この関係性が、何が作られ、何が作られないかを左右してきた。業界標準は、多くのAIモデルで128,000トークン、そして Claude Sonnet 4.7 や Gemini 3.1 Pro のようなフロンティアのクラウドモデルでは最大100万トークンだ。
それでも、長い入力を処理するコストは耐えがたいものになる。業界はそれに対処するため、複雑な回避策の積み重ねを作り上げてきた。RAGシステムは、モデルに渡す前に検索エンジンで少数の関連結果を引き出す。全コーパスを送ることは現実的ではないためだ。開発者は、リトリーバル・パイプライン、チャンク分割の戦略、プロンプトエンジニアリングの手法、そしてマルチエージェントによるオーケストレーション・システムを、モデルの上に重ねていく。これらはすべて、モデル自体が一度にすべてを効率良く処理できないという根本的制約を迂回するためのものだ。
Subquadraticの主張は、こうした回避策が高コストで脆く、そして最終的には限界をもたらす、というものだ。CTOのAlexander WhedonがインタビューでSiliconANGLEに語ったように、「私は、プロンプトやリトリーバルのシステム、評価(eval)、そして条件ロジックを手作業でキュレーションして、ワークフローをつなぎ合わせていました。そして、そうしたことは人間の知性の浪費であるばかりでなく、プロダクトの品質にも制限をかけていると思います。」
Subquadraticの解決策は、見かけよりも単純:重要でない計算をやめる
同社のアプローチは Subquadratic Sparse Attention(SSA)と呼ばれ、極めて明快な前提に基づいている。標準的なattentionでは、トークン同士の比較の多くが無駄な計算になっているのだ。すべてのトークンを他のすべてのトークンと比較する代わりに、SSAは「実際に意味のある比較はどれか」を特定することを学習し、それらの位置に対してのみattentionを計算する。決定的に重要なのは、選択がコンテンツ依存だという点——固定された位置パターンではなく、意味に基づいてモデルがどこを見るべきかを判断する。これにより、二次的な「税金」を払うことなく、非常に長いコンテキストの任意の位置から特定の情報を取り出せるようになる。
実用上の効果は、コンテキスト長に比例して拡大する。つまり、まさに同社が解決しようとしている問題の逆だ。同社の 技術ブログによれば、SSAは128,000トークンにおける密なattention(dense attention)に対してプリフィル速度を7.2倍に高め、さらに100万トークンでは52.2倍まで上がる。Whedonが言うには、「二次スケーリング則に従って入力サイズを2倍にするなら、必要な計算は4倍になります。線形スケーリング則なら、必要な計算は2倍で済む。」同社は、モデルを3段階で学習したとしている。すなわち、事前学習(pretraining)、教師あり微調整(supervised fine-tuning)、そして長いコンテキストにおけるリトリーバル失敗を狙い撃ちする強化学習段階だ。これにより、近くの情報にデフォルトで頼るのではなく、遠方のコンテキストを積極的に使うようにモデルを教え込んだ。これは、既存システムの性能を静かに悪化させる、見落とされがちな失敗モードだ。
3つのベンチマークが強い全体像を描くが、そこに何が含まれていないかの方が重要かもしれない
表面的には、SubQのベンチマーク数値は、何十億ドルも費やしている組織が作ったモデルと競合、あるいは上回っている。SWE-Bench Verifiedでは、Opus 4.6の80.8%やDeepSeek 4.0 Proの80.0%に対して、81.8%を記録した。RULERで128,000トークン(拡張された入力に対する推論を評価する標準ベンチマーク)では、SubQは95%を達成し、Claude Opus 4.6の94.8%をわずかに上回った。MRCR v2(長いコンテキストにまたがるマルチホップのリトリーバルを厳しく試すテスト)では、SubQは第三者検証済みスコアとして65.9%を出した。Claude Opus 4.7は32.2%、GPT-5.5は74%、Gemini 3.1 Proは26.3%だ。
しかし、いくつかの細部は精査に値する。ベンチマークの選定は狭い。ちょうど3つのテストだけで、すべて長コンテキストのリトリーバルとコーディングを重視しており、SubQが想定しているまさにその用途のタスクに寄せている。汎用的な推論、数学、マルチリンガル性能、安全性にわたるより広い評価は公表されていない。同社は包括的なモデルカードが「近日公開予定」だとしている。
The New Stackによると、各ベンチマークモデルは推論コストが高いため1回しか実行されていない。また、SWE-Benchのマージンについては、同社自身の論文が認めている通り「モデルにできるだけ任せている(harness as much as model)」という。ベンチマーク手法の観点では、信頼区間なしでの単回実行は、ばらつきの余地を残す。さらに、SubQの研究結果とプロダクションモデルの間には大きなギャップもある。MRCR v2で同社は研究段階のスコアとして83を報告したが、第三者が検証したプロダクションモデルのスコアは65.9だった。この、ラボ結果と出荷製品の間の17ポイント差は注目に値し、ほぼ説明がついていない。
SubquadraticはまたSiliconANGLEに対し、RULER 128KベンチマークでSubQはコスト8ドルで95%の精度を達成し、Claude Opusは精度94%で約2,600ドルだったと伝えた――注目すべきコスト主張だ。だが同社は特定のAPI価格を公に開示しておらず、コスト対タスク比較を独立して検証することが不可能になっている。
AI研究コミュニティの評価は「本物のブレークスルー」から「AI Theranos」まで幅広い
発表から数時間のうちに、AI研究コミュニティは沸騰するような議論に突入し、論点が次の1つの問いに結晶した。これは本物なのか?
AIコメンテーターDan McAteerは、広く共有された投稿で二択の空気感を捉えてこう書いた。「SubQはTransformer以来の最大のブレークスルーのどちらか、さもなくばAI Theranosだ。」悪名高い血液検査詐欺会社との比較は不公平かもしれないが、なされている主張の規模を反映している。懐疑派は複数の弱点に目を向けた。著名なAIエンジニアWill Depueは当初、SubQについて「ほぼ確実にKimiかDeepSeekの疎(スパース)注意の微調整だ」と指摘し、既存のオープンソースモデルを指していた。
WhedonはXでこれを確認し、「当社の資金調達と、企業としての成熟度を踏まえたうえで、出発点としてオープンソースモデルの重みを使用している」と書いた。Depueはその後、批判をさらに強め、「O(n)スケーリングの主張や、スピードアップの数字が『どうも噛み合っていない』ように見える」そして、そのコミュニケーションは「信じがたいほど拙く伝えられているか、あるいはそもそも本物ではない」とまで書いた。
別の人々は構造的な疑問も投げかけた。ある開発者は、もしSubQが本当に計算量を1,000倍削減し、Opusよりも5%未満のコストで済むのなら、同社がそれを大規模に提供するのに苦労するはずがない――ではなぜ、早期アクセスのプログラム経由でしか利用できないのか?と疑問を呈した。開発者のStepan Goncharovは、そのベンチマークを「非常に興味深い、恣意的に選ばれた(チェリーピックされた)ベンチマーク」と呼び、別のコメント投稿者は「疑わしいほど完璧」だと述べた。
しかし、誰もが否定的だったわけではない。AI研究者John RysanaはTheranos的な枠組みに反発し、「これは『優れた形で実装された劣次(サブクアドラティック)注意』に過ぎないが、長いコンテキストのワークロードにとっては非常に意味がある」と書き、さらに「それがデタラメである可能性は非常に低い」と続けた。技術系コメンテーターのLinus Ekenstamは、「現実世界での示唆を極めて興味深く見ている」、特に「複雑なAIを活用したソフトウェア」向けに、という趣旨で語った。
Magic.devは2年前に非常に似た主張をしていた――そしてその後は沈黙
SubQのローンチに対する、おそらく最も突っ込んだ批判は、特定の主張そのものではなく、最近の歴史から来ている。Magic.devは2024年8月に、10億トークンのコンテキストウィンドウモデルを発表し、1,000倍の効率優位をうたい、これらの主張を背景におよそ5億ドルを調達した。2026年初頭の時点で、LTM-2-miniがMagicの外で使われているという公的な証拠は存在しない。
類似点は、居心地が悪い。どちらの会社も巨大なコンテキストウィンドウをうたっていた。どちらも、おおむね1,000倍の効率改善を売りにしていた。どちらも、主要な用途としてソフトウェアエンジニアリングを狙っていた。そして、どちらも外部アクセスは限定的な形でローンチした。
より広い研究状況も、慎重さを後押ししている。Kimi Linear、DeepSeek Sparse Attention、Mamba、RWKVはいずれも劣次のスケーリングを約束していたが、全て同じ問題に直面した。理論上は線形複雑度を達成するアーキテクチャでも、最前線規模の下流ベンチマークでは二次注意より実行性能が伸びないことが多い。あるいはハイブリッドになってしまい――劣次の層と標準の注意を混ぜることで、純粋なスケーリングの恩恵を失う。
広く引用されているLessWrongの分析では、これらのアプローチは「『Transformerアーキテクチャに対する漸進的改善の回数93595』として考えるほうがよい」――という主張がなされた。なぜなら、実装が依然として二次的であり、「注意を定数倍程度しか改善しない」からだ。
Subquadraticは、こうした過去の経緯を直接認識している。その自社の技術ブログでは、固定パターンの疎注意、状態空間モデル、ハイブリッド・アーキテクチャ、そしてDeepSeek Sparse Attentionという、それぞれの先行アプローチを具体的に取り上げ、SSAはそれらのトレードオフを回避できると論じている。本当にそうなのかは、結局のところ経験的にしか確かめられない問題であり、独立評価のみが決着をつけられる。
5度の創業者、元Metaエンジニア、そして「反対派を黙らせる」ための2,900万ドル
その主張の評価には、チームが誰かが重要になる。CEOのJustin Dangelは5度目の創業者兼CEOで、ヘルステック、保険テック、消費財にまたがる実績があり、彼の企業は何百人規模まで拡大し、機関投資家の支援を集め、流動性に到達している。CTOのAlexander Whedonは以前、Metaでソフトウェアエンジニアとして働き、TribeAIではGenerative AIの責任者を務めており、40件以上のエンタープライズ向けAI実装を率いた。
チームには、Meta、Google、オックスフォード、ケンブリッジ、ByteDance、Adobeの背景を持つ11名のPhD研究者が含まれている。これは、アーキテクチャレベルの研究努力としては確かな人材の集まりだ。だが共同創業者はいずれも基礎的なAI研究を公表しておらず、同社はまだ査読済みの論文をリリースしていない。技術レポートは「近日公開予定」と記載されている。
資金調達のプロファイルは、最前線のAI主張を行う企業としては異例だ。Subquadraticは、報道ベースで評価額5億ドルという条件で2,900万ドルを調達した――モデルが公に入手できず、査読済み研究もなく、開示された売上もないシード段階の企業にとってはかなり高い値付けである。投資家層は、Tinderの共同創業者Mateenと元SoftBankパートナーのVillamizarが主導しており、深い技術的なAI研究よりも、消費者向けテックや成長投資に寄っている。同社は重みのオープンソース化はしていないが、企業が自社でポストトレーニングを行うための学習ツールの提供を計画している。また、Q4に向けて5,000万トークンのコンテキストウィンドウ目標を設定している。
SubQにとっての本当の試金石はベンチマークではなく、独立した精査に数学が耐えるかどうかだ
マーケティング言葉とソーシャルメディア上のドラマを剥がし取ると、根本的な問い――Subquadraticが本当に問うていること――は極めて重要だ。AIシステムは、有用性を支える品質を犠牲にすることなく、二次的なスケーリングから自由になれるのだろうか?
賭け金は非常に大きい。注意が本当に線形化できて、検索や推論の品質を損なわないなら、AIの経済性は根本から変わる。現在は、全コードベース、契約書、規制当局への提出書類、医療記録といったものを処理するために、複雑な検索(リトリーバル)パイプラインが必要とされるエンタープライズのアプリケーションは、単一パスの処理として実現できるようになる。RAGインフラ、コンテキスト管理、エージェント的なオーケストレーションに現在投じられている数十億ドルが、部分的に冗長になっていく。
ウィードンが技術的な批評に対して公に関与する姿勢を示し──反発の後わずか数時間で技術ブログを投稿したこと──は、自社がそれを「ただ説明する」のではなく、「作業の成果を示す」必要があることを理解しているチームをうかがわせます。しかも同社はその点を評価されるべきで、オープンソースの基盤の上に構築していること、そして同社のモデルが主要ラボのものより小さいことを率直に認めました。
2026年のあらゆるフロンティア・モデルは、少なくとも100万トークンのコンテキストウィンドウを備えると宣伝していますが、そのほとんどは実際には、その情報すべてを活用する点で非常に優れているわけではありません。名目上のコンテキストウィンドウと機能上のそれの間、つまりモデルが受け入れるものと、信頼性をもって推論に使えるものの間にあるギャップは、AIにおける最も重要な未解決問題の一つであり続けています。Subquadraticは、そのギャップを埋めたと述べています。独立した評価がその主張を裏付けるなら、その影響は単一のスタートアップの企業価値をはるかに超えて波及するでしょう。そうでなければ、同社は、発表当日には革命的に聞こえた一方で、6か月後にはありふれたものになっていた長文コンテキストの約束が積み重なっていく、増え続けるリストの一員になります。
計算の世界では、あらゆる基本的な制約が、いつか必ず壁に突き当たります。突き当たったとき、そのブレークスルーは業界が想定していた方向からは決して生まれません。Subquadraticを取り巻く問いは、11人の博士と2900万ドルのシードラウンドを背景にしたチームが、何千倍も大きな組織が費やしてきたにもかかわらず到達できなかった答えを実際に見つけたのか、それとも単に問題をよりうまく説明する方法を見つけただけなのか──その点にあります。




