イーロン・マスクも驚いた中国論文

日経XTECH / 2026/5/14

💬 オピニオンIdeas & Deep AnalysisModels & Research

要点

  • Moonshot AIの基盤モデルKimiの開発チームが、LLMの「縦の設計」(層深さ方向での情報統合)に正面から切り込む新しい論文を発表した。
  • これまでの基盤モデル進化はTransformerの「横の設計」(系列方向のAttention)に偏り、層間で情報をどう受け渡すかという深さ方向の設計は相対的に手つかずだった。
  • 残差接続は直前層出力と自身出力を合算するため、深い層ほど過去出力への単純加算が積み重なって「深い層の出力影響が薄れる」性質を生みやすく、その現象がPreNormの希薄化として論文で整理されている。
  • この理解により、近年は大規模モデルの深い層の一部を削っても性能が大きく落ちにくいことが示されており、今回の研究はその「縦方向の統合」を改善する方向性につながる。
  • 記事後半では「Attentionを縦方向に適用する」ことが次の論点として予告されており、層間情報フローの再設計が焦点になる。

Moonshot AIが開発する基盤モデルKimiは、中国発のAIモデルの中でも高い性能で知られる。米エヌビディアの年次技術イベントに創業者が登壇するなど、世界で存在感を着実に高めている。そのKimiの開発チームが今回、LLM(大規模言語モデル)の根幹設計に正面から切り込んだ。

表 arXiv掲載のAI関連論文のX/Bluesky/LinkedIn/Reddit内人気数ランキング(世界)
表 arXiv掲載のAI関連論文のX/Bluesky/LinkedIn/Reddit内人気数ランキング(世界)
「AIのゴッドマザー」が発表の論文に注目(出所:Meltwater(期間は2026年3月13日~4月7日。投稿はオリジナル投稿、コメント、再投稿、引用投稿の全てを含む))
[画像のクリックで拡大表示]

 2017年にTransformerが登場して以来、基盤モデル開発で研究が進んだのは「横の設計」、つまり系列方向のトークン間Attention(注意機構)の設計だった。Multi-Head AttentionからGrouped Query Attention、DeepSeekのMLA(Multi-head Latent Attention)に至るまで、その進化は目覚ましかった。しかし各層が情報をどう受け渡すかという「縦の設計」、つまり深さ方向の情報統合については、ほぼ手つかずだった。Transformerが層間の情報受け渡しに残差接続(Residual Connection)を採用し、2018年ごろに学習の安定化のためPreNorm構成(層正規化を各層の直前に配置する構成)を適用して以降8年ほど、主要モデルにおいて大きな変化は見られなかった。

 Transformerが採用する残差接続とは、直前の層の出力と自身の出力を合算して次の層に入力する仕組みだ。この再帰的な操作は、全ての過去層の出力を「重み1で単純に足し合わせる」ことと等価である。層が深くなるほどこの足し合わせが積み重なるため、隠れ状態の値が増大しやすい。結果として、深い層ほど自身の出力が全体に与える影響が薄れていく。論文が「PreNormの希薄化」と呼ぶこの現象により、大規模モデルの深い層の一部を削っても性能に大きな影響を与えないことが、近年の研究で明らかになっていた。

次のページ

Attentionを縦方向に適用する

この記事は有料会員限定です