イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文

日経XTECH / 2026/4/10

📰 ニュースSignals & Early TrendsIdeas & Deep AnalysisModels & Research

共有:

要点

arXivに投稿されたMoonshot AI（Kimiチーム）の論文「Attention Residuals」が、Elon Muskの言及やSNS上での注目により3月の話題ランキング上位に入り、研究コミュニティの関心を集めた。
従来のTransformerが主に「横（トークン間）」のAttention進化に注力してきた一方で、「縦（層間の情報統合）」は残差接続を中心に長く大きな変更がなかった点を背景に、新機軸として層間でもAttentionを適用する発想を提示している。
残差接続が事実上「重み1で全過去層を単純加算する」ため深い層ほど影響が薄れやすい（PreNormの希薄化）という既存理解を踏まえ、AttnResでは入力に応じて必要な過去層情報を重み付きで選択・集約する。
ただし全層への素朴なAttentionはメモリー増大を招くため、層をブロックに分割して代表値を圧縮する「Block AttnRes」を導入し、学習オーバーヘッド4%未満・推論レイテンシー増加2%未満を目標にドロップイン置換を志向している。

生成AI（人工知能）を含む最新のAI研究動向を知るため、世界中の研究者やエンジニアが参照しているのが、論文速報サイト「arXiv（アーカイブ）」である。そんなarXivの投稿論文から、2026年3月13日～4月7日にSNSのX、Bluesky、LinkedIn、Redditで多く言及されたAI分野の注目論文を紹介する。調査には米Meltwater（メルトウォーター）のSNS分析ツールを利用した。対象は全世界のオリジナル投稿、コメント、再投稿、引用投稿である。

　中国AIスタートアップMoonshot AI（月之暗面）のKimiチームが発表した論文「Attention Residuals（残差注意機構）」に、Elon Musk（イーロン・マスク）氏が「Impressive work from Kimi」とXで投稿した。世界のAI研究者からもリポストなどが集まり、2026年3月のSNS言及数ランキングで2位に入った。

関連論文： Attention Residuals 関連投稿： https://x.com/elonmusk/status/2033528245464047805

　Moonshot AIが開発する基盤モデルKimiは、中国発のAIモデルの中でも高い性能で知られる。米NVIDIA（エヌビディア）の年次技術イベント「GTC 2026」にMoonshot AIの楊植麟創業者兼CEO（最高経営責任者）が登壇するなど、世界で存在感を着実に高めている。そのKimiの開発チームが今回、LLM（大規模言語モデル）の根幹設計に正面から切り込んだ。

ほとんど変化がなかった「縦の設計」

　2017年にTransformerが登場して以来、基盤モデル開発で研究が進んだのは「横の設計」、つまり系列方向のトークン間Attention（注意機構）の設計だった。Multi-Head AttentionからGrouped Query Attention、DeepSeekのMLA（Multi-head Latent Attention）に至るまで、その進化は目覚ましかった。しかし各層が情報をどう受け渡すかという「縦の設計」、つまり深さ方向の情報統合については、ほぼ手つかずだった。Transformerが層間の情報受け渡しに残差接続（Residual Connection）を採用し、2018年ごろに学習の安定化のためPreNorm構成（層正規化を各層の直前に配置する構成）を適用して以降8年ほど、主要モデルにおいて大きな変化は見られなかった。

　Transformerが採用する残差接続とは、直前の層の出力と自身の出力を合算して次の層に入力する仕組みだ。この再帰的な操作は、全ての過去層の出力を「重み1で単純に足し合わせる」ことと等価である。層が深くなるほどこの足し合わせが積み重なるため、隠れ状態の値が増大しやすい。結果として、深い層ほど自身の出力が全体に与える影響が薄れていく。論文が「PreNormの希薄化」と呼ぶこの現象により、大規模モデルの深い層の一部を削っても性能に大きな影響を与えないことが、近年の研究で明らかになっていた。

Attentionを縦方向に適用する

　Kimiの提案「Attention Residuals（AttnRes）」の考え方はシンプルだ。横方向のトークン間で機能してきたAttentionを、層と層の間、つまり縦方向にも持ち込む。過去の全ての層の出力を直接参照し、「今どの層の情報が必要か」を動的に選択する。重み1の固定的な足し算から、入力に応じた重み付き選択をするように転換する。

　ただし、全層に対して単純にAttentionをかけると、メモリー消費が膨大になってしまう。このため研究チームは、層をブロックに分割し、ブロック単位の代表値に圧縮してから処理する「Block AttnRes」を導入した。この結果、パイプライン並列時の学習オーバーヘッドは4％未満、推論レイテンシー（遅延）の増加は2％未満に抑えた。標準的な残差接続のドロップイン置換として機能するよう設計されているという。

図1　残差注意機構の概要。（a）標準的な残差接続：各層がそれ以前の層を均一に加算・蓄積。（b）Full AttnRes：学習済みの注意重みに沿って、各層がそれ以前の全層の出力を選択的に集約。（c）Block AttnRes：層をグループ化してメモリー使用量を削減

（出所：論文「Attention Residuals」）

[画像のクリックで拡大表示]

　論文によると、総パラメーター480億、活性化パラメーター30億（MoE構成）のKimi Linearで1.4兆トークンを学習したところ、Block AttnResを採用したケースでは、学習で同じ性能に至るまでの計算量を約2割減らせたという。個別ベンチマークでは、多段階推論を要するGPQA-Diamondで7.5ポイント増、数学ベンチマークMATHで3.6ポイント増、コード生成のHumanEvalで3.1ポイント増、全評価タスクでベースラインと同等かそれ以上の結果を示した。他のTransformer系LLMでも同様の効果を再現できるか、引き続き注目を集めそうだ。

マルチモーダルAIは本当に「画像を見ているか」、...

この記事は有料会員限定です

Black Hat Asia

AI Business

安川電機、人型ロボをオフィスへフィジカルAIで「臨機応変」実現

日経XTECH

フィジカルAIは日本の好機、米中と違う勝ち筋3つ FAに起こる地殻変動

日経XTECH

人型ロボット、中国が圧倒的に先行日本はコア部品技術で挽回へ

日経XTECH

デンソーのE2E自動運転戦略、VLA内製へ CTO「レベル4相当目指す」

日経XTECH

イーロン・マスクも驚いた中国KimiチームのLLM新機軸、3月のAI注目論文