2030年までに、1兆パラメータを持つLLMの推論コストが90%以上削減される ガートナー予想

ITmedia AI+ / 4/3/2026

💬 OpinionSignals & Early TrendsIdeas & Deep AnalysisModels & Research

Key Points

  • ガートナーは、2025年比で1兆パラメータ級LLMの推論コストが2030年までに90%以上削減される見通しを示した。
  • 削減要因は、半導体/インフラの効率向上、モデル設計の革新、チップ利用率改善、推論特化シリコンの普及、エッジデバイス活用など複合的な技術進展だ。
  • 予想は「最先端チップ前提のフロンティアシナリオ」と「既存ベンチマーク前提のレガシーブレンドシナリオ」の2通りで、後者は絶対コストがより高くなり得る。
  • コスト削減は利用企業の費用低減に直結しない可能性があり、AIエージェント普及で処理トークン量が増えて効果が相殺されると警告している。
  • 企業は、高頻度の作業は安価な小規模・ドメイン特化モデル、複雑で高度な処理は大規模LLMへ、という使い分けでコスト効率を高めるべきだとしている。

この記事は新野淳一氏のブログ「Publickey」に掲載された「マイクロソフト、Claude CodeやGitHub Copilotに「このアプリをデプロイせよ」と指示すればAIが最適なインフラ構成やサービスでデプロイしてくれる「Azure Skills Plugin」公開」(2026年3月25日掲載)を、ITmedia NEWS編集部で一部編集し、転載したものです。

 米調査会社のガートナーは、2025年と比較した場合の大規模言語モデルにおける推論実行のコストが、1兆個のパラメータを持つモデルでは2030年までに90%以上削減されるとの予想を発表しました。

 この大きなコスト削減効果は、半導体およびインフラにおける処理効率の向上、モデル設計の革新、チップ利用率の向上、推論特化シリコンの利用増加、特定のユースケースに向けたエッジデバイスの応用などの複数の技術改善を組み合わせたことで実現されると、同社のウィル・ソマー氏(シニアディレクター兼アナリスト)は述べています。

 この予想は2つのシナリオに分かれています。

 1つは、最先端のチップ技術を前提とした「フロンティアシナリオ」(最前線シナリオ)です。

 そしてもう1つは、既存の半導体の代表的なベンチマークを基にした「レガシーブレンドシナリオ」です。

 いずれのシナリオでも処理コストは大きく削減されると予想されていますが、「レガシーブレンドシナリオ」は処理能力を低く想定しているケースにおいて、その絶対的コストは「フロンティア」シナリオよりもかなり高くなっています。

処理コストの削減がそのまま利用コストに結びつかない

 ただし、こうしたLLMの処理コスト削減が、そのまま利用する企業側におけるAIのコスト削減には結びつかないとガートナーは警告しています。

 それは一般的な生成AIのチャットbotの利用に比べて5倍から30倍のトークンが処理されるAIエージェントの利用が企業で広まることで、全体としてはより多くのトークンを処理することになり、それがトークンあたりの処理コスト削減の効果を打ち消してしまうからだと説明されています。

 今後企業がコスト面で効率的に生成AIを活用するには、日常的で高頻度なタスクについては安価な小規模かつドメイン固有の言語モデルで処理し、高度で複雑な処理のみ高コストが想定される本格的に大規模な言語モデルで処理すべきだとガートナーはアドバイスしています。

関連記事

関連リンク

Copyright © ITmedia, Inc. All Rights Reserved.

続きを読むには、コメントの利用規約に同意し「アイティメディアID」および「ITmedia NEWS アンカーデスクマガジン」の登録が必要です