Meta、視覚で世界を理解する新AI「Muse Spark」発表 「Llama」より高効率でAIメガネにも統合へ

ITmedia AI+ / 2026/4/9

📰 ニュースSignals & Early TrendsIndustry & Market MovesModels & Research

要点

  • Metaが視覚理解とマルチモーダル推論を行う新AIモデル「Muse Spark」を発表し、Meta AIアプリ/ウェブ(meta.ai)から一般提供を開始した。
  • 「Llama 4 Maverick」と比べて、改善したアーキテクチャ/最適化/データにより「1桁以上少ない計算量で同等の能力」に到達するとしており、小型かつ高速が特徴。
  • ユーザーの見ている世界を理解し、画像から食品のランキングや代替品比較などのタスクを実行できる。
  • 「Ray-Ban Meta」などAIメガネへの統合が進み、周囲環境のより正確な理解とアシスタント機能の強化を狙う。
  • 医師と連携した学習データ(1000人以上)により健康領域で画像/グラフを用いた詳細回答が可能で、視覚的コーディングや複数エージェントの「熟考モード」も搭載。

 米Metaは4月8日(現地時間)、Superintelligence Labs立ち上げ後初のAIモデル「Muse Spark」を発表した。「Meta AI」アプリおよびWeb版(meta.ai)を通じて一般ユーザーへの提供を開始した。今後数週間以内に、「WhatsApp」「Instagram」「Facebook」「Messenger」などのMeta製アプリに順次ロールアウトされる予定だ。

 muse

 「Muse Spark」は、視覚情報の統合やツールの利用、マルチエージェントの連携をサポートするためにゼロから構築されたネイティブなマルチモーダル推論モデル。初期モデルとして小型かつ高速に設計されているのが特徴で、モデルのアーキテクチャ、最適化、データキュレーションを改善した結果、以前の同社のモデル「Llama 4 Maverick」と比較して「1桁以上少ない計算量で同等の能力に到達できる」としている。

 テキストによる指示だけでなく、ユーザーが見ている世界を視覚的に理解できるのが大きな特徴だ。例えば、スマートフォンのカメラで撮影したスナック菓子をタンパク質量の多い順にランク付けしたり、製品をスキャンして代替品と比較したりすることができる。

 muse 2 カメラで撮影した食品のカロリーを表示(画像:Meta)

 「Ray-Ban Meta」シリーズなどの同社のAIメガネにも統合する。モデルの高度な視覚認識機能がAIメガネに搭載されることで、アシスタントがユーザーの周囲の環境をより正確に見て理解できるようになる。


 また、1000人以上の医師と協力して学習データがキュレーションされており、健康に関する複雑な質問に対しても画像やグラフを用いて詳細に回答できるという。


 さらに、プロンプトからWebサイトやミニゲームを作成する視覚的コーディング機能や、複数のAIエージェントが並行して推論を行って複雑な問題に対処する「Contemplating(熟考)モード」も搭載している。

 マーク・ザッカーバーグCEOはFacebookへの投稿で「9カ月前に超知能(superintelligence)をあらゆる人の手に届けることを目指してMeta Superintelligence Labsを設立した」と振り返り、その最初のマイルストーンとしてMuse Sparkを発表したと語った。将来の展望については、「今後は新しいオープンソースモデルを含め、知能の限界を押し広げる、より高度なモデルをリリースしていく計画だ。単に質問に答えるだけでなく、あなたのために行動するエージェントとなる製品を構築している」という。

 なお、本モデルはMeta製品専用というわけではなく、選ばれた一部のパートナー企業向けにはAPIを通じたプライベートプレビューとしても提供される。

関連記事

関連リンク

Copyright © ITmedia, Inc. All Rights Reserved.

続きを読むには、コメントの利用規約に同意し「アイティメディアID」および「ITmedia AI+メールマガジン」の登録が必要です