産総研のフィジカルAIプロジェクトに迫る　10万年ギャップを超えろ！

ITmedia AI+ / 4/13/2026

💬 OpinionSignals & Early TrendsIndustry & Market MovesModels & Research

共有:

Key Points

産総研が2026/3/23に、製造業を中心とする「フィジカル領域の生成AI基盤モデル」に関する研究開発プロジェクトを解説するウェビナーを開催し、参加者は400人超となった。
本プロジェクトは2024〜2026年度の3年間で、透明性を持つ基盤モデルを構築しつつ、実世界への応用まで含めて各産業の業務改善・業務改革と国際競争力向上を目指す。
フィジカルAIは、サイバー領域の入出力に加えてフィジカル世界で観測・作用が可能で、サイバーとも相互作用する“現実世界志向”のAIとして定義されている。
研究体制は画像/音声・音響/言語/ロボット/基盤技術/バイオの6グループで構成され、ロボットは観測・理解・行動を結び付ける役割とされる。
これまでの成果として、音声基盤モデル（いざなみ・くしなだ）、双腕ロボットAI支援データセット（AIST-Bimanual Manipulation）、生成系モデルの発表（Llama 3.1 Swallow）など複数のプレスリリースが紹介された。

　産業技術総合研究所（以下、産総研）は2026年3月23日、「フィジカル領域の生成AI基盤モデルに関する研究開発」プロジェクトについて解説するウェビナーを開催した。日本の主力産業である製造業を中心に注目を集めるフィジカルAI（人工知能）がテーマになっていることもあり、参加者は400人を超えたという。

フィジカルAIはサイバー世界とも相互作用する

　冒頭では、プロジェクトの概要と狙いを、産総研人工知能研究センター首席研究員の佐藤雄隆氏が解説した。2024～2026年度の3年間で計画されている同プロジェクトは、産総研としてフィジカルAIの基盤モデルを活用したシステム、アプリケーションを広く浸透させるとともに、日本のさまざまな産業の業務改善、業務改革を促して国際競争力の維持／向上に寄与することを目指している。また、透明性を持つ基盤モデルの構築と、実世界への応用も志向している。なお、フィジカルAIへの注目が集まったのは2025年後半からだが、プロジェクトが立案されたのは2023年度である。

産総研の「フィジカル領域の生成AI基盤モデルに関する研究開発」プロジェクトの概要［クリックで拡大］出所：産総研

　同プロジェクトにおけるフィジカルAIの定義は以下の通りだ。従来のAIはサイバー世界で入出力が完結していたが、フィジカルAIは、フィジカル世界に必要に応じて直接の観測や作用が可能で、サイバー世界とも相互作用するものだ。すなわち、従来のAIの領域を包含しつつ、現実世界を観測／作用するものとして捉えられている。

同プロジェクトにおけるフィジカルAIの定義［クリックで拡大］出所：産総研

　研究体制はモダリティと応用領域によって分けられた、画像、音声／音響、言語、ロボット、基盤技術、バイオの6つのグループから成る。これらのうちバイオは、横断的応用領域として捉えられており、ロボットは観測／理解／行動を結び付ける存在とされている。

研究体制は6グループから成る［クリックで拡大］出所：産総研

　なお、同プロジェクトの研究開発成果としてこれまでに、「Llama 3.1 Swallow」や、6万時間の日本語音声データを使った日本語音声基盤モデル「いざなみ」「くしなだ」、双腕ロボットAIの開発を支援するデータセット「AIST-Bimanual Manipulation」をはじめ約7件のプレスリリースが出ている。

ロボット基盤モデル構築に向けた取り組み

　続いて、ロボットの基盤モデル構築に向けた研究成果を、産総研人工知能研究センター実体知能研究チーム研究チーム長の堂前幸康氏が紹介した。堂前氏は三菱電機でマシンビジョンやロボットマニピュレーションの研究に取り組んだ後、2018年からは産総研でロボティクス分野について研究している。

　堂前氏は冒頭で、約10年前に開催された物流向けピッキングロボットのコンテストである「Amazon Picking Challenge 2015」を振り返り、当時と同じ問題に今取り組むと、VLM（視覚言語モデル）に身体を制御する知識が内包されていることが分かると同時に、まだ課題があることも分かると紹介した。

ロボットマニピュレーション研究の変化［クリックで拡大］出所：産総研

　現在、多くのスタートアップや研究機関が、さまざまな基盤モデルの開発を続けている。印象的な例として、DeepMindの研究者が立ち上げたスタートアップのGeneralistによるデータドリブンベースのデモを挙げた。堂前氏のように製造現場に携わってきた人間の目から見ても、かなり印象的なレベルに達していると感じるという。

スタートアップのGeneralistによるロボットマニピュレーションの事例映像［クリックで再生］出所：Generalist

　基盤モデルのさまざまな応用も進められている。マニピュレーションだけではなく、ナビゲーションでもSim-to-Real（仮想環境で学習したAIモデルを現実世界に適用させるアプローチ）がうまくできるようになっている。模倣学習手法の一つであるMT-ACT（Multi-task Action Chunking Transformer）を使ってロボットのマニピュレーションをやらせると、約6時間の収集データで言語指示で動くシステムを構築できた。速度は遅いものの、各モーダルが滑らかに接続されており、可能性を感じさせるとコメントした。