マルチモーダル AI とは
テキストだけでなく 画像、音声、動画、3D、コードなど複数のモダリティ(種類)を扱える AI。2024〜2026 年で実用レベルに到達し、業務での適用範囲が一気に広がりました。
主要モデルの対応状況
| モデル | 入力 | 出力 |
|---|---|---|
| GPT-5.4 | テキスト・画像・音声・動画 | テキスト・画像(GPT Image)・音声 |
| Claude Opus 4.7 | テキスト・画像・PDF | テキスト |
| Gemini 3.1 Pro | テキスト・画像・音声・動画 | テキスト・画像 |
| Llama 4 | テキスト・画像・動画 | テキスト |
主な入力ユースケース
画像理解
- スクリーンショット解析(UI バグ報告、データ抽出)
- 図表・グラフの読み取り
- 製品の外観検査
- 領収書・名刺・書類 OCR
- 医療画像補助(規制下で)
音声認識・解析
- 会議の文字起こし


