マルチモーダル・データ・パイプラインの構築

The Batch / 2026/4/23

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • この記事は、マルチモーダル・データ・パイプラインを構築する方法に焦点を当てたショートコースのページであり、複数のデータ種別(例:テキスト、画像、音声)を統一したパイプラインとして扱うための手順を扱います。
  • データの取り込み、前処理/正規化、そして下流の学習や推論で使えるようにマルチモーダル・データセットを整理する、といったパイプライン構築の実践的な概念が重視されています。
  • コースの構成から、バッチ処理、保存・フォーマットの選択、信頼できるデータ取り扱いのパターンなど、パイプラインのスケールや保守を意識した考え方が示唆されます。
  • 総じて、マルチモーダルのデータを機械学習システムで効果的に運用できるようにすることを目指す内容です。
短期講座中級1時間  1分

マルチモーダル・データ・パイプラインの構築

講師: Gilberto Hernandez

Snowflake
返却形式: {"translated": "翻訳されたHTML"}
  • 中級
  • 1時間 1分
  • 7つのビデオレッスン
  • 3つのコード例
  • 講師: Gilberto Hernandez
    • Snowflake
    Snowflake

学べること

  • OCR、自動音声認識(ASR)、およびビジョン言語モデル(VLM)を使って、構造化され、クエリ可能な情報を、画像・音声・動画の非構造データから抽出します。

  • 動画フレーム全体をまたいで推論し、タイムスタンプ付きのシーン説明を生成し、時間の経過に沿って出来事を追跡する、VLMに支えられたパイプラインを構築します。

    返却形式: {"translated": "翻訳されたHTML"}
  • 実世界のデータセット上でマルチモーダル RAG アプリケーションを実装し、生の画像・音声・動画を、根拠付きで引用された回答を返せる、完全にクエリ可能なインターフェースにします。

このコースについて

画像・音声・動画は、今日企業が生成するデータの増え続ける割合を占めていますが、ほとんどのパイプラインは依然として構造化データだけを対象に構築されています。このコースでは、マルチモーダルデータを処理し、それをLLMが扱えるテキストに変換する、AI駆動のパイプラインの作り方を学びます。

まず基礎から始めます。ASRを使って音声からトランスクリプトを抽出し、画像をLLMが扱えるテキストの説明へ変換します。そこから先では、ビジョン言語モデルが動画の各セグメントから説明文を生成する仕組みを学びます。単一フレームで見えているものだけでなく、時間とともにシーンの中で何が起きていくのかも捉えます。次に、そのスキルを使って、会議のスライド・音声・動画をまたいで検索し、それらの内容に関する質問へ回答するマルチモーダルRAGパイプラインを実装します。3つのモダリティをすべて組み合わせることで、LLMに複雑で実世界のコンテンツに対する詳細な回答を生み出すために必要な豊富な文脈を与えられます。

詳しくは、あなたは次を行います:

  • マルチモーダルなデータの全体像を調査し、各データ形式が持つ固有の課題と、非構造化コンテンツを検索可能なテキストへ変換する手法を学びます。
  • OCRとASRを適用して、画像と音声を構造化テキストに変換し、その後それらを統一されたベクトル空間に埋め込むことで、クロスモーダルなセマンティック検索を可能にします。
  • ビジョン言語モデルを効果的にプロンプトし、動画に適したフレームサンプリングおよび埋め込み戦略を選びます。
  • 会議動画にビジョン言語モデルを実行して、タイムスタンプ付きのセグメント説明を生成し、それらを音声やスライドとともに埋め込むことで、統一されたセマンティック検索と時間ベースの検索を行います。
  • 音声・スライド・動画にまたがって取得(検索)し、会議の録音から根拠付きで引用された回答を生成するマルチモーダルRAGシステムを構築します。

学ぶ各手法は、データエンジニアがこれまでずっと抱えてきた同じ目標のために役立ちます。散らかった、非構造化データを、クエリでき、分析でき、そして発展させられる形に変えることです。

どんな人におすすめ?

構造化データの枠を超えて、画像・音声・動画も扱うようにパイプラインを拡張したいデータエンジニアやML実践者の方。Python、SQLクエリ、データエンジニアリングの基本的な概念に関する理解があることが推奨されます。

コース概要

7 レッスン・3 コード例
  • イントロダクション

    動画2分

  • マルチモーダルデータの概要

    動画7分

  • 自動文字起こし(ASR)、OCR、セマンティック検索

    コード例付きの動画16分

  • VLMで動画を処理する

    動画7分

  • VLM対応パイプラインを構築する

    コード例付きの動画8分

  • マルチモーダル RAG システム

    コード例付きの動画9分

  • 結論

    動画1分

  • クイズ

    読解10分

インストラクター

Gilberto Hernandez

Gilberto Hernandez

Snowflake のリード・デベロッパー・アドボケイト

マルチモーダル データパイプラインの構築

  • 中級
  • 1 時間 1 分
  • 7 本のビデオレッスン
  • 3 つのコード例
  • 講師:Gilberto Hernandez
    • Snowflake
    Snowflake
無料で登録する

クイズやプロジェクトなどの追加の学習機能は、DeepLearning.AI Pro で利用できます。今日、ぜひ探索してみてください

生成AIについてもっと学びたいですか?

厳選されたAIニュース、コース、イベントの最新情報に加えて、DeepLearning.AI からのアンドリューの考えもお届けします。学びを続けましょう!