マルチモーダル・データ・パイプラインの構築

The Batch / 2026/4/23

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

原文を読む →

共有:

要点

この記事は、マルチモーダル・データ・パイプラインを構築する方法に焦点を当てたショートコースのページであり、複数のデータ種別（例：テキスト、画像、音声）を統一したパイプラインとして扱うための手順を扱います。
データの取り込み、前処理／正規化、そして下流の学習や推論で使えるようにマルチモーダル・データセットを整理する、といったパイプライン構築の実践的な概念が重視されています。
コースの構成から、バッチ処理、保存・フォーマットの選択、信頼できるデータ取り扱いのパターンなど、パイプラインのスケールや保守を意識した考え方が示唆されます。
総じて、マルチモーダルのデータを機械学習システムで効果的に運用できるようにすることを目指す内容です。

短期講座中級1時間 1分

マルチモーダル・データ・パイプラインの構築

講師: Gilberto Hernandez

今すぐ受講登録

返却形式: {"translated": "翻訳されたHTML"}

中級
1時間 1分
7つのビデオレッスン
3つのコード例
講師: Gilberto Hernandez
Snowflake

学べること

OCR、自動音声認識（ASR）、およびビジョン言語モデル（VLM）を使って、構造化され、クエリ可能な情報を、画像・音声・動画の非構造データから抽出します。
動画フレーム全体をまたいで推論し、タイムスタンプ付きのシーン説明を生成し、時間の経過に沿って出来事を追跡する、VLMに支えられたパイプラインを構築します。

返却形式: {"translated": "翻訳されたHTML"}
実世界のデータセット上でマルチモーダル RAG アプリケーションを実装し、生の画像・音声・動画を、根拠付きで引用された回答を返せる、完全にクエリ可能なインターフェースにします。

このコースについて

画像・音声・動画は、今日企業が生成するデータの増え続ける割合を占めていますが、ほとんどのパイプラインは依然として構造化データだけを対象に構築されています。このコースでは、マルチモーダルデータを処理し、それをLLMが扱えるテキストに変換する、AI駆動のパイプラインの作り方を学びます。

まず基礎から始めます。ASRを使って音声からトランスクリプトを抽出し、画像をLLMが扱えるテキストの説明へ変換します。そこから先では、ビジョン言語モデルが動画の各セグメントから説明文を生成する仕組みを学びます。単一フレームで見えているものだけでなく、時間とともにシーンの中で何が起きていくのかも捉えます。次に、そのスキルを使って、会議のスライド・音声・動画をまたいで検索し、それらの内容に関する質問へ回答するマルチモーダルRAGパイプラインを実装します。3つのモダリティをすべて組み合わせることで、LLMに複雑で実世界のコンテンツに対する詳細な回答を生み出すために必要な豊富な文脈を与えられます。

詳しくは、あなたは次を行います：

マルチモーダルなデータの全体像を調査し、各データ形式が持つ固有の課題と、非構造化コンテンツを検索可能なテキストへ変換する手法を学びます。
OCRとASRを適用して、画像と音声を構造化テキストに変換し、その後それらを統一されたベクトル空間に埋め込むことで、クロスモーダルなセマンティック検索を可能にします。
ビジョン言語モデルを効果的にプロンプトし、動画に適したフレームサンプリングおよび埋め込み戦略を選びます。
会議動画にビジョン言語モデルを実行して、タイムスタンプ付きのセグメント説明を生成し、それらを音声やスライドとともに埋め込むことで、統一されたセマンティック検索と時間ベースの検索を行います。
音声・スライド・動画にまたがって取得（検索）し、会議の録音から根拠付きで引用された回答を生成するマルチモーダルRAGシステムを構築します。

学ぶ各手法は、データエンジニアがこれまでずっと抱えてきた同じ目標のために役立ちます。散らかった、非構造化データを、クエリでき、分析でき、そして発展させられる形に変えることです。

どんな人におすすめ？

構造化データの枠を超えて、画像・音声・動画も扱うようにパイプラインを拡張したいデータエンジニアやML実践者の方。Python、SQLクエリ、データエンジニアリングの基本的な概念に関する理解があることが推奨されます。

コース概要

7 レッスン・3 コード例

イントロダクション
動画・2分
マルチモーダルデータの概要
動画・7分
自動文字起こし（ASR）、OCR、セマンティック検索
コード例付きの動画・16分
VLMで動画を処理する
動画・7分
VLM対応パイプラインを構築する
コード例付きの動画・8分
マルチモーダル RAG システム
コード例付きの動画・9分
結論
動画・1分
クイズ
読解・10分

インストラクター

Gilberto Hernandez

Snowflake のリード・デベロッパー・アドボケイト