
- 中級
- 1時間 1分
- 7つのビデオレッスン
- 3つのコード例
- 講師: Gilberto Hernandez
学べること
OCR、自動音声認識(ASR)、およびビジョン言語モデル(VLM)を使って、構造化され、クエリ可能な情報を、画像・音声・動画の非構造データから抽出します。
- 返却形式: {"translated": "翻訳されたHTML"}
動画フレーム全体をまたいで推論し、タイムスタンプ付きのシーン説明を生成し、時間の経過に沿って出来事を追跡する、VLMに支えられたパイプラインを構築します。
実世界のデータセット上でマルチモーダル RAG アプリケーションを実装し、生の画像・音声・動画を、根拠付きで引用された回答を返せる、完全にクエリ可能なインターフェースにします。
このコースについて
画像・音声・動画は、今日企業が生成するデータの増え続ける割合を占めていますが、ほとんどのパイプラインは依然として構造化データだけを対象に構築されています。このコースでは、マルチモーダルデータを処理し、それをLLMが扱えるテキストに変換する、AI駆動のパイプラインの作り方を学びます。
まず基礎から始めます。ASRを使って音声からトランスクリプトを抽出し、画像をLLMが扱えるテキストの説明へ変換します。そこから先では、ビジョン言語モデルが動画の各セグメントから説明文を生成する仕組みを学びます。単一フレームで見えているものだけでなく、時間とともにシーンの中で何が起きていくのかも捉えます。次に、そのスキルを使って、会議のスライド・音声・動画をまたいで検索し、それらの内容に関する質問へ回答するマルチモーダルRAGパイプラインを実装します。3つのモダリティをすべて組み合わせることで、LLMに複雑で実世界のコンテンツに対する詳細な回答を生み出すために必要な豊富な文脈を与えられます。
詳しくは、あなたは次を行います:
- マルチモーダルなデータの全体像を調査し、各データ形式が持つ固有の課題と、非構造化コンテンツを検索可能なテキストへ変換する手法を学びます。
- OCRとASRを適用して、画像と音声を構造化テキストに変換し、その後それらを統一されたベクトル空間に埋め込むことで、クロスモーダルなセマンティック検索を可能にします。
- ビジョン言語モデルを効果的にプロンプトし、動画に適したフレームサンプリングおよび埋め込み戦略を選びます。
- 会議動画にビジョン言語モデルを実行して、タイムスタンプ付きのセグメント説明を生成し、それらを音声やスライドとともに埋め込むことで、統一されたセマンティック検索と時間ベースの検索を行います。
- 音声・スライド・動画にまたがって取得(検索)し、会議の録音から根拠付きで引用された回答を生成するマルチモーダルRAGシステムを構築します。
学ぶ各手法は、データエンジニアがこれまでずっと抱えてきた同じ目標のために役立ちます。散らかった、非構造化データを、クエリでき、分析でき、そして発展させられる形に変えることです。
どんな人におすすめ?
構造化データの枠を超えて、画像・音声・動画も扱うようにパイプラインを拡張したいデータエンジニアやML実践者の方。Python、SQLクエリ、データエンジニアリングの基本的な概念に関する理解があることが推奨されます。
コース概要
7 レッスン・3 コード例イントロダクション
動画・2分
マルチモーダルデータの概要
動画・7分
自動文字起こし(ASR)、OCR、セマンティック検索
コード例付きの動画・16分
VLMで動画を処理する
動画・7分
VLM対応パイプラインを構築する
コード例付きの動画・8分
マルチモーダル RAG システム
コード例付きの動画・9分
結論
動画・1分
クイズ
読解・10分
インストラクター
マルチモーダル データパイプラインの構築
- 中級
- 1 時間 1 分
- 7 本のビデオレッスン
- 3 つのコード例
- 講師:Gilberto Hernandez
クイズやプロジェクトなどの追加の学習機能は、DeepLearning.AI Pro で利用できます。今日、ぜひ探索してみてください
生成AIについてもっと学びたいですか?
厳選されたAIニュース、コース、イベントの最新情報に加えて、DeepLearning.AI からのアンドリューの考えもお届けします。学びを続けましょう!

