SageMaker Unified Studio と S3 を使った非構造化データによる LLM ファインチューニングの高速化

Amazon AWS AI Blog / 2026/3/27

💬 オピニオンDeveloper Stack & InfrastructureTools & Practical Usage

要点

  • AWS は、Amazon SageMaker Unified Studio と Amazon S3 の汎用バケットを接続し、ML や分析ワークロードで非構造化の S3 データを利用しやすくする統合を以前に発表していました。
  • 本記事では、S3 バケットを Amazon SageMaker Catalog と統合して、視覚質問応答(VQA)向けに Llama 3.2 11B Vision Instruct をファインチューニングするための具体的なワークフローを紹介します。
  • 具体的には、SageMaker Unified Studio 環境を用いて、非構造化データパイプラインとともにファインチューニング手順をオーケストレーションする方法を示しています。
  • このアプローチは、完全にキュレーションされた構造化データセットに頼るのではなく、S3 に保存された非構造化アセットを LLM ファインチューニングに活用する必要があるチームを対象としています。
  • 全体として、Unified Studio + S3 + SageMaker Catalog の組み合わせを、多モーダルタスクに対する LLM ファインチューニングと実験を加速するための実用的な道筋として位置付けています。
昨年、AWSはAmazon SageMaker Unified StudioとAmazon S3の汎用バケット間の統合を発表しました。この統合により、Amazon Simple Storage Service(Amazon S3)に保存された非構造化データを、機械学習(ML)およびデータ分析のユースケースに活用することが、チームにとって簡単になります。本記事では、Amazon SageMaker Unified Studioを使用して、視覚質問応答(VQA)のためにLlama 3.2 11B Vision Instructを微調整する方法として、S3の汎用バケットをAmazon SageMaker Catalogと統合する手順を示します。