はじめに:Claudeのマルチモーダル機能とは
2025年の最新AI、Claude(クロード)はテキストだけでなく画像も解析可能なマルチモーダル機能を備えています。この機能を使えば、スクリーンショット、図表、手書きメモなど、さまざまなビジュアル情報をテキスト化・理解させることができます。この記事では画像アップロードから具体的な解析例まで、実践的な使い方をわかりやすく解説します。
1. Claudeで画像をアップロードする方法
Claudeの画像解析機能を使うには、まず画像をチャット画面にアップロードします。対応フォーマットは主にJPEG、PNG、GIF、BMPです。
アップロード方法は以下のとおりです:
- Web版:チャット入力欄の添付ボタン(クリップアイコン)をクリックし、画像を選択。
- モバイルアプリ版:入力欄横の+ボタンからカメラを起動、またはギャラリーから選択。
- ドラッグ&ドロップ:対応PC環境ならチャット画面に直接画像をドラッグしてもOK。
アップロード後、画像が読み込まれたらテキストで指示を送れば解析が始まります。
2. スクリーンショットからのテキスト抽出(OCR)
例えば、ウェブサイトのスクリーンショットから文章を抽出したい時、以下のように指示します:
このスクリーンショットのテキスト部分を抽出してください。
Claudeは最新のOCR技術を使い、高精度で文字を読み取ります。日本語・英語だけでなく多言語も対応可能です。請求書、メール画面、チャットログなど画像の文字起こしに大活躍します。
実例
スクリーンショットに表示された会議資料のタイトルや重要ポイントを抜き出す




