画像を読む:スクリーンショット・図表・手書きメモの解析

AI Navigate Original / 2026/3/23

💬 オピニオンTools & Practical UsageModels & Research
共有:

要点

  • Claudeのマルチモーダル機能はテキスト抽出だけでなくグラフ・手書きメモ解析にも対応
  • 画像アップロードはWebやモバイルで簡単操作、対応フォーマットも豊富
  • スクリーンショットの文字起こしやグラフ要約で業務効率化が可能
  • 手書きメモのデジタル化機能は会議記録やアイデア管理に便利
  • UIデザインレビューもでき、具体的な改善点をAIから提案してもらえる

いまの主要なAI(ChatGPTのGPT-5、GoogleのGemini 3、AnthropicのClaude Opus 4.7/4.8など)は、文章だけでなく画像も“読んで”理解するマルチモーダル機能を標準で備えています。スクリーンショットの文字起こし、グラフの傾向の要約、手書きメモの清書、画面デザインの指摘まで、写真を1枚渡すだけで言葉で返してくれます。本記事は、できること・コツ・そして「読み間違い」への備え方までを、初めての方向けに整理します。

What It Can Do

「画像を読む」と一口に言っても、中身は大きく4つです。①画像内の文字を取り出す(OCR)、②グラフ・表の数値や傾向を読み取る、③手書きの字を活字に直す、④画面・写真を見て改善点を述べる。どれも特別な設定は要らず、画像を添付して日本語で頼むだけで動きます。

画像(写真・スクショ) AI(Vision) 画像+指示を理解 言葉での回答 あなた

FIG.1 画像を添付 →「Vision」が画像と指示を理解 → 言葉で返す。設定不要

01まず画像を渡す:対応形式と上限

使い方はシンプルです。チャットの入力欄にあるクリップ(添付)アイコンを押して画像を選ぶか、PCならチャット画面へドラッグ&ドロップ。スマホアプリなら+ボタンからカメラ撮影かギャラリー選択ができます。読み込んだら、あとは「この画像の文字を書き出して」のように日本語で頼むだけです。

対応する画像形式と枚数の目安は、サービスによって少しずつ違います。代表例として Claude の場合は次の通りです(数値や上限は変わることがあるため、利用するサービスの公式情報で必ず確認してください)。

  • 対応形式:JPEG・PNG・WebP・GIF(GIFは先頭フレームのみ)。スクリーンショットや写真は通常これに収まります。
  • 枚数:claude.ai(ブラウザ/アプリ)では1回のやり取りで概ね最大20枚、APIでは1リクエスト最大100枚まで扱えます。
  • 画質:長辺がおおよそ1568px程度で十分な精度。Opus 4.7以降は高解像度(長辺2576px程度)にも対応します。1ファイル20MBが目安で、超えると自動で縮小されます。

細かい字や複雑な表は、少しズームして鮮明に撮るだけで読み取り精度が上がります。極端に小さい・ぼけた画像は誤読のもとです。

02スクリーンショットから文字を取り出す(OCR)

もっとも使う場面が、画面や書類の文字起こしです。請求書、メール画面、チャットログ、会議資料のスクショなどから、テキストをそのまま取り出せます。日本語・英語に加え多言語も扱えます。

指示はストレートで構いません。

このスクリーンショットの文字をそのまま書き出してください。

「項目を決めて抜き出す」と、後で使いやすい形になります。たとえば会議資料なら——

続きを読むには無料登録が必要です

アカウントを作成すると、オリジナル記事の全文をお読みいただけます。