いまの主要なAI(ChatGPTのGPT-5、GoogleのGemini 3、AnthropicのClaude Opus 4.7/4.8など)は、文章だけでなく画像も“読んで”理解するマルチモーダル機能を標準で備えています。スクリーンショットの文字起こし、グラフの傾向の要約、手書きメモの清書、画面デザインの指摘まで、写真を1枚渡すだけで言葉で返してくれます。本記事は、できること・コツ・そして「読み間違い」への備え方までを、初めての方向けに整理します。
What It Can Do
「画像を読む」と一口に言っても、中身は大きく4つです。①画像内の文字を取り出す(OCR)、②グラフ・表の数値や傾向を読み取る、③手書きの字を活字に直す、④画面・写真を見て改善点を述べる。どれも特別な設定は要らず、画像を添付して日本語で頼むだけで動きます。
FIG.1 画像を添付 →「Vision」が画像と指示を理解 → 言葉で返す。設定不要
01まず画像を渡す:対応形式と上限
使い方はシンプルです。チャットの入力欄にあるクリップ(添付)アイコンを押して画像を選ぶか、PCならチャット画面へドラッグ&ドロップ。スマホアプリなら+ボタンからカメラ撮影かギャラリー選択ができます。読み込んだら、あとは「この画像の文字を書き出して」のように日本語で頼むだけです。
対応する画像形式と枚数の目安は、サービスによって少しずつ違います。代表例として Claude の場合は次の通りです(数値や上限は変わることがあるため、利用するサービスの公式情報で必ず確認してください)。
- 対応形式:JPEG・PNG・WebP・GIF(GIFは先頭フレームのみ)。スクリーンショットや写真は通常これに収まります。
- 枚数:claude.ai(ブラウザ/アプリ)では1回のやり取りで概ね最大20枚、APIでは1リクエスト最大100枚まで扱えます。
- 画質:長辺がおおよそ1568px程度で十分な精度。Opus 4.7以降は高解像度(長辺2576px程度)にも対応します。1ファイル20MBが目安で、超えると自動で縮小されます。
細かい字や複雑な表は、少しズームして鮮明に撮るだけで読み取り精度が上がります。極端に小さい・ぼけた画像は誤読のもとです。
02スクリーンショットから文字を取り出す(OCR)
もっとも使う場面が、画面や書類の文字起こしです。請求書、メール画面、チャットログ、会議資料のスクショなどから、テキストをそのまま取り出せます。日本語・英語に加え多言語も扱えます。
指示はストレートで構いません。
このスクリーンショットの文字をそのまま書き出してください。
「項目を決めて抜き出す」と、後で使いやすい形になります。たとえば会議資料なら——



