画像を読む：スクリーンショット・図表・手書きメモの解析

AI Navigate Original / 2026/3/23

💬 オピニオンTools & Practical UsageModels & Research

共有:

要点

Claudeのマルチモーダル機能はテキスト抽出だけでなくグラフ・手書きメモ解析にも対応
画像アップロードはWebやモバイルで簡単操作、対応フォーマットも豊富
スクリーンショットの文字起こしやグラフ要約で業務効率化が可能
手書きメモのデジタル化機能は会議記録やアイデア管理に便利
UIデザインレビューもでき、具体的な改善点をAIから提案してもらえる

いまの主要なAI（ChatGPTのGPT-5、GoogleのGemini 3、AnthropicのClaude Opus 4.7／4.8など）は、文章だけでなく画像も“読んで”理解するマルチモーダル機能を標準で備えています。スクリーンショットの文字起こし、グラフの傾向の要約、手書きメモの清書、画面デザインの指摘まで、写真を1枚渡すだけで言葉で返してくれます。本記事は、できること・コツ・そして「読み間違い」への備え方までを、初めての方向けに整理します。

What It Can Do

「画像を読む」と一口に言っても、中身は大きく4つです。①画像内の文字を取り出す（OCR）、②グラフ・表の数値や傾向を読み取る、③手書きの字を活字に直す、④画面・写真を見て改善点を述べる。どれも特別な設定は要らず、画像を添付して日本語で頼むだけで動きます。

FIG.1　画像を添付 →「Vision」が画像と指示を理解 → 言葉で返す。設定不要

01まず画像を渡す：対応形式と上限

使い方はシンプルです。チャットの入力欄にあるクリップ（添付）アイコンを押して画像を選ぶか、PCならチャット画面へドラッグ＆ドロップ。スマホアプリなら＋ボタンからカメラ撮影かギャラリー選択ができます。読み込んだら、あとは「この画像の文字を書き出して」のように日本語で頼むだけです。

対応する画像形式と枚数の目安は、サービスによって少しずつ違います。代表例として Claude の場合は次の通りです（数値や上限は変わることがあるため、利用するサービスの公式情報で必ず確認してください）。

対応形式：JPEG・PNG・WebP・GIF（GIFは先頭フレームのみ）。スクリーンショットや写真は通常これに収まります。
枚数：claude.ai（ブラウザ／アプリ）では1回のやり取りで概ね最大20枚、APIでは1リクエスト最大100枚まで扱えます。
画質：長辺がおおよそ1568px程度で十分な精度。Opus 4.7以降は高解像度（長辺2576px程度）にも対応します。1ファイル20MBが目安で、超えると自動で縮小されます。

細かい字や複雑な表は、少しズームして鮮明に撮るだけで読み取り精度が上がります。極端に小さい・ぼけた画像は誤読のもとです。

02スクリーンショットから文字を取り出す（OCR）

もっとも使う場面が、画面や書類の文字起こしです。請求書、メール画面、チャットログ、会議資料のスクショなどから、テキストをそのまま取り出せます。日本語・英語に加え多言語も扱えます。

指示はストレートで構いません。

このスクリーンショットの文字をそのまま書き出してください。

「項目を決めて抜き出す」と、後で使いやすい形になります。たとえば会議資料なら——

続きを読むには無料登録が必要です

アカウントを作成すると、オリジナル記事の全文をお読みいただけます。

無料で登録する

ウエインズトヨタ神奈川がAdobeの生成AI導入、チラシ作成を1週間から20分に短縮

日経XTECH

Nous Research、Hermesエージェントに「Blank Slate（白紙）」モードを追加──platform_toolsets.cliとdisabled_toolsetsでツールセットを固定

MarkTechPost

Google Homeスピーカー2026：Gemini搭載、99ドル、そして6年のギャップ

Dev.to

あなたの製品ドキュメントをBizNodeのナレッジベースにアップロード：Telegramボットが自社データから即時に回答

Dev.to

あなたの自撮りは大丈夫でした。なのに実は3つの隠れたチェックが失敗していました

Dev.to

画像を読む：スクリーンショット・図表・手書きメモの解析

要点

01まず画像を渡す：対応形式と上限

02スクリーンショットから文字を取り出す（OCR）

続きを読むには無料登録が必要です

関連記事

ウエインズトヨタ神奈川がAdobeの生成AI導入、チラシ作成を1週間から20分に短縮

Nous Research、Hermesエージェントに「Blank Slate（白紙）」モードを追加──platform_toolsets.cliとdisabled_toolsetsでツールセットを固定

Google Homeスピーカー2026：Gemini搭載、99ドル、そして6年のギャップ

あなたの製品ドキュメントをBizNodeのナレッジベースにアップロード：Telegramボットが自社データから即時に回答

あなたの自撮りは大丈夫でした。なのに実は3つの隠れたチェックが失敗していました

関連おすすめサービス

Notta搭載AI議事録イヤホン ZENCHORD1

AI搭載ボイスレコーダー Plaud

画像高画質化AIツール Aiarty Image Enhancer