AI Navigate

インサイトインサイト最新記事最新記事一覧 AI大全AI大全カオスマップAIカオスマップ

広告

ChatGPTの「画像生成」、どう進化？　開発者に聞く　“文字化け解消”の秘訣

ITmedia AI+ / 2026/5/1

📰 ニュースSignals & Early TrendsModels & Research

原文を読む →

共有:

要点

OpenAIが画像生成AI「ChatGPT Images 2.0」を4月21日に発表し、前世代から複数の性能向上を図ったと開発者が説明した。
進化の中心は「テキストレンダリング」強化で、日本語などローマ字以外の文字体系でも細かい文字が乱れにくくなった。
「Thinking機能」により、出力前に計画を立てることで複雑な指示に対応でき、リアルタイム参照や1指示から複数枚生成といった運用が可能になった。
生成画像を自己点検して誤りがあれば再生成する仕組みがあり、デモでは英語メニュー画像を日本語に翻訳して元の位置に戻すような手順を実演した。
競合比較では、画像生成評価サイト「Arena」で米Googleの「Nano Banana 2」を上回るスコアを獲得したと紹介された。

　画像生成AIにおける「パラダイムシフト（従来の考え方や価値観が大きく変化すること）になる」――米OpenAIの画像生成AI「ChatGPT Images 2.0」について、開発に携わった同社リサーチャーのハタ・ケンジ氏はこのように胸を張る。

　ChatGPT Images 2.0は、OpenAIが4月21日に発表したAIモデル。前世代から複数の性能を強化し、AIモデルの性能をユーザーが評価するWebサイト「Arena」（旧：LMArena）では、米Googleの画像生成AI「Nano Banana 2」を上回るスコアを獲得したという。ハタ氏に進化のポイントなどを聞いた。

ハタ・ケンジ氏（提供：OpenAI Japan、以下同）

　ハタ氏がまず挙げるのが、文字を画像として出力する「テキストレンダリング」性能の強化だ。日本語などローマ字以外の文字体系にも対応しており、細かい文字も乱れなく生成できるようにした。

　OpenAIの画像生成AIで初めて「Thinking機能」を備えたことも特徴だ。同機能は、出力の前に計画を立てることで、複雑なタスクに対応できるもの。Web検索でリアルタイムの情報を参照したり、1つの指示から複数枚の画像を生成したりできる。

　ハタ氏によると、生成画像を自ら見直して再出力する機能も持つという。「画像を生成し、その画像が正しいかどうか（AIモデル自身が）チェックする。もしAIモデルが画像を正しくないと考えれば、もう一度同じ作業を繰り返す」（ハタ氏）

　デモでは、英語で書かれた架空のメニュー表の画像を日本語表記にして見せた。Thinking機能により、画像内のテキストを読み込み、翻訳してから元の位置に戻すという複雑な作業ができるという。

英語の架空のメニューを

日本語版に

　「日光市（栃木県）を歩いているカップルの少しノスタルジックな画像を生成してください」と指示して出力した画像も披露した。ライティングや物の質感など「それほど長いプロンプトではないのに、細部に注意が払われている」（ハタ氏）とアピールした。

ノスタルジックな画像の例（1/3）

ノスタルジックな画像の例（2/3）

ノスタルジックな画像の例（3/3）

　なお、安全性についても対策したとハタ氏。出力結果には、データの来歴情報を管理する「C2PA」や電子透かし「SynthID」を組み込んでおり、AI生成であることを識別できるようにしているという。AIを活用したモニタリングもしており、OpenAIのポリシーに違反する場合には対応するとした。

“文字化け解消”の秘訣は

　　　　　　 1|2 次のページへ

Copyright © ITmedia, Inc. All Rights Reserved.

続きを読むには、コメントの利用規約に同意し「アイティメディアID」および「ITmedia AI＋メールマガジン」の登録が必要です

💡 この記事が使われたインサイト

AIの最新ニュースをまとめた「今日の要点」で、この記事が取り上げられています。

📅 5/1Dailyインサイトを見る →

関連記事

AIの次に来る技術、投資データで浮き彫りにランキング上位を徹底解説

AIの次に来る技術、投資データで浮き彫りにランキング上位を徹底解説

日経XTECH

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

自律的なコーディングエージェントが失敗し続ける理由――そして本当に効く対策

Dev.to

テキストから画像は簡単だが、LLMを連携して自律的に生成・批評・反復するのはルーティング地獄——AgentSwarmsが画像生成プレイグラウンドに対応

テキストから画像は簡単だが、LLMを連携して自律的に生成・批評・反復するのはルーティング地獄——AgentSwarmsが画像生成プレイグラウンドに対応

Reddit r/artificial

NVIDIA Nemotron 3 Super Buildコンテストの発表

NVIDIA Nemotron 3 Super Buildコンテストの発表

Dev.to

AIボットをブロックするサイトの75%はそれでも引用される——なぜブロックが効かないのか

AIボットをブロックするサイトの75%はそれでも引用される——なぜブロックが効かないのか

Dev.to

関連おすすめサービス

※当サイトはアフィリエイト広告を利用しています

Notta搭載AI議事録イヤホン ZENCHORD1

AI時代の仕事術。Notta搭載で会議の議事録を自動生成するスマートイヤホン。

AI搭載ボイスレコーダー Plaud

世界100万人が愛用。AIで文字起こし・要約を自動化するボイスレコーダー。

画像高画質化AIツール Aiarty Image Enhancer

AIで画像を高画質化。写真・イラストを簡単にアップスケール。

広告