画像生成AIにおける「パラダイムシフト(従来の考え方や価値観が大きく変化すること)になる」――米OpenAIの画像生成AI「ChatGPT Images 2.0」について、開発に携わった同社リサーチャーのハタ・ケンジ氏はこのように胸を張る。
ChatGPT Images 2.0は、OpenAIが4月21日に発表したAIモデル。前世代から複数の性能を強化し、AIモデルの性能をユーザーが評価するWebサイト「Arena」(旧:LMArena)では、米Googleの画像生成AI「Nano Banana 2」を上回るスコアを獲得したという。ハタ氏に進化のポイントなどを聞いた。
ハタ氏がまず挙げるのが、文字を画像として出力する「テキストレンダリング」性能の強化だ。日本語などローマ字以外の文字体系にも対応しており、細かい文字も乱れなく生成できるようにした。
OpenAIの画像生成AIで初めて「Thinking機能」を備えたことも特徴だ。同機能は、出力の前に計画を立てることで、複雑なタスクに対応できるもの。Web検索でリアルタイムの情報を参照したり、1つの指示から複数枚の画像を生成したりできる。
ハタ氏によると、生成画像を自ら見直して再出力する機能も持つという。「画像を生成し、その画像が正しいかどうか(AIモデル自身が)チェックする。もしAIモデルが画像を正しくないと考えれば、もう一度同じ作業を繰り返す」(ハタ氏)
デモでは、英語で書かれた架空のメニュー表の画像を日本語表記にして見せた。Thinking機能により、画像内のテキストを読み込み、翻訳してから元の位置に戻すという複雑な作業ができるという。
「日光市(栃木県)を歩いているカップルの少しノスタルジックな画像を生成してください」と指示して出力した画像も披露した。ライティングや物の質感など「それほど長いプロンプトではないのに、細部に注意が払われている」(ハタ氏)とアピールした。
なお、安全性についても対策したとハタ氏。出力結果には、データの来歴情報を管理する「C2PA」や電子透かし「SynthID」を組み込んでおり、AI生成であることを識別できるようにしているという。AIを活用したモニタリングもしており、OpenAIのポリシーに違反する場合には対応するとした。
Copyright © ITmedia, Inc. All Rights Reserved.
続きを読むには、コメントの利用規約に同意し「アイティメディアID」および「ITmedia AI+メールマガジン」の登録が必要です










