メインコンテンツへスキップ

忙しい方のためのカメラ関連ニュース
海外のカメラ関連ニュースを翻訳してお届け


ChatGPTの新「Images 2.0」、驚くほどテキスト生成が得意な画像モデル

  • From 
    TechCrunch AI

ChatGPTの新しい画像生成モデル「Images 2.0」が、テキスト生成能力において驚くべき進化を遂げました。

かつてAI画像生成モデルは、メニューのような画像内の文字を正確に生成することが困難でしたが、Images 2.0は「enchuita」や「churiros」といった誤字を生むことなく、そのままレストランで使えるレベルのメニューを生成できるようになりました。

この改善は、従来の拡散モデル(diffusion models)がノイズから画像を再構築する方式であったのに対し、Images 2.0がおそらくオート回帰モデル(autoregressive models)のようなLLMに近い仕組みを採用しているためと考えられます。OpenAIは具体的なモデル名を明かしていませんが、新モデルは「思考能力」を持ち、ウェブ検索、一つのプロンプトから複数の画像を生成、生成物の二重チェックといった機能も備えています。

これにより、様々なサイズのマーケティングアセットや複数パネルのコミックストリップの生成が可能になりました。また、日本語、韓国語、ヒンディー語、ベンガル語といった非ラテン文字のレンダリング能力も強化されています。

ただし、モデルの知識は2025年12月でカットオフされているため、それ以降の最新ニュースに関する生成には影響が出る可能性があります。

Images 2.0は、複雑な指示や細部(小さな文字、アイコン、UI要素、密集した構成、微妙なスタイル制約など)を2K解像度まで忠実に再現する能力を持ち、画像生成の精度と忠実度は前例のないレベルに達しています。生成には数分かかりますが、これは従来の質問応答よりは時間がかかるものの、高度なコンテンツ生成においては効率的です。

Images 2.0は、ChatGPTおよびCodexユーザーが火曜日から利用可能になり、有料ユーザーはより高度な出力を生成できます。また、gpt-image-2 APIも提供され、価格は出力の質と解像度によって異なります。

[custom_js_sp]

AIによる翻訳/要約をしています。正確な情報はオリジナルサイトにてご確認ください。
当サイトの記事にはプロモーションが含まれる場合があります。

今週の人気ニュース

アップル関連のニュースはこちら