Nano Banana Pro（Gemini 3 Pro Image）API の使い方

Nano Banana Pro — 公式名称 Gemini 3 Pro Image — は Google/DeepMind の新しいスタジオ品質の画像生成・編集モデルで、高度なマルチモーダル推論、高精細なテキスト描画、複数画像合成、スタジオレベルのクリエイティブコントロールを組み合わせています。

Nano Banana Pro とは、なぜ注目すべきか？

Nano Banana Pro は Google の最新の画像生成・編集モデル（“Gemini 3 Pro Image” リリース）で、コンテキスト認識に優れた高忠実度の画像やオンイメージテキストを最大 4K のスタジオ品質で生成します。以前の Nano Banana 系（Gemini 2.5 Flash Image / “Nano Banana”）の後継で、推論力、検索に基づく事実裏付け（Search grounding）、より強力なテキスト描画、局所編集コントロールが向上しています。モデルはインタラクティブ向けに Gemini アプリ内でも利用可能で、プログラムによるアクセスでは特定のモデル識別子（gemini-3-pro-image-preview またはその安定版）を選択して利用します。

なぜ重要か：

Nano Banana Pro は単にきれいな画像を作るだけでなく、情報を可視化するために設計されています — インフォグラフィック、データ駆動のスナップショット（天気、スポーツ）、テキスト重視のポスター、製品モックアップ、マルチ画像融合（最大 14 枚の入力画像、最大 5 人のキャラクター一貫性保持）など。デザイナー、プロダクトチーム、開発者にとって、正確性、画像内テキスト、プログラム的アクセスの組み合わせは、これまで自動化が難しかった制作ワークフローを開けます。

API で公開されている主な機能

一般的に開発者向けに提供される API 機能には以下が含まれます：

テキスト → 画像生成（単発／多段 “Thinking” 合成フロー）
画像編集（ローカルマスク、インペインティング、スタイル調整）
マルチ画像融合（参照画像の組み合わせ）
高度なリクエスト制御：解像度、アスペクト比、後処理ステップ、プレビューでの「構成思考（composition thought）」トレース（デバッグ・検査用）

Nano Banana Pro の中核的イノベーションと機能

スマートなコンテンツ推論

Gemini 3 Pro の推論スタックを使い、複雑で多段の視覚指示を解釈します（例：「このデータセットから 5 ステップのインフォグラフィックを作成し、二言語キャプションを追加する」）。API は最終出力を洗練するために中間の構成テストを生成できる “Thinking” メカニズムを公開します。

重要性：単一のプロンプト→ピクセルの一発変換ではなく、モデルは内部で「考える」工程を実行し、最終画像を出す前に構成を洗練し、外部ツール（例：Google Search）を呼び出して事実確認を行うことがあります。これによりインフォグラフィックや図、製品モックアップなど、意味的に正しい画像が得られやすくなります。

実現方法：Nano Banana Pro の “Thinking” は制御された内部推論/構成パスで、モデルは最終画像を出す前に中間的なビジュアルと推論トレースを生成することがあります。API はモデルが最大 2 フレームの中間を生成し、最終画像はそのチェーンの最終段階であることを明示しています。プロダクションでは構図やテキスト配置、レイアウトの決定に役立ちます。

より精度の高いテキスト描画

画像内文字（メニュー、ポスター、図表など）の可読性が大幅に向上しています。Nano Banana Pro のテキスト描画の到達点：

画像内のテキストが明瞭で読みやすく、正確に綴られる
多言語生成をサポート（中国語、日本語、韓国語、アラビア語など）
長文段落や複数行の説明文をそのまま画像中に書き込める
自動翻訳およびローカライズ機能が利用可能

重要性：従来、画像生成モデルは読みやすく整列したテキストを描くことが苦手でした。Nano Banana Pro は信頼できるテキスト描画とローカライズ（翻訳とレイアウト保持）に最適化されており、ポスター、パッケージ、マルチランゲージ広告などの実用的ユースケースが開けます。

実現方法：テキスト描画の改善は、基盤となるマルチモーダルアーキテクチャと、画像内テキスト事例を重視した学習データ、さらに人間評価や回帰テストを含む特化評価セットによります。モデルはグリフ形状、フォント、レイアウト制約を学習し、可読でローカライズされたテキストを生成します。ただし、小さな文字や非常に密な段落は依然として誤りやすい点に注意してください。

視覚的一貫性と忠実度の向上

スタジオコントロール（照明、焦点、カメラ角度、色補正）とマルチ画像合成（最大 14 枚、複数の人物への特別配慮）により、キャラクター一貫性（編集間で同じ人物/キャラクターを保持）やブランドアイデンティティを生成物全体で維持できます。モデルはネイティブで 1K/2K/4K の出力をサポートします。

重要性：マーケティングやエンタメのワークフローは、ショットや編集間でのキャラクターの一貫性を要求します。モデルは最大 5 人の人物の容貌を保持し、最大 14 枚の参照画像をひとつの合成にブレンドし、スケッチ→3D レンダーなどを生成できます。広告クリエイティブ、パッケージ、マルチショットのストーリーテリングに役立ちます。

実現方法：モデルの入力は複数画像と明示的な役割割当（例：「画像A: ポーズ」「画像B: 顔の参照」「画像C: 背景テクスチャ」）を受け入れます。アーキテクチャはそれらの画像に条件付けを行い、アイデンティティ／ポーズ／スタイルを維持しつつ変換（照明、カメラ）を適用します。

Nano Banana Pro の性能ベンチマーク

Nano Banana Pro（Gemini 3 Pro Image）は「Text→Image AI ベンチマークで優れている」と報告され、以前の Nano Banana モデルより推論と文脈の根拠付けで改善を示しています。高忠実度と改善されたテキスト描画が強調されています。

実用的なパフォーマンス指針

2K/4K の高忠実度レンダーは 1K やスピード最適化された “Flash” モデルよりレイテンシとコストが高くなります。スループットやレイテンシが重要な場合は Flash バリアント（例：Gemini 2.5 Flash / Nano Banana）を使用し、品質と複雑な推論作業には Nano Banana Pro / gemini-3-pro-image を使用してください。

開発者はどうやって Nano Banana Pro にアクセスするか？

エンドポイントとモデルの選び方

モデル識別子（プレビュー／プロ）: gemini-3-pro-image-preview（プレビュー） — Nano Banana Pro の機能を利用したい場合に使用します。より高速で低コストが必要な場合は gemini-2.5-flash-image（Nano Banana）を利用可能です。

利用するサーフェス

Gemini API（generativelanguage endpoint）: CometAPI キーを使ってアクセスできます。CometAPI は公式サイトより有利な価格で同等の API を提供しています。画像生成には generateContent エンドポイントを使う例が以下にあります。
Google AI Studio: 素早い実験やデモアプリのリミックス用ウェブサーフェス。
Vertex AI（エンタープライズ）: プロビジョニングスループット、課金オプション（従量課金／エンタープライズ階層）、大規模生産向けのセーフティフィルタ。

無料枠は制限があり、上限を超えると Nano Banana（Flash）にフォールバックすることがあります。Plus/Pro/Ultra の各階層はより高い利用限度と透かし除去などを提供します。Ultra は Flow ビデオツールや Antigravity IDE の 4K モードで使えます。

Nano Banana Pro で画像を生成するには（ステップバイステップ）

1) Gemini アプリでのクイック・インタラクティブ手順

Gemini → Tools → Create images を開く。
モデルとして Thinking (Nano Banana Pro) を選択する。
プロンプトを入力：被写体、行動、ムード、照明、カメラ、アスペクト比、および画像に表示するテキストを説明する。例：

“Create a 4K poster of a robotics workshop: a diverse team around a table, blueprint overlay, bold headline ‘Robots in Action’ in sans serif, warm tungsten light, shallow depth of field, cinematic 16:9.”
（任意）最大 14 枚までの画像をアップロードして融合または参照として使用。選択／マスクツールで局所編集可能。
生成し、自然言語で反復（例：「ヘッドラインを青にして上中央揃えに。設計図のコントラストを上げて」）してからエクスポート。

2) HTTP を使って Gemini image エンドポイントへ送信（CometAPI の例）

CometAPI にログインしてキーを取得する必要があります。

# save your API key to $CometAPI_API_KEY securely before running curl -s -X POST \ "https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \ -H "x-goog-api-key: $CometAPI_API_KEY" \ -H "Content-Type: application/json" \ -d '{ "contents": [{ "role": "user", "parts": [{ "text": "Photorealistic 4K image of a yellow banana floating over Earth, studio lighting, cinematic composition. Add bold text overlay: \"Nano Banana Pro\" in top right corner." }] }], "generationConfig": { "imageConfig": { "resolution": "4096x4096", "aspectRatio": "1:1" } } }' \ | jq -r '.candidates[0].content.parts[] | select(.inlineData) | .inlineData.data' \ | base64 --decode > nano_banana_pro_4k.png

このサンプルは base64 の画像ペイロードを PNG ファイルに書き込みます。generationConfig.imageConfig.resolution パラメータは 4K 出力（3 Pro Image モデルで利用可能）を要求しています。

3) SDK を用いた `generateContent` の直接呼び出し（Python 例）

Google SDK のインストールと認証が必要です。以下はテキスト＋参照画像＋グラウンディングの例です。

# pip install google-genai pillow from google import genai from PIL import Image import base64 client = genai.Client() # reads credentials from env / config per SDK docs # Read a reference image and set inline_data with open("ref1.png", "rb") as f: ref1_b64 = base64.b64encode(f.read()).decode("utf-8") prompt_parts = [ {"text": "Create a styled product ad for a yellow banana-based energy bar. Use studio lighting, shallow DOF. Include a product label with the brand name 'Nano Bar'."}, {"inline_data": {"mime_type": "image/png", "data": ref1_b64}} ] response = client.models.generate_content( model="gemini-3-pro-image-preview", contents=[{"role":"user","parts": prompt_parts}], generation_config={ "imageConfig": {"resolution":"4096x4096", "aspectRatio":"4:3"}, # tools can be provided to ground facts, e.g. "google_search" "tools": [{"google_search": {}}] } ) for part in response.candidates[0].content.parts: if part.inline_data: image = part.as_image() image.save("product_ad.png")

この例は inline 参照画像をアップロードし、4K 構図を要求しつつ google_search をツールとして有効化する方法を示します。Python SDK が低レベルの REST 詳細を処理します。

マルチ画像融合＆キャラクター一貫性

同一人物の一貫性を保つ合成を生成するには、複数の inline_data パート（あなたの写真セットから）を渡し、モデルに「出力全体でアイデンティティを保持する」と明示的に指示します。

短い実用例 — 実際のプロンプトと期待されるフロー

プロンプト：
"Generate a 2K infographic: 'Q4 Sales by Region 2025' — stacked bar chart with North America 35%, EMEA 28%, APAC 25%, LATAM 12%. Include title top-center, caption with source bottom-right, clean sans-serif labels, neutral palette, vector look, 16:9."

期待されるパイプライン：
アプリ → プロンプトテンプレート + CSV データ → プロンプト内のプレースホルダを置換 → image_size=2048x1152 の API 呼び出し → base64 PNG 受信 → アセット保存 + 出所メタデータ → 必要に応じてコンポジタで正確なフォントをオーバーレイ。

どのように本番パイプラインを設計し、安全性／出所を扱うか？

推奨アーキテクチャ

プロンプト + 下書き（高速モデル）: gemini-2.5-flash-image（Nano Banana）で多数の低解像度バリエーションを安価に生成。
選定 & 洗練: ベスト候補を選び、プロンプトを改善し、インペインティング／マスク編集で精度を確保。
高忠実度の最終レンダリング: gemini-3-pro-image-preview（Nano Banana Pro）で最終の 2K/4K 出力と後処理（アップサンプリング、カラーグレード）。
出所＆メタデータ: プロンプト、モデルバージョン、タイムスタンプ、SynthID 情報をアセットメタデータに保存 — このモデルは SynthID 透かしを添付し、出力はコンプライアンスと監査のために追跡可能。

安全性、権利、モデレーション

著作権と権利処理：権利を侵害するコンテンツのアップロードや生成は避ける。ユーザー提供画像や著名人の容貌等を扱う場合は明確な同意を取る。Google の禁止利用ポリシーとモデル安全フィルタに従う。
フィルタリング & 自動チェック：生成画像を内部のコンテンツモデレーションパイプライン（NSFW、ヘイト表象、政治/バイアス検出）で必ず検査してから公開。

画像編集（インペインティング）、マルチ画像合成、テキスト描画はどうやるか？

Nano Banana Pro はマルチモーダル編集ワークフローをサポートします：1 枚以上の入力画像と編集内容をテキストで指示（オブジェクト削除、空の変更、テキスト追加など）してください。API は画像＋テキストを同一リクエストで受け取り、応答としてテキストと画像を交互に返すことができます。パターン例にはマスクを用いた編集やマルチ画像ブレンド（スタイル転送／合成）があります。contents 配列でテキストブロブとバイナリ画像を組み合わせる呼び出しを参照してください。

例：編集（Python 擬似フロー）

from google import genai from PIL import Image client = genai.Client() prompt = "Remove the person on the left and add a small red 'Nano Banana Pro' sticker on the top-right of the speaker" # contents can include Image objects or binary data per SDK; see doc for exact call response = client.models.generate_content( model="gemini-3-pro-image-preview", contents=[existing_image, prompt], # order matters: image + instruction ) # Save result as before

この会話型編集は反復的に調整を加え、制作-ready なアセットに到達するまで続けられます。

Node.js 例 — マスクと複数参照での画像編集

// npm install google-auth-library node-fetch const { GoogleAuth } = require('google-auth-library'); const fetch = require('node-fetch'); const auth = new GoogleAuth({ scopes: ['https://www.googleapis.com/auth/cloud-platform'] }); async function runEdit() { const client = await auth.getClient(); const token = await client.getAccessToken(); const API_URL = "https://api.generativemodels.googleapis.com/v1alpha/gemini:editImage"; const MODEL = "gemini-3-pro-image"; // Attach binary image content or URLs depending on API. const payload = { model: MODEL, prompt: { text: "Replace background with an indoor studio set, keep subject, add rim light." }, inputs: { referenceImages: [ { uri: "gs://my-bucket/photo_subject.jpg" }, { uri: "gs://my-bucket/target_studio.jpg" } ], mask: { uri: "gs://my-bucket/mask.png" }, imageConfig: { resolution: "2048x2048", format: "png" } }, options: { preserveIdentity: true } }; const res = await fetch(API_URL, { method: 'POST', headers: { 'Authorization': `Bearer ${token.token}`, 'Content-Type': 'application/json' }, body: JSON.stringify(payload) }); const out = await res.json(); console.log(JSON.stringify(out, null, 2)); } runEdit();

注：API は Cloud Storage URI や base64 イメージペイロードを受け付けることがあり、正確な入力形式は Gemini API ドキュメントを確認してください。

CometAPI を利用した gemini-3-pro-image 呼び出しのガイド参照について

（原文は「Guide to calling gemini-3-pro-image」への参照を案内しています）

結論

Nano Banana Pro（Gemini 3 Pro Image）は画像生成の分野での製品化に向けた大きな進歩です：
データの可視化、ローカライズされた編集、複数参照の融合、制作ワークフローの自動化に強みがあります。プロトタイピングには Gemini アプリ、プロダクション統合には API を使用し、コスト管理、安全性確保、ブランド品質維持のための推奨手順に従ってください。常に実際のユーザーワークフローをテストし、透明性と監査要件を満たすために出所メタデータを保存してください。

Nano Banana Pro を使うべき場面：スタジオ品質のアセットが必要、構図の厳密な制御が必要、画像内テキストが重要、複数参照をひとつの一貫した出力に融合したい場合。

開発者は CometAPI を通じて Gemini 3 Pro Image（Nano Banana Pro）API にアクセスできます。始めるには、CometAPI の Playground でモデル機能を試し、Continue API ガイドを参照してください。アクセスする前に、CometAPI にログインして API キーを取得していることを確認してください。CometAPI は公式価格よりもかなり低価格で提供しています。

準備はできましたか？→ CometAPI に今すぐサインアップ！

さらにテクニックやガイド、AI に関するニュースを知りたい場合は VK、X、Discord をフォローしてください！