20260406・⊙孫大千

一學就會的AI影像生成術

未來的電影屬於那些敢於想像的人

　人類已經進入了一個被影像主導的時代，特別是智慧型手機的照相功能不斷提升之後，我們每天都被成千上萬張照片圍繞左右。人類在社群媒體上所交流的內容已經不僅僅是文字，而是圖片，甚至是影片。許多人為了增加趣味性，想方設法的拍攝一些有趣的畫面，或者用電腦繪圖的方式製作出許多精美的梗圖，有時候難免無法完全表達出我們的想法。但是，如果這些影像不只是我們自己拍出來的，也不是我們自己畫出的，而是由我們「想」出來的呢？

　Nano Banana就是這樣的一個看起來具備魔法的工具。我們只需要輸入一句話，或是提供一張照片，就能創造出前所未見的圖像。這是由人類說故事，講想法，然後與人工智慧共同創作的全新模式。

　這一章將帶你了解Nano Banana的誕生、運作方式與創作潛能——讓你發現：AI不會奪走人類的創意，而是會解放創意和放大創意。

什麼是 Nano Banana？

　Nano Banana是Google最新的AI影像生成模型，最初內建於Gemini 2.5 Flash Image Model，後來結合Gemini 3.0，並且被整合在Gemini App與Google AI Studio中，目前是屬於試用階段，所以使用者無需付費，卻都能透過文字生成圖片，或上傳圖片進行再次編輯。不過依照生成圖片的複雜度和長度的狀況，免費使用仍有次數上的限制。

　傳統的AI圖像生成工具所面臨到最大的挑戰，就是如何解決一致性的問題，如何在編輯過程當中，儘管調整背景、環境細節、髮型或服飾，但仍能保留主角的原始特徵，並且較少出現主要角色不一致，或是顧此失彼的狀況，一直是AI圖像生成工具在迭代升級道路上努力突破的困難。而Nano Banana順利地解決了這些問題。

　Nano Banana的名稱聽起來輕鬆俏皮，實際上卻代表著強大的「輕量級創作引擎」。「Nano」象徵科技的微觀精密，「Banana」則帶來親切與幽默——代表了科技與人性的完美結合。

　Nano Banana主打三項能力：

　一、文字生成圖片（Text-to-Image）。Nano Banana的速度很快，只需要使用自然語言下指令，生成與編輯通常只需要幾秒的時間。

　二、照片風格化（Photo-to-Art）。照片中的人物可轉換為不同的視覺風格，例如：手繪風、3D模型、公仔角色，甚至是許多知名藝術家的獨特風格。

　三、智慧編輯（Smart Edit）。可以反覆輸入指令，根據需求進行微調。也能將多張圖片結合成一張，藉由圖片融合，生成複雜場景。

　靠著Nano Banana，想像力不再是藝術家獨享的天賦，只要會和AI對話，任何人都可以成為一位業餘的藝術家。

一句話的魔法——Prompt的力量

　其實，AI並不是僅僅在「畫圖創作」，而是在行動之前必須先「理解指令」。而所謂的Prompt，其實是一段「影像描述指令」。寫出好Prompt的關鍵是讓AI讀懂你心中所設計的畫面。

　好指令的三個原則：

　一、清楚（Clear）：人物是誰、性別、年齡、長相、服裝、髮型、周遭環境、做什麼。

　二、具象（Concrete）：光線、風格、角度。

　三、情緒（Feeling）：環境的氛圍與圖像想表達的故事感。

　事實上，每一段指令都是我們對心中想像畫面的一個描述，而AI，會幫我們實際生成出這樣一個場景的呈現。

　當然，相較於過去的AI圖像生成模型，Nano Banana已經算是相對友善。在使用過去傳統的模型時，往往需要輸入更為專業的提示詞，特別是，傳統模型大多是以英文來進行訓練，所以輸入英文的指令，往往會比輸入中文的指令更容易得到符合我們期待的成果。Nano Banana 完全顛覆了這樣的經驗，使用者可以用簡單的中文和它進行互動，甚至可以反覆地針對輸出結果來討論修正，就好像和自己的助理在對話一樣。

（摘自博碩文化《一學就會的AI影像生成術》）更多精彩內容請免費下載《翻爆》APP

一學就會的AI影像生成術

未來的電影 屬於那些敢於想像的人

什麼是 Nano Banana？

Nano Banana主打三項能力：

一句話的魔法——Prompt的力量

好指令的三個原則：

訊息提示

未來的電影屬於那些敢於想像的人

　Nano Banana主打三項能力：

　好指令的三個原則：