20260406⊙孫大千

一學就會的AI影像生成術

未來的電影 屬於那些敢於想像的人

image
一學就會的AI影像生成術(博碩文化)

 人類已經進入了一個被影像主導的時代,特別是智慧型手機的照相功能不斷提升之後,我們每天都被成千上萬張照片圍繞左右。人類在社群媒體上所交流的內容已經不僅僅是文字,而是圖片,甚至是影片。許多人為了增加趣味性,想方設法的拍攝一些有趣的畫面,或者用電腦繪圖的方式製作出許多精美的梗圖,有時候難免無法完全表達出我們的想法。但是,如果這些影像不只是我們自己拍出來的,也不是我們自己畫出的,而是由我們「想」出來的呢?

 Nano Banana就是這樣的一個看起來具備魔法的工具。我們只需要輸入一句話,或是提供一張照片,就能創造出前所未見的圖像。這是由人類說故事,講想法,然後與人工智慧共同創作的全新模式。

 這一章將帶你了解Nano Banana的誕生、運作方式與創作潛能——讓你發現:AI不會奪走人類的創意,而是會解放創意和放大創意。

什麼是 Nano Banana?

 Nano Banana是Google最新的AI影像生成模型,最初內建於Gemini 2.5 Flash Image Model,後來結合Gemini 3.0,並且被整合在Gemini App與Google AI Studio中,目前是屬於試用階段,所以使用者無需付費,卻都能透過文字生成圖片,或上傳圖片進行再次編輯。不過依照生成圖片的複雜度和長度的狀況,免費使用仍有次數上的限制。

 傳統的AI圖像生成工具所面臨到最大的挑戰,就是如何解決一致性的問題,如何在編輯過程當中,儘管調整背景、環境細節、髮型或服飾,但仍能保留主角的原始特徵,並且較少出現主要角色不一致,或是顧此失彼的狀況,一直是AI圖像生成工具在迭代升級道路上努力突破的困難。而Nano Banana順利地解決了這些問題。

 Nano Banana的名稱聽起來輕鬆俏皮,實際上卻代表著強大的「輕量級創作引擎」。「Nano」象徵科技的微觀精密,「Banana」則帶來親切與幽默——代表了科技與人性的完美結合。

 Nano Banana主打三項能力:

 一、文字生成圖片(Text-to-Image)。Nano Banana的速度很快,只需要使用自然語言下指令,生成與編輯通常只需要幾秒的時間。

 二、照片風格化(Photo-to-Art)。照片中的人物可轉換為不同的視覺風格,例如:手繪風、3D模型、公仔角色,甚至是許多知名藝術家的獨特風格。

 三、智慧編輯(Smart Edit)。可以反覆輸入指令,根據需求進行微調。也能將多張圖片結合成一張,藉由圖片融合,生成複雜場景。

 靠著Nano Banana,想像力不再是藝術家獨享的天賦,只要會和AI對話,任何人都可以成為一位業餘的藝術家。

一句話的魔法——Prompt的力量

 其實,AI並不是僅僅在「畫圖創作」,而是在行動之前必須先「理解指令」。而所謂的Prompt,其實是一段「影像描述指令」。寫出好Prompt的關鍵是讓AI讀懂你心中所設計的畫面。

 好指令的三個原則:

 一、清楚(Clear):人物是誰、性別、年齡、長相、服裝、髮型、周遭環境、做什麼。

 二、具象(Concrete):光線、風格、角度。

 三、情緒(Feeling):環境的氛圍與圖像想表達的故事感。

 事實上,每一段指令都是我們對心中想像畫面的一個描述,而AI,會幫我們實際生成出這樣一個場景的呈現。

 當然,相較於過去的AI圖像生成模型,Nano Banana已經算是相對友善。在使用過去傳統的模型時,往往需要輸入更為專業的提示詞,特別是,傳統模型大多是以英文來進行訓練,所以輸入英文的指令,往往會比輸入中文的指令更容易得到符合我們期待的成果。Nano Banana 完全顛覆了這樣的經驗,使用者可以用簡單的中文和它進行互動,甚至可以反覆地針對輸出結果來討論修正,就好像和自己的助理在對話一樣。

(摘自博碩文化《一學就會的AI影像生成術》)更多精彩內容請免費下載《翻爆》APP