繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

Nano-Banana核心團隊首次揭祕,全球最火的 AI 生圖工具是怎麼打造的

2025-09-02 09:27

Nano banana 的玩法還在持續更新,桌面手辦、多元素拼圖、以及生成連續性故事等。

這個帶來「吉卜力時刻」的強大模型,再一次引發了全網的創作熱潮,朋友圈都是各種各樣的真人手辦。

不過對生成效果感到驚喜的同時,記得要主動標註「圖片內容由 AI 生成」,因為《人工智能生成內容標識辦法》今天起開始實施。

在圖像生成上,Google 其實已經有 Imagen 4 這樣的文生圖模型,為什麼 nano banana 最后還是由 Google 帶來的?

一開始在大模型競技場上,以神祕代號 nano banana 出現的時候,就有人猜是 Google 的模型。

但這確實不是偶然或者瞎猜的,nano banana 是結合了 Google 多個團隊的項目成果。首先就是 Gemini 強大的世界知識與指令遵循能力,其次就是 Google 內部頂尖文生圖模型 Imagen,所提供的極致圖像美學與自然度追求。

我們整理了 nano banana 核心團隊的播客採訪,一起來看看這根香蕉的現在過去和未來。

太長不看版:

1.Nano banana 迎來了圖像生成和編輯功能的巨大質量飛躍。它的生成速度快,能理解模糊、口語化、以及需要世界知識的指令,並且在多輪編輯中保持角色和場景的一致性,效果更自然,擺脫了過去像P上去的感覺。

2. 在過去,圖像和視頻的評估非常困難,找到一個合適的指標非常重要。nano banana 團隊發現通過提升文本渲染的效果,能同時提升生成圖像的效果。因為當模型能生成有結構的文字時,也能更好的學習圖像里的結構。

3. Nano banana 的提升,關鍵在於「原生多模態」能力,尤其是「交錯式生成(Interleaved Generation)」。這讓模型可以像人一樣,分步驟處理複雜指令,並聯繫上下文進行創作,而不是一次性生成所有內容。

4. 如果你只需要高質量的「文本生成圖像」,Imagen 模型依然是首選;而如果你需要進行多輪編輯、創意探索等更復雜的多模態工作流,nano banana 是更合適的創意夥伴

5. 未來 nano banana 的目標不僅是提升視覺質量,更是追求「聰明」和「事實準確性」。團隊希望打造一個能理解用户深層意圖、甚至能給出超越用户提示詞,更好、更具創意的聰明模型 ,並能準確生成圖表等工作內容。

下面是播客正文,編譯略有調整。

大家好,歡迎回到《Release Notes》。我是 Logan Kilpatrick,來自 Google DeepMind 團隊。今天和我一起的是 Kaushik、Robert、Nicole 和 Mustafa。他們正是負責我們 Gemini 原生圖像生成模型的研究與產品的同事。我對今天的分享超級興奮。那麼 Nicole,要不要先帶個頭?發佈的好消息是什麼?

從左到右依次為:Kaushik Shivakumar,Robert Riachi,Nicole Brichtova,Mostafa Dehghani,和 Logan Kilpatrick

Nicole:是的,我們正在為 Gemini 以及 2.5 Flash 發佈圖像生成和編輯功能的更新。這是一次巨大的質量飛躍,模型已經達到業界領先水平。我們對生成和編輯的能力都非常激動。不如我直接給你們展示一下模型的效果吧,因為這纔是最直觀的方式。

Logan:我太期待了!我之前玩過一次,但沒有你們玩得多,所以很想看看更多示例。

Nicole:好,我來給你拍一張照片吧。我們先從一個簡單的例子開始:比如「拉遠鏡頭,給他穿上一套巨大的香蕉服裝,但保持臉部清晰,因為要保證看起來還是你」。生成需要幾秒鍾,但還是很快的,你們記得上一次發佈的模型就已經很快了。

Logan:這是我最喜歡的功能之一。我覺得這種編輯的速度讓模型非常有趣。能把圖放大點嗎?全屏看看?

Nicole:點一下就好了,這就是 Logan,還是你的臉。而令人驚歎的是,模型能保持這是你本人,但又讓你穿上了巨大的服裝,還生成了一個你在城市中行走的背景。

Logan:太有意思了!這背景是芝加哥,和那條街真的很像。

Nicole:是的,這就是模型的世界知識在發揮作用。那我們繼續吧,試試「make it nano」。

Logan:讓它變 nano 是什麼意思?

Nicole:我們最初在測試時給它起了代號叫 Nano Banana,后來大家猜測這是我們的新模型更新。然后你看,現在它會把你變成一個可愛的迷你版角色,穿着香蕉服。

Logan:哈哈,我太喜歡了。

Nicole:這就是最酷的地方,你剛纔的提示其實很模糊,但模型足夠有創造力來解釋它,並生成一個既符合提示又在上下文里合理的場景。

這非常令人興奮,因為這是我們第一次看到模型能在多次編輯中保持場景一致,同時用户還能用非常自然的語言與模型互動,而不需要寫一大串複雜的 prompt。這讓人覺得像在和模型對話一樣,超級有趣。

Logan:我太喜歡了。那麼它在文本渲染方面表現如何?這是我最關心的用例之一。

Nicole:要不要我來演示一下?你給我個提示。

Logan:那就「Gemini Nano」吧,這是我唯一能想到的 nano 相關詞。我最常用的場景就是做帶文字的海報或公告。

Nicole:這是一個很簡單的文本,字數少,詞也簡單,所以效果很好。我們確實在文本渲染上還有一些不足,在發佈説明里也提到過,我們團隊正在努力改進,下一個模型會做得更好。

文本渲染,是反映模型表現的有效信號

Logan:我很喜歡。還有其他例子或者和這次發佈相關的指標故事嗎?我知道在評估上很難,比如很多是基於人工偏好的。你們是怎麼考慮這件事的?

Robert:確實,在多模態模型里,比如圖像和視頻,評估非常困難。過去我們主要依賴人工偏好打分。但圖像很主觀,所以要收集大量人羣的信號,而且過程很慢。我們也在努力尋找新的指標。其中文本渲染就是一個很有趣的例子。

Kaushik 早就一直強調它的重要性,雖然我們之前覺得他有點執着,但后來發現它其實非常有價值。當模型學會生成有結構的文字時,它也能更好地學習圖像中的結構,比如頻率、紋理等等。這給我們提供了很好的信號。

在 Google Labs 里面,有專門字體渲染項目 GenType

Kaushik:是的,我覺得最初是從找出這些模型有哪些不足開始的。要想提升一個模型,首先需要明確哪些地方表現不好,也就是找到一個「信號」來指出問題。然后我們會嘗試各種方法,不管是模型架構、數據,還是其他方面的改進。一旦我們掌握了這個清晰的信號,就確實能夠在對應的問題上取得不錯的進展。

回頭看幾年前,當時幾乎沒有哪個模型能在處理像 Gemini Nano 這種短提示上表現得還算不錯。我們花了很多時間深入研究這個指標,並且始終對它進行跟蹤。

現在無論我們進行什麼實驗,只要持續跟蹤這個指標,就能確保不會在這方面出現退步。而正是因為我們把這個指標作為參考信號,有時甚至能發現一些原本沒預料到會有影響的改動,結果實際上確實產生了積極作用。這樣我們就可以持續優化這個指標,並不斷提升模型表現。

是的,就像 Robert 説的,這是在缺乏其他不會很快飽和的圖像質量評估指標時,用來衡量整體圖像質量的一個很好的方式。

我一開始其實對用人工評估圖像生成結果這種方法還有些懷疑,但隨着時間推移,我慢慢認識到:只要有足夠多的人去評估足夠多的提示詞,並涵蓋不同的類別,確實是能得到很有價值的信號的。

文字可以反映圖片生成的效果,提示詞是生成「兩岸猿聲啼不住,輕舟已過萬重山」的海報

但顯然,這種方法的成本很高,不可能一直讓很多人去打分。所以,在模型訓練過程中,像文本渲染這樣的指標就顯得特別有價值了。它可以很好地反映出模型的表現是否符合預期,是一種很有效的信號。

圖像理解和圖像生成,像姐妹一樣密切相關

Logan:這點真的很有意思。我很好奇模型自身的圖像生成能力和圖像理解能力之間是如何相互作用的。我們之前和 Ani 做過一期節目,他所在的團隊顯然在這方面投入了很多,比如 Gemini 在圖像理解方面已經達到了業界最先進的水平。

那是不是可以這樣來理解:當模型在圖像理解上變得更強時,其中一部分能力其實是可以遷移到圖像生成上來的?反過來也一樣,圖像生成的進步也可能反過來提升圖像理解能力。這樣的思維方式是否合理?

Mostafa:是的,基本上我們的目標就是希望最終能夠實現原生的圖像理解、原生的多模態理解與生成能力,也就是説在同一個訓練過程中,讓模型同時學會處理不同模態的任務,並在這些不同的能力之間產生「正遷移」。

而這不僅僅是圖像理解和圖像生成之間的互相促進,也不僅限於單一模態的生成能力。更進一步,我們希望模型能夠從圖像、視頻、音頻中學到的知識,反過來對文本理解或文本生成產生幫助。

所以可以説,圖像理解和圖像生成就像是「姐妹」一樣密切相關。在我們現在看到的一些應用中,比如交錯式生成(interleaved generation),這兩者確實是相輔相成、同步發展的。

但我們追求的終極目標遠不止於此。舉個例子來説:在語言中存在一種現象,叫做「敍述偏差」(reporting biases)。

什麼意思呢?比如你去朋友家做客,回來后你在聊天中通常不會特意提起他家那張「很普通的沙發」,但如果你把那個房間的照片給別人看,那張沙發就在那里,你不説,它也已經存在於圖像中。

所以如果我們想要全面地瞭解這個世界,其實圖像和視頻中包含了大量我們沒有明確提問卻依然能獲取的信息。

也就是説,光靠文本當然可以學到很多東西,但可能需要大量的語言數據(token)才能學到。而視覺信號則是瞭解世界的一種「捷徑」,能更高效地傳遞某些類型的信息。

回到圖像理解和生成這個話題,就像我前面説的,這兩者是密切相關、相輔相成的。特別是在交錯式生成(interleaved generation)中,我們可以清楚地看到,理解對生成有很大的促進作用,反過來生成也能幫助理解。

舉個例子,就像你在解決一個問題時,會在白板上畫圖,這個「畫圖」的過程本身就是一種生成行為,它反過來又能幫助你更好地理解問題。

同樣地,如果我們面對的是一個以圖像形式呈現的問題,也許通過生成一些相關的內容,我們就能更深入地理解它。

所以我們也可以嘗試一些交錯式生成的方式,不只是圖像和圖像之間的生成,也包括與文本結合,讓理解與生成真正做到相輔相成、同步進步。

Nicole:讓我把這個主題轉換成一個 1980 年代美國風格的魅力購物中心的場景,用五種不同的方式來呈現。好了,希望一切順利。

看起來效果還不錯。這確實需要花費一些時間,畢竟我們不僅要生成多張圖像,同時還需要生成描述這些圖像內容的文本。

圖片來源:X@ egeberkina

Kaushik:你會注意到,所謂「原生圖像生成」模型的一個特點是,它是一張接一張地生成圖像的。也就是説,模型可能會參考前一張圖像,然后選擇要麼生成一張風格完全不同的圖,要麼在已有圖像的基礎上做一些細微的調整。

關鍵在於,模型在生成過程中擁有上下文信息,它知道前面已經生成了什麼內容。這就是我們所説的「原生圖像生成模型」的含義,它們具備對多模態上下文的訪問能力,能夠在圖像和文本之間進行協調與理解。

Logan:我原本的理解一直是,比如説,也許聽起來沒什麼道理,但我一直以為那就是進行 4 次獨立的前向傳播之類的東西。但實際上它是一次性全部完成的。

Robert:這一切都在模型的上下文中。

Nicole:而有趣的是,它的風格其實也有點類似,對吧?模型還會做一件很奇怪的事,就是在每一個有趣的地方都會把「你」重複兩次。

我要做一些類似的東西。比如這個是 Arcade Kitting 的 logo,很不錯。往下滾動看,這也太酷了。你看,這些圖片配的描述其實都不是我們想出來的,我們的提示詞只是類似於:「你是80年代美國的魅力寫真風格的購物中心青年,你應該考慮這些穿搭。」

比如第四個選項是:「放松點,哥們。」你看,每一張圖你穿的都不一樣,但看上去又都是你本人。

畫面中出現兩次「你」可能是模型的小失誤,但更棒的是,它能創造出五種完全不同的風格,還能給每種風格起名字、搭配不同的服裝,同時又能保持角色的一致性。

這不僅適用於角色設定,如果你有自己房間的照片,你也可以説:「幫我用五種不同風格來裝飾這個房間。」模型可以從非常有創意的方案一路給到相對保守、略作改進的風格。我們團隊里很多人就用它來重新設計自己的花園和家居,看起來真的非常酷。

這就是我們正在做的一種非常實用的應用方式。

Nano-banana生成一張圖片的速度,只需要13s

Logan:我當時在 AI Studio 給我女朋友用代碼做了一個小應用,讓她可以用不同顏色的窗簾來可視化她的辦公室。她當時的煩惱是:「我不知道哪種窗簾顏色最適合這個氛圍。」這個應用最開始是用 2.0 版本模型做的,后來我又用 2.5 重新測試了一下,嘗試了各種不同的風格,效果真的很好,非常有幫助。

不過,在 2.0 上有時候會出現一些問題,比如它不只是換窗簾,還會把牀換掉,或者改動其他東西。所以這其實是一個很有意思的使用場景,也是我最喜歡的應用之一。我覺得很值得用新模型再測試一遍。

Nicole:你可以試試看,其實模型在保持畫面其他部分不變方面已經做得相當不錯了。我們稱這種方式為「像素級精確編輯(pixel perfect editing)」。

這一點非常重要,因為有時候你只想改動圖像中的某一個元素,但希望其他部分都保持不變。比如在做角色設定時,你可能只想讓角色轉個頭,但希望他們穿的衣服在不同場景中都完全一致。

圖片來源:X@ GoogleDeepMind

模型在這方面表現很好,雖然不一定每次都百分之百完美,但它的進步已經讓我們非常驚喜和興奮了。

Robert:我還想説,有一件特別酷的事就是,它的速度真的很快,每個圖像是13秒。

即使在 2.0 出來的時候,我就已經在用它做類似的事情了。比如我有一個書架,地上堆了很多東西,我就讓它幫我設計一下,這些物品應該怎麼擺在書架上更合適。

當然啦,我女朋友可能不太同意模型給出的設計方案,所以我們有時候會想再多嘗試幾個版本。這時候模型的快速響應就特別關鍵了,你可以很快重新生成,不斷迭代。就算它一開始沒做好,你只需要稍微改一下提示詞,再運行一次,很快就能得到一個更滿意的結果。

我覺得這種「快速迭代式創作」的過程,其實才是它真正的魔力所在。

相比 2.0 的模型,2.5 最大的進步是交錯生成

Logan:有沒有人試用過 2.0 的一些體驗差異?比如我自己在用 2.0 的時候,有一個明顯的例子就是:我更傾向於一次只做一個小修改。如果你一下子讓它改六個不同的地方,模型有時候就處理得不太好,效果不理想。

那現在的問題是:在這個新模型里,我們是不是還是應該採用這種「逐個修改、精準調整」的方式?或者説,在使用過程中有沒有什麼其他需要注意的地方,是大家在上手這個模型時應該瞭解的?

Mostafa:這是我特別想提的一點。

Interleaved Generation(交錯生成)的一大「魔法」就是它為圖像生成帶來了一個全新的範式。比如説,如果你的提示詞非常複雜,要做 6 個不同的修改,那如果是 50 個修改呢?

現在,模型已經具備了一個非常強大的機制,可以從上下文中精準提取信息(像素級的準確),並在接下來的步驟中繼續使用這些信息。

這意味着你可以讓模型把複雜的提示詞,無論是編輯任務還是圖像生成任務,拆解成多個步驟,然后逐步完成每一個修改。例如,在第一步中完成前幾個修改,下一步再處理接下來的五個,以此類推。

圖片來源:X@ ai_for_success

這種方式其實就很像我們在語言模型中做的「逐步推理」測試(test-time compute),你用更多的計算資源(flops),讓模型在像素空間里進行思考,並將任務拆解成小步驟,每一步都能做得更細緻、更精準。而通過逐步積累這些結果,最終我們可以完成任何複雜度的任務。

這也正是 Interleaved Generation 的神奇之處:它讓我們可以用「增量生成」的方式,逐步構建出非常複雜的圖像,而不是像傳統方法那樣,一次性逼迫模型生成最完美的結果。畢竟模型的能力是有上限的,當你想塞進去上百個細節時,一步到位是很難做到的。

但有了 Interleaved Generation,通過拆解成多個步驟,就可以輕松應對任何複雜度的圖像生成任務。

Imagen 定位是文本生成,nano-banana 是一個多模態的創意夥伴

Logan:有一件事我總是會想到,特別是因為你不僅是我們 nano banana 的產品經理,也是瞭解所有模型的人。那麼人們應該如何看待這件事呢?特別是那些開發者,或者説那些對各種模型都有了解的人,他們該如何看待 Imagen 模型和我們這種原生能力之間的關係?

Nicole:是的,你知道這一點,但我們的目標一直都是用 Gemini 構建一個統一的模型,對吧?最終,我們的目標是將所有模態整合進 Gemini,這樣我們就能從 Mostafa 提到的知識遷移中受益,並最終朝着通用人工智能(AGI)邁進。

當然,在這個過程中,擁有一些專門化的模型仍然是非常有價值的,因為它們在某一特定任務上表現得極其優秀。

Imagen 就是一個非常出色的文本生成圖像的模型。我們還有許多不同版本的圖像模型,它們也可以進行圖像編輯,比如 Blend、Vertex 等,它們都是針對特定任務進行過優化的。

所以説,如果你只是想從文本生成圖像,並且希望快速生成一張高質量的圖像,同時在成本和響應速度上都非常高效,那麼 Imagen 就是你的首選。

但如果你想要的是一種更復雜的工作流程,比如你不僅要生成圖像,還想在同一個工作流程中對圖像進行多輪編輯,或者進行一些創意發散的探索,比如你問模型:「你能幫我設計一些關於我房間或者圖書館的創意想法嗎?」那 Gemini 就是更合適的選擇。

Gemini 更像是一個多模態的創意夥伴,它可以輸出圖像,也可以輸出文本。你在給它下指令時不需要那麼精確,因為它有對「世界」的理解能力,會更有創造性地去完成你的指令。一開始我們説「讓它生成一個納米機器人(nano)」,它就能理解背后的含義並做出富有創意的生成。

當然,Imagen 仍然是開發者可以選擇的一個非常優秀的模型家族,如果你只想要一個為某項任務做過極致優化的模型,它就是非常好的選擇。

Logan:是啊,我今天在試一個例子,我很好奇你怎麼看,也想聽聽你對哪種模型更適合這個場景的看法,或者説,原生圖像生成模型(native image generation)是否能解決這個問題。

我當時的例子是這樣的:我説「生成一張圖片,我需要一個廣告牌,把這個廣告牌做成我提到的某個公司的風格」。

這是一個原生圖像生成模型可能更擅長處理的事情嗎?因為它在「世界知識」這塊可能更強一些,而 Imagen 雖然在你給出一個好的提示詞時表現非常出色,但在理解我提示詞的意圖方面,可能就沒那麼擅長。

圖片來源:X@ ken_tbdz

Nicole:是的,我覺得這是一部分原因。另一部分是,在原生圖像生成方面,如果你只是想抓取那個你試圖模仿的其他公司的風格參考,你也可以把那張圖片插入到模型中作為參考,對吧?

所以你可以輸入圖像作為參考,這能幫助你更好地生成提示,而在 Gemini 中原生地實現這一點比在 Imagen 里更容易。所以你應該試試看,也讓我們知道效果如何。

用户反饋會用來構成我們的基準數據集

Logan:回到這個關於 2.0 進展的討論。有一件非常有趣的事情是,當那個模型發佈的時候,很多人在 AI Studio 里給我們發來了大量關於使用體驗的反饋,最后也有在 Gemini 應用里的反饋,比如模型的一些常見失敗模式等等。

而我在最初發布時唯一的貢獻,就是在 Tag Studio 里加上了那個熱詞標籤(hot tag)。我們現在實際上打算在這個新模型中重新啟用熱詞標籤,並且會在舊模型中移除它。

我們能不能聊聊這個故事,比如説我們從 2.0 到現在的進展,以及我們從 2.0 那里收到大量反饋的一些失敗模式,那些當時做得不夠好的東西,現在在 2.5 中能不能表現得更好?

圖片來源:X@ jerrod_lew

Robert:是的,我們真的就是在 X 上,翻看了大量的用户反饋。我記得特別清楚,像 Kaushik 和其他一些團隊成員,會把所有失敗案例收集起來,並基於這些做評估。

我們其實有一個基準數據集,就是來自 X 上真實用户反饋的,人們會 @ 我們,説:「嘿,這個不行啊。」然后對於我們未來每一個模型的迭代,我們都會在這個集合上持續追加,這樣我們就能知道,比如説,在發佈 2.0.1 的時候,一些常見的失敗模式是啥。

比如有時候用户對圖像進行編輯,模型雖然會添加這個修改,但結果可能和圖像的其他部分不協調,這就是當時我們記錄下來的問題之一。我們一直都在不斷收集這些反饋。

Logan:是啊,歡迎把那些效果不好的例子發給我們。你們有沒有特別印象深刻的一些情況,是以前完全不行、但現在已經完全搞定的?我不知道你們有沒有在用這個模型時遇到什麼能説明它進步明顯的例子。

我覺得你們團隊在整個開發過程中應該是大量在用這個模型的,對吧?所以我也好奇,你們有沒有那種固定會拿來測試的使用場景,用來判斷説:「這個模型到底好不好?」

Kaushik:是的,我覺得我在使用 2.5 模型時特別注意到的一點是,在 2.0 模型里,我們原本以為比較難處理的問題是圖像與圖像之間的一致性,尤其是在你創建一個物體或一個角色時,希望這個角色在多張圖中保持一致。

圖片來源:X@ agi_aibusi

但實際上,如果你在輸入圖像中把這個角色放在同一個位置,那麼這個問題其實很好處理。2.0 模型在這方面表現其實就挺不錯的。比如,它可以很好地給角色加一頂帽子、改變表情之類的,同時還能保持角色的姿勢和整個場景的結構一致。

而 2.5 模型在 2.0 能力的基礎上更進一步,比如你現在可以要求從不同的角度渲染這個角色,它看起來仍然是同一個角色,比如從側面來看。或者你可以把一個畫面中的物體拿出來,放進一個完全不同的場景中,調整它的朝向,重建一個完整的新場景。

而那個家俱或物體,不僅保留了你上傳圖像中的特徵,而且還可以做很大的變化,它不是簡單地把原圖像中的像素「貼」到新圖里,而是進行了真實的重構與融合。

是 Imagen 團隊,提升了 nano-banana 的自然美觀能力

Logan:我很喜歡你剛纔提到的那個點。我對 2.0 的一些圖像有個反應是,有時候它生成的圖會讓人感覺,就像你往臉上加個搞笑的胡子或者帽子那樣,效果看起來有點像是「疊加上去的」,或者説,看起來像是被 Photoshop 貼上去的一樣。

這個問題是不是也跟角色一致性有點類似?雖然可能只是相關性不太大的相似問題,但感覺背后機制是差不多的,像是從模型記憶里拿出某些像素、然后硬貼進圖里,而不是做真實的像素遷移那種方式。我好奇,這方面的能力是不是也有提升?

圖片來源:X@ HalimAlrasihi

Kaushik:是的,其實我覺得這很大程度上歸功於真正負責這個模型的團隊。在之前的模型中,我們的想法有點像是:好,它完成了編輯,那就算成功了。

但當我們后來開始跟 Imagen 團隊更緊密地合作時,他們會看我們在 Gemini 這邊也在看的同一個編輯結果,然后直接説:「這太糟了,怎麼會希望模型生成出這種東西?」

這其實就是一個很好的例子,説明把兩個團隊的視角結合起來能帶來什麼效果。Gemini 這邊更偏向於指令執行、世界知識這些能力;而 Imagen 那邊更關注圖像是否自然、美觀,是否真的有用。

所以我覺得,正是這兩種能力的融合,加上兩個團隊的協作,才讓 2.5 在你提到的這類問題上有了明顯的提升。

Nicole:是的,順着這個話題,其實我們團隊里有一些成員主要就是來自 Imagen 團隊的,他們對美學有着非常敏鋭和成熟的審美判斷。所以很多時候我們在做評估的時候,他們會直接看成百上千張圖像,然后就能說出,「這個模型比那個模型更好。」

而團隊里的其他人可能會看着同樣的圖,説,「嗯,好像差不多?」就是説,這種美學感知是需要幾年時間去打磨的。我自己這些年也進步了不少,但我們團隊里確實有一些人這方面特別厲害,每次我們在模型之間做選擇的時候,都會去請教他們的意見。

Logan:你可以用個人數據來訓練自動評價器(auto raters)嗎?

Nicole:我們目前還沒有在 Gemini 實現這個功能,不過作為一個有趣的副項目,我對此非常興奮。隨着 Gemini 的不斷進步,未來我們有可能打造一個具備審美判斷力的評價器(aesthetic rater)。基於我們團隊里某位在這方面非常厲害的同事的風格。

未來的 nano-banana 是一個更聰明、更準確的全能模型

Logan:我太喜歡這個了,2.5 版本確實有了很多進展,而且我覺得大家肯定會非常興奮地去體驗這個模型以及它的各種功能。

那麼接下來會怎樣呢?我們現在已經做出了一個很棒的模型,我相信我們還有很多東西正在籌備中。但我不確定我們現在能透露多少關於未來的發展方向,以及有哪些新的能力有望在之后實現。

Mostafa:在圖像生成方面,我們當然很在意視覺質量,但我覺得還有一點同樣重要,甚至更重要的,就是智能。就像我們一直在追求的那種統一的 Omni 模型一樣,你會希望你的圖像生成模型看起來很聰明。

我們希望用户在使用這個模型時,不只是覺得圖像質量很棒,還會覺得:「哇,這個模型真的很聰明。」我腦海中有一個例子,也是我很期待看到能實現的效果,雖然這有點有爭議,因為我甚至都很難準確地定義它。

那就是,當我給模型下一個指令,它並沒有完全照做,但最后生成出來的結果卻讓我覺得:「我很高興它沒有聽我的。」也就是説,它生成的東西比我描述的還要好。它有一種鋭氣或創造性,超出了我的預期。

圖片來源:X@ GoogleDeepMind

Logan:你是覺得模型是有意這麼做的嗎?還是説,它只是無意間碰巧做出了更好的結果?你想表達的是哪一種?

Mostafa:不是那個意思,我的意思是,有時候我們的指令本身就定義得不夠清晰,或者我們對現實的某些理解其實是不準確的,而 Gemini 擁有的知識可能和我們視角之外的世界更加一致。

所以我覺得這不是模型有意為之,而是它自然地做對了,你會有一種感覺,就是你在和一個比你還聰明的系統互動。

比如我請求它生成一些圖像時,我並不介意它偏離了我的提示,生成了和我要求不同的內容,因為大多數時候,那結果比我最初想象的還要好。

所以我覺得,從更高層面上説,智能絕對是我們正在努力推進的方向,當然也要保持甚至提升圖像的視覺質量。

同時,其實還有很多具體的能力、用例,尤其是關於數據保真(data-loss)方面的,這次的版本已經有一些改進了,但下一次的發佈也會非常值得期待。

我們確實已經有一些版本在做了,雖然我現在還不能透露時間線,但真的讓人非常興奮。可以説,我感到非常激動和開心,尤其是在圖像生成這塊的進展,幾乎是無可匹敵的。

Logan:我太喜歡這個了!還有沒有其他讓大家感到興奮的能力或功能?

Nicole:我對事實準確性特別期待,這也呼應了之前提到的一個點。比如説你有時候需要為工作做一個小的圖表或信息圖,對吧?它看起來漂亮當然很棒,但光有視覺效果是不夠的。

要求豆包生成本文的總結卡片圖,有些文字還是不能正確呈現

對於這種使用場景來説,圖像還必須準確,不能有任何多余的文字,必須既好看,又真正能用、能服務於這個目的。我覺得我們現在還只是剛剛開始挖掘這些模型在這方面的潛力。

我對接下來的一些版本更新感到非常期待,尤其是我們在這類使用場景上會變得更擅長。我的夢想是,有一天這些模型可以真正幫我完成一個看起來很棒、內容也準確的工作用演示文稿幻燈片。

Logan:這是每個產品經理的夢想。

Nicole:是的,這就是每個產品經理的夢想啊。我就是想把工作中那部分內容外包給 Gemini 來做。而且我覺得我們在這方面真的發揮了很大的作用。

Logan:太棒了,我太喜歡了。我相信大家肯定會非常興奮地去嘗試這些新模型。非常感謝你們四位,也感謝整個團隊讓這一切成為可能。我真的非常感激你們付出的所有努力,對這次發佈感到特別興奮。

🔗 播客視頻鏈接:

https://x.com/OfficialLoganK/status/1960725463694753930/video/1

本文來自微信公眾號「APPSO」,作者:發現明日產品的,36氪經授權發佈。

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。