Google AI 今年最大王炸！測試曝光直接復刻 macOS，比GPT-5更值得期待

還記得不久前我們介紹過一波 Google AI 全家桶嗎，那會兒正是 nano banana 爆火，Gemini 登頂第一。許多人因此第一次去嘗試了 Gemini 2.5 Pro，發現這個不聲不響的旗艦模型，很多時候竟然比 GPT-5 還要好。

贊助商廣告

現在，更強大的 Gemini 3.0，已經在 Google AI Studio 的測試里「提前上線」。

網友們發現，它的能力提升不止一星半點，能直接用一套簡單的提示詞生成一個網頁版 Windows、macOS 等。

大量的測試結果，都提到 Gemini 3 寫的代碼能直接運行，前端設計也更成熟，甚至能做出剪影片、刷短影片的工具。

這有可能是 Gemini 繼續在圖像編輯領域之外，再次超越 Claude 和 GPT-5 的時刻。

不過，是不是跟當時 GPT-5 一樣的營銷，還是真的能改變我們的使用體驗，先跟我們一起來看看這些網友分享的 Gemini 3 案例吧。

起手就是寫一個 Windows？

就像 nano banana 在判斷生圖能力時，採用的指標，是看這個模型在生成文字時的表現。

而如何判斷一個基礎模型的交付能力，編程，這種一旦代碼里有個輕微的錯誤，就無法運行的項目，成了大部分基礎模型廠商專攻的方向，一開始在這方面表現不錯的 Claude，也因此賺得了一定的聲量。

選擇 Agentic Coding Average（智能體編程任務平均得分）後，模型排行榜，Claude Sonnet 4.5 位於第一名。來源：https://livebench.ai/

近期多個博主在 X 上爆料，即將推出的 Gemini 3，在多個編程任務上的真實表現，不用說打敗 GPT-5，甚至有直接超越 Claude 的趨勢。

Google AI Studio 負責人 Logan 也在 X 上回復網友，確認了 Gemini 3 擁有工具調用的能力，即我們常說的智能體。

confirmed
— Logan Kilpatrick (@OfficialLoganK) October 6, 2025

以前的編程測試，大多數集中在對邏輯能力的理解，一個小球在六邊形框框裡面流動的物理測試；對前端能力的審美把握，觀察 AI 生成的網站，是否足夠交互友好，頁面現代化；還有一些實用型的小遊戲或小工具等。

贊助商廣告

這次放出來的部分 Gemini 3 測試，完全可以說是一次測試樣例的大升級。

X 博主 chetaslua 分享了多個由 Gemini 3 完成的編程任務。它能直接給我們生成一個 macOS 的網頁電腦，在這個網頁里，就像是在操作一台雲電腦。所有的應用程式都可以打開，點擊 Safari 的圖標，可以進入瀏覽器，並在網頁里繼續訪問。

prompt: Design and create a web os like macOS full functional features from text editor , terminal with python and code editor and a game that can be played to dile manager to paint to video editor and all important windows os pre bundled software Use whatever libraries to get this done but make sure I can paste it all into a single HTML file and open it in Chrome.make it interesting and highly detail , shows details that no one expected go full creative and full beauty in one code block
提示詞：設計並創建一個類似 macOS 作業系統的全功能網路作業系統，從文本編輯器、帶 Python 的終端和代碼編輯器開始，並包含一個可玩的遊戲，用於文件管理器、繪圖、影片編輯器以及所有重要的 Windows 作業系統預裝軟體。使用任何庫來完成這個任務，但確保我能夠將所有內容粘貼到一個單一的 HTML 文件中，並在 Chrome 中打開它。使其有趣且高度詳細，展示沒有人預期的細節，在一個代碼塊中實現完全的創意和美感
源代碼： https://codepen.io/ChetasLua/pen/yyezLjN
來源：https://x.com/chetaslua/status/1977866953705316571

把提示詞中 macOS 換成 Windows、Linux Ubuntu 等。

不僅 macOS 雲電腦能生成，博主還用同樣的提示詞，修改成 Windows、Linux、以及雲手機等作業系統，開機動畫、系統內操作，同樣能完美還原。

1 - 2 min
— Chetaslua (@chetaslua) October 14, 2025

而且，Gemini 3 在處理這些編程任務時，速度也得到了提升。根據博主在留言區的回覆，Gemini 3 的推理速度在 1-2 分鐘。

當把同樣的提示詞交給 Claude Sonnet 4.5 處理，網友分享的結果是，Claude 只是生成了一個頁面，所有的應用程式都不能點開。我也測試了一下 GPT-5 的能力，雖然它可以點開某些應用，但是打開之後，就沒有下一步的處理邏輯了。

贊助商廣告

https://x.com/pallavmac/status/1977979879489679640

還有一個小彩蛋，在網頁打開的雲電腦裡面，點擊終端，輸入 matrix，我們會看到類似黑客帝國電影海報的 01 流動代碼，可以說是真矩陣革命（黑客帝國電影港版譯名）了。

除了這幾個熱門的系統還原測試，Gemini 3 的編程能力，還體現在它的前端，也有了其他 AI 模型做不到的進步。最明顯的就是 AI 編程容易出現的漸變紫，Gemini 3 終於擺脫了。

贊助商廣告

x@Liam06972452

提示詞：Write full HTML, CSS and JavaScript for a stunning, bold, creative and unique landing page for a website about llms. It should look like it was built from scratch by a world-leading web design agency.

就像這個關於大語言模型的網站，輸入的提示詞僅僅是「為關於 LLMs 的網站編寫完整的 HTML、CSS 和 JavaScript，以創建一個令人驚嘆、大膽、富有創意和獨特的著陸頁。它應該看起來像是世界頂尖的網頁設計公司從頭開始構建的。」

網友們紛紛在留言區說，Gemini 3 一定有專門和設計師在合作，還有人預測 Gemini 3 將在前端領域，像 nano banana 一樣占據主導地位。

不過也有人認為 Gemini 3 的前端，還是有一些問題。儘管它解決了那些討厭的漸變，改變了大多數 AI 模型，長期以來一直在做的同樣事情，但 3.0 的前端總是黑色，除非明確提示。在我看來，黑色比漸變好太多，網站的設計就是應該簡潔大方。

基於能一句話搓出一個作業系統，還有優秀的前端能力，Gemini 3 還可以生成一個在線的影片編輯器，當然也是真的能夠剪輯影片。

贊助商廣告

提示詞：create amazing single html page video editor that WORKS! make it amazing.（創建一個令人驚嘆的單一 HTML 頁面影片編輯器，它必須能正常工作！讓它變得非常棒。）來源：https://x.com/sbalhatlani/status/1977501190322549017 CodePen 可運行的體驗鏈接：https://codepen.io/DiNaSoR/pen/WbrEELE

一個能無限流刷影片的抖音 App 網頁版。

來源：https://www.reddit.com/r/Bard/comments/1o67jz4/crazy_google_gemini_30_pro_just_built_a_perfect/

體驗地址：https://jsbin.com/yisixokuwi/1

那些做 vibe coding、一鍵生成網頁應用工具的 Lovable、Cursor 等，可能要考慮默認模型換成 Gemini 3 了。

在經典的代碼能力測試上，還有一個生成騎自行車的鵜鶘任務，比較模型對於 SVG 代碼的生成效果。

Gemini 3 能生成普通的版本的鵜鶘。

https://x.com/whylifeis4/status/1974205929110311134

甚至還有遊戲《Minecraft》同款風格的 3D 版本。

贊助商廣告

騎自行車的鵜鶘，現在屬於是大語言模型代碼能力的基準測試了。我們還看到有網友用 Gemini 3.0 Pro，生成了一個宇航員在月球打高爾夫的 SVG 動畫。

Okay, a pelican on a bike is a nice start, but let's raise the stakes.

I got the Gemini 3.0 Pro A/B test in AI Studio (~30 attempts) and gave it: "Create an SVG animation of a photorealistic gorilla in a NASA astronaut suit, playing golf on the surface of the moon, with the… https://t.co/R3ics7y7IB pic.twitter.com/Uh8IvLP6Zv
— Leon Liang (@itsleonliang) October 9, 2025

https://x.com/itsleonliang/status/1976296575052939596

生圖、視覺理解，nano banana 全面版

除了編程能力，作為 Google 最強基礎模型，視覺理解能力同樣出色。

通過了六指測試。

https://x.com/AlLeakWire/status/1976565987500753341

能夠把一個潦草的手寫文檔，準確提取裡面的所有內容。

Google is A/B testing a new model (Gemini 3?) in AI Studio. I tried my hardest 18th century handwritten document. Terrible writing and full of spelling and grammatical errors that predictive LLMs want to correct. The new model was very nearly perfect. No other model is close. pic.twitter.com/3FtHDkHpsh
— Generative History (@HistoryGPT) October 14, 2025

贊助商廣告

https://x.com/HistoryGPT/status/1977895243195334826

以及生成各種各樣的城堡測試。

Gemini 3.0 Pro just built this castle irl. It's crazy what this model can do pic.twitter.com/uUEqa6hTCO
— Bercan- e/acc (@bercankilic) October 12, 2025

https://x.com/bercankilic/status/1977476903029383669

Gemini 3 Ultra Minecraft build pic.twitter.com/v4vNSoT7GU
— Lisan al Gaib (@scaling01) October 12, 2025

贊助商廣告

https://x.com/scaling01/status/1977392252931437052

無聊玩玩 Gemini 3 做的小遊戲

最後，讓它來生成一些小遊戲，小工具，部分釋放出的 Gemini 3 測試案例表現都很不錯。

例如可以讓 Gemini 3 為我們創作原創音樂。

https://x.com/legit_api/status/1977033715965718754

製作一個帶有 Gemini 創作的真實配樂的遊戲。

https://x.com/cannn064/status/1977882763832201643

還有說是由 Gemini 3.0 Pro 製作的吸血鬼遊戲。

🔥Gemini 3.0 Pro Vampire Survivors Clone🔥

This is also one-shot, no bug fixing. I told it to make simple graphics, but I'm sure they can be made better. I'll try later. Follow to see it.

The gameplay is very fun and addictive though. pic.twitter.com/HW1N0V3hZb
— can (@cannn064) October 13, 2025

https://x.com/cannn064/status/1977542849848823845

體驗地址：https://codepen.io/jules064/pen/bNErYKX

目前這些爆料出來的 Gemini 3 測試，都是在 Google AI Studio 網頁上 A/B 測試完成的。

但是 A/B 測試觸發的條件相當隨機，就像我們有時候用 ChatGPT 聊天，它會突然給我們兩個答案，要我們選擇更喜歡哪一個。

這些網友也是不斷地在 AI Studio 裡面瘋狂輸入提示詞，直到 AI Studio 給出了兩個不同的回答，然後默認更好的那個就是 Gemini 3，甚至 Gemini 3.0 Pro、Ultra 等版本。

有網友說，這只是一個 A/B 測試，並不能得出結論說這個結果是由 Gemini 3.0 生成，因為也有可能只是，同一個模型，不同參數的 A/B 測試。

甚至有人發 X 說 Gemini 3 的智能體能力獲得大提升，但是在帖子被廣泛傳播之後，他又緊急闢謠，Google 周六不上班。

Ah, this blew up 😅.
Folks, Google doesn't work on Saturday.
Sorry for the shitpost.
— Karan Vaidya (@KaranVaidya6) October 12, 2025

贊助商廣告

因此，目前這些爆料，大多集中在比較客觀理性的任務上，能夠直接區分出 Gemini 2.5 Pro 和 Gemini 3.0 的差別。像是寫作、我們日常的交流這些問題上，沒有客觀統一的標準，即使觸發了 A/B 測試，也很難明確，哪個是 Gemini 3.0。

不過，就在今天，Google AI Studio 首頁倒是真的有了一次更新，添加了 API 數據統計等功能，很難不讓人懷疑，這是在為 Gemini 3.0 上線做準備。

有網友直接問 AI studio 負責人，Gemini 3 是不是即將到來，Logan 回復他說「可能性很高」。

highly likely
— Logan Kilpatrick (@OfficialLoganK) October 14, 2025

至於會不會像之前，網上爆料說一個實習生泄露的發布日期，即 10 月 22 日，還真的沒有定論。

而關於 Gemini 3 能力如何，目前唯一來自官方的確認，也只有 Mikhail 發布的這條推文，他說 Demis 上周告訴他，Gemini 3 會讓人印象深刻。

It appears Google has slightly limited the thinking budget for DeepThink, I have to think for myself more often again :-(. On the positive side, Demis told me last week that I am "going to be very impressed by Gemini 3" - can't wait!
— Mikhail Parakhin (@MParakhin) October 13, 2025

贊助商廣告

Demis Hassabis 是 Google DeepMind 負責人，而 Mikhail Parakhin 曾在微軟工作，現在是 Shopify 首席技術官 CTO。

總而言之，Gemini 3 肯定是馬上要來了。

OpenAI 憑藉著自身擁有的龐大用戶，和 ChatGPT 收集的海量數據，在最近持續性地推出了多項應用，主動推送、購物、接入 App 等等，似乎是進一步鞏固用戶群體，不讓他們離開。

Claude 繼續著他們在編程領域的老大地位，按照計劃、不過分營銷的推進基礎模型的更新，也在他們最看重的安全方面，發布了多項研究。

作為後來居上的 Google，靠著 nano banana 屬實讓 Gemini 大火了一把，現在我們說到圖像編輯，一定會有 nano banana，這就就跟說到編程，離不開 Claude 一樣。

我甚至會覺得，Google 終於追上來了。

事實證明，大模型的能力還是有辦法繼續再「卷」下去的，並不是說只能轉型去做應用、捲入口。我們對大模型的期待一直都有，而且也沒有變得很高，只是希望它真的能做出一些「哇」的東西。