以小小小小勝大！Google 最強小模型剛剛發布，手機也能跑

「開放」和「開源」，並非一字之差。

贊助商廣告

Google 的 Gemma 系列發布已有兩年，開發者能下載、能本地運行，但用途受限，再分發受限，改了也不能隨便傳播。充其量說，這只能算「開放」，還達不到 AI 圈「開源」的標準。

Excited to launch Gemma 4: the best open models in the world for their respective sizes. Available in 4 sizes that can be fine-tuned for your specific task: 31B dense for great raw performance, 26B MoE for low latency, and effective 2B & 4B for edge device use - happy building!

▲Google DeepMind CEO Demis Hassabis

就在剛剛，Google 發布四款 Gemma 4 系列模型，支持 Apache 2.0 全面開源，其中最小的版本可以在樹莓派上完全離線運行。Gemma 小模型，第一次真正意義上地落到了每個人手裡。

以小小小小勝大

Gemma 4 共發布四個尺寸，底層技術與 Gemini 3 同源，覆蓋從邊緣設備到高性能工作站的硬體：

E2B / E4B：專為手機和 IoT 設備設計，與 Google Pixel 團隊及高通、聯發科深度合作優化。推理時分別僅激活 2B 和 4B 參數，以儘量節省記憶體和電量。

支持 128K 上下文窗口，具備圖片、影片和原生音頻輸入能力，可在 Pixel 手機、樹莓派、Jetson Orin Nano 上完全離線運行，延遲接近於零。Android 開發者現在可通過 AICore 開發者預覽版提前體驗 Agent Mode。

26B MoE：混合專家架構，推理時僅激活全部參數中的 3.8B，在保證極快推理速度的同時維持較高質量，Arena AI 文本評分達到 1441，位列開源模型第六。

31B Dense：追求極致原始性能，Arena AI 文本評分達到 1452，位列開源模型第三。未量化的 bfloat16 權重可在單張 80GB NVIDIA H100 上運行，量化版本支持消費級 GPU，為本地微調提供強力基礎。

贊助商廣告

在能力層面，四款模型高度一致：均支持多步推理和複雜邏輯；原生支持函數調用、JSON 結構化輸出和系統指令，可構建能與外部工具和 API 交互的自主 Agent；支持圖片和影片輸入，擅長 OCR 和圖表理解等視覺任務；預訓練語言超過 140 種。

26B 和 31B 的上下文窗口進一步擴展至 256K，可在單次提示中傳入完整代碼庫或長文檔。

基準測試的數字，能更直觀地說明這一代的升級幅度。

與上一代 Gemma 3 27B 相比，Gemma 4 31B 在數學推理基準 AIME 2026 上從 20.8% 跳升至 89.2%，代碼能力基準 LiveCodeBench v6 從 29.1% 升至 80.0%，衡量 Agent 工具調用能力的 τ2-bench 則從 6.6% 大幅提升至 86.4%。

這三項數據尤為關鍵，因為它們直接對應推理、編程和 Agent 三個當下最核心的應用場景。

參數效率是另一個值得關注的維度。從「模型性能對比參數量」的散點圖來看，Gemma 4 用 26B 和 31B 的體量，拿到了通常需要數百億乃至千億參數才能達到的 Elo 分數。

26B MoE 的 Arena AI 評分接近參數量約 15 倍的 Qwen3.5-397B-A17B，31B Dense 的評分則與體量在 600B 以上的 GLM-5 處於同一梯隊。Google 將其概括為「單位參數智能密度前所未有」，至少數字顯得有理有據。

邊緣端模型同樣值得關注。

E2B 在多語言問答基準 MMMLU 上達到 60.0%，在科學知識基準 GPQA Diamond 上達到 43.4%，要知道，這僅僅是一個只激活 2B 參數、可以跑在手機上的模型。相比之下，Gemma 3 27B 在 GPQA Diamond 上的得分是 42.4%，兩者幾乎持平。

換句話說，手機上的 2B 模型，已經追上了上一代 270 億參數的桌面模型。

在硬體生態層面，NVIDIA 與 Google 已就 Gemma 4 在 RTX GPU、DGX Spark 個人 AI 超級電腦及 Jetson Orin Nano 上的推理優化展開合作。

NVIDIA Tensor Core 和 CUDA 軟體棧為 Gemma 4 提供了開箱即用的高吞吐、低延遲支持。本地 Agent 應用 OpenClaw 也已適配最新模型，可調用用戶本地文件和應用上下文自動化執行任務。

贊助商廣告

從「開放」到「開源」，打開另一種可能性

理解這次發布，需要先搞清楚 Gemma 和 Gemini 的關係。兩者基於同一套研究和技術體系構建，區別在於 Gemini 是訂閱制的閉源產品，Gemma 則是可以免費下載、本地運行的開放模型。

Gemma 系列歷代產品一直使用 Google 自有條款授權。

開發者雖然可以下載和本地運行，但用途和再分發受到限制，嚴格來說只能算「開放」，算不上「開源」。Google 依然握著這根韁繩。

Gemma 4 正式切換至 Apache 2.0 協議。在這套許可證下，開發者可以將模型用於任何目的，包括個人、商業和企業用途，無需支付版稅，也無任何用途限制，修改和再分發同樣自由。

Apache 2.0 還內置了專利保護機制：貢獻者的專利自動授權給用戶，若用戶反過來以專利侵權起訴他人，則自動喪失使用授權。這套雙向條款為企業級用戶提供了額外的法律保障。

這次開源的實質意義在於，Gemma 4 現在可以合法打包進產品、服務和硬體設備中一併交付。對於醫療、金融等有數據主權或合規要求的行業用戶，完全本地運行意味著數據不必上傳雲端，同時又能獲得前沿的 AI 能力。

Hugging Face 聯合創始人兼 CEO Clément Delangue 將此次授權切換稱為「一個重要的里程碑」。自 2024 年 2 月首代發布至今，Gemma 系列總下載量已超 4 億次，社區衍生變體超過 10 萬個。

現在，模型權重已經上架 Hugging Face、Kaggle 和 Ollama，Transformers、TRL、vLLM、llama.cpp、MLX、Unsloth、SGLang、Keras 等主流框架均已於發布當天提供支持。

本地部署可通過 Ollama 或 llama.cpp 配合 GGUF 格式權重快速上手，Unsloth Studio 同步提供量化模型的微調和部署支持。如需雲端擴展，Google Vertex AI、Cloud Run 和 GKE 同步可用。

以 Gemma 4 為代表的小模型有著更深遠的意義，因為它重新回答了一個基礎問題：AI 應該在哪裡運行。

過去兩年，這個問題的答案幾乎是默認的：

贊助商廣告

數據中心。用戶通過網路接口調用雲端模型，數據必須上傳，使用依賴連接，成本由服務商定價。這套模式在消費場景里運轉尚可，但對數據主權有要求的行業，比如醫療、金融、工業，始終是一道難以逾越的門檻。

Gemma 4 提供了另一種可能。

手機、樹莓派、沒有外網的工廠終端，都可以在本地完成完整的模型推理。數據不離開設備，決策不經過雲端。Apache 2.0 的授權則進一步打開了落地空間：模型可以合法打包進硬體產品，預裝進行業設備，不再受限於調用協議和數據出境的合規約束。

The world wants Apache 2.0 & open-source! Thank you @Google @demishassabis @sundarpichai 💎💎💎

能力層面的數字也印證了這條路的可行性。E2B 在科學知識基準 GPQA Diamond 上的得分，已經與上一代 270 億參數的桌面模型基本持平，而它推理時只激活 20 億參數，可以完全離線跑在手機上。

「更便宜」或「更方便」已經不足以描述這個變化，它更接近於一次覆蓋範圍的擴張，AI 能力開始有條件真正進入那些長期被排除在外的場景。

作業系統的普及經歷過類似的過程：從專業機構的專用工具，逐漸嵌進每一台個人設備，直到人們不再意識到它的存在。AI 離那個階段還很遠，工程、交互、可靠性上的問題都還沒有完整的答案，但可以跑在任意設備上，一定是這條路上最基礎也是最重要的一步。