Google發布Gemini 3及Gemini 3 Pro預覽版最先進推理能力

2025-11-19 benny

Google推出智能AI模型 — Gemini 3，結合了Gemini系列所有強大功能，協助用戶活現每個構思。Google同時推出Gemini 3 Pro預覽版，它以突破性的1501 Elo分數高踞LMArena排行榜，以博士級別 (PhD-level) 的推理能力在「人類的最後考試」(Humanity’s Last Exam) 中，在沒有使用任何工具下取得高達37.5%的分數，並在GPQA Diamond中獲得91.9%的成績。

Gemini 3具備業界頂尖的推理能力，能進行深層次的細膩剖析 — 無論是細緻地留意到創意概念中的微妙線索，還是抽絲剝繭地處理複雜難題。憑藉卓越的理解能力，Gemini 3能精準捕捉用戶的請求意圖，能夠僅憑簡潔的提示生成具高準確度的結果回應。

Google及Alphabet CEO Sundar Pichai表示：「大約兩年前，我們展開Gemini時代，這是Google有史以來其中一項最大規模的科研與產品發展項目。目前，每個月有20億用戶使用AI摘要，Cloud客戶中超過七成都正在用我們的AI方案，1,300萬開發人員正使用我們的生成模型來建構。Google與別不同的是，我們以全方位的策略部署各項AI創新，從領先的基礎設施、世界級研究項目，以至AI模型和工具，再到惠及全球數十億人的產品，都能快速地推向全世界。」

Google及Alphabet CEO Sundar Pichai表示：「自Gemini面世以來，用戶對它的積極回應令我們十分鼓舞。」

今天起，Google將向全球所覆蓋的領域推出Gemini。這包括首次在AI模型發布當日將之加入Google搜尋－ Gemini 3已嵌入AI模式，帶來更複雜的推理能力和嶄新的動態體驗。Gemini 3亦同步在Gemini for Google Workspace Enterprise、開發者使用的Vertex AI以及全新助理開發平台Google Antigravity上推出。

Gemini 3 Pro：最先進的推理能力

今天Google推出Gemini 3 Pro預覽版，正式踏入Gemini 3時代。Gemini 3 Pro具備業界頂尖的推理和多模態能力以實現無窮創意。Gemini 3 Pro在各大主要AI基準測試中表現均顯著超越2.5 Pro，它以突破性的1501 Elo分數高踞LMArena排行榜，以博士級別（PhD-level）的推理能力在「人類的最後考試」（Humanity’s Last Exam）中，在沒有使用任何工具下取得高達37.5%的分數，並在GPQA Diamond中獲得91.9%的成績。它亦為數學前沿模型樹立新標準，在MathArena Apex基準測試取得了最先進（State-of-the-Art, SOTA）的23.4%成績。

文字推理以外，Gemini 3 Pro亦以突破性的分數重塑多模態推理，它在MMMU-Pro基準測試中獲得81%的分數，並在 Video-MMMU中達到87.6%。它亦於SimpleQA Verified測試中獲得最先進的72.1%成績，在事實準確性方面展現出重大進展，這意味著Gemini 3 Pro能夠以極高的可靠性，解決像科學和數學等廣泛領域的複雜問題。

用戶使用Gemini 3 Pro時更將體會到比以往更深層更細膩的互動。它的回應精準、簡潔而直接，務求每次都給予真知灼見 — 它省卻了你可能喜歡聽的客套說話，只提供你需要知道的回應。Gemini 3 Pro能透過生成高保真（high-fidelity）圖像化的編碼、以視像轉譯深奧的科學概念，甚至激發創意靈感，帶來嶄新理解資訊和表達自我的方式，成為與真人用戶一起思考的夥伴（thought partner）。

Google Antigravity：全新代理開發平台

智能模型隨Gemini 3面世而加速發展，讓我們能重塑整個開發者體驗。今天Google也正式發布全新代理開發平台 Google Antigravity，讓開發人員能夠在更高層次、以任務為導向的層面進行操作。

Google Antigravity利用Gemini 3先進的推理、使用工具和代理編碼能力，將AI助理從開發人員的「工具」升格為主動的「搭檔」。Google Antigravity的核心依然是熟悉的整合開發環境（AI IDE）體驗，但其「代理」(Agents) 已被提升到專用的介面，並具有編輯器、終端機和瀏覽器的直接存取權限。現在，代理能代表用戶自主規劃和執行複雜、端到端的軟件任務，同時自行驗證其程式碼。

除了運用Gemini 3 Pro，Google Antigravity 亦與最新的Gemini 2.5 Computer Use控制電腦使用模型及領先的圖像編輯模型Nano Banana（Gemini 2.5 Image）緊密結合。

Google Antigravity利用Gemini 3驅動端到端代理工作流程，以開發這個航班追蹤應用程式。代理獨立地進行規劃、編寫應用程式的程式碼，並透過瀏覽器操作電腦的方式來驗證其執行成果。

Gemini 3 Deep Think：升級推理模式

Google同時推出Gemini 3 Deep Think －升級推理模式，激發Gemini 3最強效能。Gemini 3 Deep Think在各項測試中的表現都超越Gemini 3 Pro 十分出色的成績，在「人類的最後考試」（Humanity’s Last Exam）中在沒有使用任何工具下取得41%分數，在GPQA Diamond 中更達到93.8%的分數。它亦在 ARC-AGI-2測試中達到史無前例的 45.1%準確度（附帶程式碼執行，已獲 ARC 獎項驗證），展示了其解決嶄新挑戰的能力。目前Google向安全測試人員開放 Gemini 3 Deep Think 的試用權限，稍後將開放予Google AI Ultra訂閱用戶。

以Gemini 3 構建、規劃和學習

無限構建

Gemini 3是Google迄今為止最優秀的氛圍編碼（vibe coding）和代理編碼（agentic coding）模型，使產品更具自主性，從而提升開發人員的生產力。

目前，Gemini 3以令人矚目的1487 Elo分數高踞WebDev Arena排行榜。它亦在檢測模型透過終端機操作電腦工具使用能力的基準測試Terminal-Bench 2.0中獲得 54.2%的分數，並在衡量編碼代理（coding agents）能力的SWE-bench Verified基準測試中獲得76.2%的分數，展現出遠超 Gemini 2.5 Pro的能力。用戶現時可在Vertex AI和Gemini CLI，以及全新推出的代理開發平台Google Antigravity，以及第三方平台包括Cursor、GitHub、JetBrains、Manus、及Replit等使用Gemini 3進行建構。

協助規劃

Gemini 3在Vending-Bench基準測試中出色的表現便是最佳證明。該測試透過管理模擬自動售賣機業務來衡量其隨時間推移的穩定性。Gemini 3在整個模擬的營運年度中始終保持工具使用和決策的一致性，並在不偏離任務的情況下實現更高的回報。

這意味著Gemini 3能更有效地協助用戶處理日常生活中各項事務。透過結合更深入的推理能力、更進階、更一致連貫的工具使用，Gemini 3可以從開始到結束，自動地為用戶代為執行如整理Gmail郵箱或計劃旅行行程等更複雜的多步驟工作流程。

輕鬆學習

自面世以來，Gemini以無縫整合各題材的文字、圖像、影片、音訊和程式碼等多模態訊息而見稱。Gemini 3在此基礎上進一步拓展多模態推理的界限，它結合最頂尖的推理、視覺和空間理解、領先的多語言性能，以及100萬個詞元的元脈絡長度（context window）。所以，假如開發人員想學習新編碼架構，他只需上載深奧學術論文、講座影片或教學課程，Gemini 3能生成程式碼製作互動活動卡、視覺化圖表或以其他形式呈現資訊，方便學習。它甚至可識別需要改進的範圍，繼而生成一套技能提升計劃。

最智能AI模型就在Google搜尋

多得Gemini 3的先進推理能力，Google搜尋的「查詢扇出」(query fan-out) 技術得以重大提升。如今它不僅能執行更多搜尋以發掘相關的網絡內容，而且由於Gemini 3能更具智慧地精準理解用戶的意圖，因此得以找到詔往過能錯過了的新資訊。這意味著Google搜尋能夠為用戶的每項問題找到更多可信且高度相關的內容。

而為了進一步幫助用戶掌握網絡資訊，Google搜尋的AI模式利用Gemini 3開拓全新的生成式用戶介面體驗，能根據用戶的查詢，動態生成理想的視覺佈局，並透過互動工具和模擬功能，實現定制化的資訊呈現。

由今天起，Google AI Pro和Google AI Ultra美國訂閱用戶可在AI模式的下拉式模型選單（model drop-down menu）點選「Thinking」，就可使用Gemini 3系列中的首個模型Gemini 3 Pro。未來數星期內，Gemini 3將加入 Google AI Pro 和 Google AI Ultra 美國訂閱用戶的Google搜尋內的自動模型選擇功能，Google搜尋將智能地按用戶問題的複雜性自動在AI模式及AI摘要中導向至Gemini 3 Pro處理，同時繼續利用速度較快的模型來應對較簡單的任務。

秉持負責任原則開發Gemini 3

Gemini 3是Google目前最安全的模型，亦是Google目前多個 AI 模型中，接受過最全面安全評估的一款。Gemini 3 展現更低的奉承傾向（sycophancy），對提示注入（prompt injections）有更強的抵抗力，能更有效地防禦經由網絡攻擊所導致的濫用。

除了按照Google自家「前沿安全框架」（Frontier Safety Framework）針對關鍵領域進行內部測試外，Google 亦與世界頂尖學科專家合作進行評估，向英國的AISI等機構提供早期使用權限，並從 Apollo、Vaultis、Dreadnode 等行業專家獲得對Gemini 3的獨立評估。