News

Google發布Gemini 3及Gemini 3 Pro預覽版 最先進推理能力

  •  
  •  
  •  

Google推出智能AI模型 — Gemini 3,結合了Gemini系列所有強大功能,協助用戶活現每個構思。Google同時推出Gemini 3 Pro預覽版,它以突破性的1501 Elo分數高踞LMArena排行榜,以博士級別 (PhD-level) 的推理能力在「人類的最後考試」(Humanity’s Last Exam) 中,在沒有使用任何工具下取得高達37.5%的分數,並在GPQA Diamond中獲得91.9%的成績。

Gemini 3具備業界頂尖的推理能力,能進行深層次的細膩剖析 — 無論是細緻地留意到創意概念中的微妙線索,還是抽絲剝繭地處理複雜難題。憑藉卓越的理解能力,Gemini 3能精準捕捉用戶的請求意圖,能夠僅憑簡潔的提示生成具高準確度的結果回應。

Google及Alphabet CEO Sundar Pichai表示:「大約兩年前,我們展開Gemini時代,這是Google有史以來其中一項最大規模的科研與產品發展項目。目前,每個月有20億用戶使用AI摘要,Cloud客戶中超過七成都正在用我們的AI方案,1,300萬開發人員正使用我們的生成模型來建構。Google與別不同的是,我們以全方位的策略部署各項AI創新,從領先的基礎設施、世界級研究項目,以至AI模型和工具,再到惠及全球數十億人的產品,都能快速地推向全世界。」

Google及Alphabet CEO Sundar Pichai表示:「自Gemini面世以來,用戶對它的積極回應令我們十分鼓舞。」

今天起,Google將向全球所覆蓋的領域推出Gemini。這包括首次在AI模型發布當日將之加入Google搜尋 - Gemini 3已嵌入AI模式,帶來更複雜的推理能力和嶄新的動態體驗。Gemini 3亦同步在Gemini for Google Workspace Enterprise、開發者使用的Vertex AI以及全新助理開發平台Google Antigravity上推出。

今天Google推出Gemini 3 Pro預覽版,正式踏入Gemini 3時代。Gemini 3 Pro具備業界頂尖的推理和多模態能力以實現無窮創意。Gemini 3 Pro在各大主要AI基準測試中表現均顯著超越2.5 Pro,它以突破性的1501 Elo分數高踞LMArena排行榜,以博士級別(PhD-level)的推理能力在「人類的最後考試」(Humanity’s Last Exam)中,在沒有使用任何工具下取得高達37.5%的分數,並在GPQA Diamond中獲得91.9%的成績。它亦為數學前沿模型樹立新標準,在MathArena Apex基準測試取得了最先進(State-of-the-Art, SOTA)的23.4%成績。

文字推理以外,Gemini 3 Pro亦以突破性的分數重塑多模態推理,它在MMMU-Pro基準測試中獲得81%的分數,並在 Video-MMMU中達到87.6%。它亦於SimpleQA Verified測試中獲得最先進的72.1%成績,在事實準確性方面展現出重大進展,這意味著Gemini 3 Pro能夠以極高的可靠性,解決像科學和數學等廣泛領域的複雜問題。

用戶使用Gemini 3 Pro時更將體會到比以往更深層更細膩的互動。它的回應精準、簡潔而直接,務求每次都給予真知灼見 — 它省卻了你可能喜歡聽的客套說話,只提供你需要知道的回應。Gemini 3 Pro能透過生成高保真(high-fidelity)圖像化的編碼、以視像轉譯深奧的科學概念,甚至激發創意靈感,帶來嶄新理解資訊和表達自我的方式,成為與真人用戶一起思考的夥伴(thought partner)。

智能模型隨Gemini 3面世而加速發展,讓我們能重塑整個開發者體驗。今天Google也正式發布全新代理開發平台 Google Antigravity,讓開發人員能夠在更高層次、以任務為導向的層面進行操作。

Google Antigravity利用Gemini 3先進的推理、使用工具和代理編碼能力,將AI助理從開發人員的「工具」升格為主動的「搭檔」。Google Antigravity的核心依然是熟悉的整合開發環境(AI IDE)體驗,但其「代理」(Agents) 已被提升到專用的介面,並具有編輯器、終端機和瀏覽器的直接存取權限。現在,代理能代表用戶自主規劃和執行複雜、端到端的軟件任務,同時自行驗證其程式碼。

除了運用Gemini 3 Pro,Google Antigravity 亦與最新的Gemini 2.5 Computer Use控制電腦使用模型及領先的圖像編輯模型Nano Banana(Gemini 2.5 Image)緊密結合。

Google Antigravity利用Gemini 3驅動端到端代理工作流程,以開發這個航班追蹤應用程式。代理獨立地進行規劃、編寫應用程式的程式碼,並透過瀏覽器操作電腦的方式來驗證其執行成果。

Google同時推出Gemini 3 Deep Think - 升級推理模式,激發Gemini 3最強效能。Gemini 3 Deep Think在各項測試中的表現都超越Gemini 3 Pro 十分出色的成績,在「人類的最後考試」(Humanity’s Last Exam)中在沒有使用任何工具下取得41%分數,在GPQA Diamond 中更達到93.8%的分數。它亦在 ARC-AGI-2測試中達到史無前例的 45.1%準確度(附帶程式碼執行,已獲 ARC 獎項驗證),展示了其解決嶄新挑戰的能力。目前Google向安全測試人員開放 Gemini 3 Deep Think 的試用權限,稍後將開放予Google AI Ultra訂閱用戶。

無限構建

Gemini 3是Google迄今為止最優秀的氛圍編碼(vibe coding)和代理編碼(agentic coding)模型,使產品更具自主性,從而提升開發人員的生產力。

目前,Gemini 3以令人矚目的1487 Elo分數高踞WebDev Arena排行榜。它亦在檢測模型透過終端機操作電腦工具使用能力的基準測試Terminal-Bench 2.0中獲得 54.2%的分數,並在衡量編碼代理(coding agents)能力的SWE-bench Verified基準測試中獲得76.2%的分數,展現出遠超 Gemini 2.5 Pro的能力。用戶現時可在Vertex AI和Gemini CLI,以及全新推出的代理開發平台Google Antigravity,以及第三方平台包括Cursor、GitHub、JetBrains、Manus、及Replit等使用Gemini 3進行建構。

協助規劃

Gemini 3在Vending-Bench基準測試中出色的表現便是最佳證明。該測試透過管理模擬自動售賣機業務來衡量其隨時間推移的穩定性。Gemini 3在整個模擬的營運年度中始終保持工具使用和決策的一致性,並在不偏離任務的情況下實現更高的回報。

這意味著Gemini 3能更有效地協助用戶處理日常生活中各項事務。透過結合更深入的推理能力、更進階、更一致連貫的工具使用,Gemini 3可以從開始到結束,自動地為用戶代為執行如整理Gmail郵箱或計劃旅行行程等更複雜的多步驟工作流程。

輕鬆學習

自面世以來,Gemini以無縫整合各題材的文字、圖像、影片、音訊和程式碼等多模態訊息而見稱。Gemini 3在此基礎上進一步拓展多模態推理的界限,它結合最頂尖的推理、視覺和空間理解、領先的多語言性能,以及100萬個詞元的元脈絡長度(context window)。所以,假如開發人員想學習新編碼架構,他只需上載深奧學術論文、講座影片或教學課程,Gemini 3能生成程式碼製作互動活動卡、視覺化圖表或以其他形式呈現資訊,方便學習。它甚至可識別需要改進的範圍,繼而生成一套技能提升計劃。

Gemini 3幫助用戶分析學術研究報告等複雜資訊,生成程式碼製作互動指南。 

最智能AI模型就在Google搜尋

多得Gemini 3的先進推理能力,Google搜尋的「查詢扇出」(query fan-out) 技術得以重大提升。如今它不僅能執行更多搜尋以發掘相關的網絡內容,而且由於Gemini 3能更具智慧地精準理解用戶的意圖,因此得以找到詔往過能錯過了的新資訊。這意味著Google搜尋能夠為用戶的每項問題找到更多可信且高度相關的內容。

而為了進一步幫助用戶掌握網絡資訊,Google搜尋的AI模式利用Gemini 3開拓全新的生成式用戶介面體驗,能根據用戶的查詢,動態生成理想的視覺佈局,並透過互動工具和模擬功能,實現定制化的資訊呈現。

由今天起,Google AI Pro和Google AI Ultra美國訂閱用戶可在AI模式的下拉式模型選單(model drop-down menu)點選「Thinking」,就可使用Gemini 3系列中的首個模型Gemini 3 Pro。未來數星期內,Gemini 3將加入 Google AI Pro 和 Google AI Ultra 美國訂閱用戶 的Google搜尋內的自動模型選擇功能,Google搜尋將智能地按用戶問題的複雜性自動在AI模式及AI摘要中導向至Gemini 3 Pro處理,同時繼續利用速度較快的模型來應對較簡單的任務。

秉持負責任原則開發Gemini 3 

Gemini 3是Google目前最安全的模型,亦是Google目前多個 AI 模型中,接受過最全面安全評估的一款。Gemini 3 展現更低的奉承傾向(sycophancy),對提示注入(prompt injections)有更強的抵抗力,能更有效地防禦經由網絡攻擊所導致的濫用。

除了按照Google自家「前沿安全框架」(Frontier Safety Framework)針對關鍵領域進行內部測試外,Google 亦與世界頂尖學科專家合作進行評估,向英國的AISI等機構提供早期使用權限,並從 Apollo、Vaultis、Dreadnode 等行業專家獲得對Gemini 3的獨立評估。

Gemini 3時代正式揭幕。今天起Gemini 3逐步在以下平台推出,例如:

  • Gemini on Google Workspace Enterprise用戶
  • 開發人員透過Gemini API、全新代理開發平台Google Antigravity、及Gemini CLI
  • 企業客戶透過 Vertex AI及Gemini Enterprise

而Google目前正投放額外時間對Gemini 3 Deep Think進行安全評估,再聽取安全測試人員的回饋,未來數星期內將向Google AI Ultra訂閱用戶推出。


  •  
  •  
  •  

benny

Benny Yeung ~ 企業IT傳媒人,經常四周穿梭科技巨企及論壇,熱愛探討新商機。性格貪玩,但喜歡閱讀沉悶的企業賺蝕數字,最重視辦事效率。