要聞

谷歌最強大AI模型Gemini 3來了！推理能力實現重大突破！圖像生成、編程與AI搜索全面增強

2025-11-19 06:19:48

當地時間11月18日，谷歌發布迄今最強大AI模型Gemini 3，并在搜索、應用及開發者平臺同步上線，顯示其加快AI商業化決心。新模型推理能力顯著進步，在多個基準測試中領先，還被稱為“最佳編碼模型”。此外，該模型多模態理解能力強，發布首日即整合到多個核心產品中，且安全性更高，經歷了谷歌史上最全面安全評估。

每經編輯｜杜宇

當地時間11月18日，Alphabet旗下的谷歌正式發布備受期待的該司迄今最強大人工智能（AI）模型Gemini 3，并于發布首日立即在谷歌搜索、Gemini應用程序App及多個開發者平臺同步上線，在多個盈利產品中投入使用。這是谷歌首次在新模型發布當天就將其整合到搜索產品中，顯示出公司加快AI技術商業化的決心。

Alphabet首席執行官桑達爾·皮查伊當天表示，新AI模型將針對更復雜的問題提供更優答案。"用戶只需更少的提示，即可獲得所需結果。"此外，新模型在編程、應用開發與圖像生成方面的能力也大幅增強。

圖片來源：每經記者鄭雨航攝

Gemini 3將被整合進Gemini應用、谷歌的AI搜索產品AI Mode和AI Overviews，以及其企業級產品。該模型將自周二起向部分訂閱用戶開放，并將在未來幾周更大范圍上線。

此次發布距離谷歌推出Gemini 2.5僅八個月，距離Gemini 2.0上線也僅11個月。引爆生成式AI熱潮的OpenAI已于今年8月份發布GPT-5。

皮查伊寫道：“令人驚嘆的是，僅僅兩年時間，AI已從單純處理文本和圖像，發展到能夠讀懂場景。從今天起，Gemini將在谷歌全系產品中全面鋪開。”

據谷歌披露的數據顯示，Gemini應用目前月活躍用戶已達6.5億，而AI Overviews擁有20億月活用戶。OpenAI則在8月表示，ChatGPT周活躍用戶已突破7億。

谷歌高管在新聞發布會上強調，在衡量人工智能模型性能的幾個熱門行業排行榜上，Gemini 3處于領先地位。Gemini 3在全球AI模型LMArena排行榜上以1501分的歷史最高分登頂，在衡量通用推理能力的Humanity's Last Exam基準測試中獲得37.5%的最高分，超越了此前由GPT-5 Pro保持的31.64%紀錄。該模型還在數學、多模態理解和事實準確性等多個維度刷新了行業標準。

谷歌AI研究實驗室DeepMind的CEO Demis Hassabis表示，Gemini 3是"世界上最好的多模態理解模型"，也是公司迄今最強大的智能體和代碼生成模型。谷歌CEO Sundar Pichai在博客中稱其為"我們最智能的模型"，能夠"將任何想法變為現實"。

推理能力實現重大突破

Gemini 3在推理能力上取得了顯著進步，在多項學術級基準測試中展現出博士水平的表現。該模型在GPQA Diamond測試中獲得91.9%的高分，在數學領域的MathArena Apex基準測試中取得23.4%的新成績，在事實準確性方面于SimpleQA Verified測試中達到72.1%的得分。

在多模態推理方面，Gemini 3同樣表現出色，在MMMU-Pro測試中獲得81%的分數，在Video-MMMU測試中達到87.6%。這意味著該模型能夠高度可靠地處理科學和數學等廣泛領域的復雜問題。

谷歌產品負責人Tulsee Doshi表示："在Gemini 3身上，我們看到了推理能力的巨大飛躍。它的響應深度和細微程度是我們以前從未見過的。"

除標準版本外，谷歌還推出了Gemini 3 Deep Think增強推理模式，該模式在Humanity's Last Exam測試中達到41.0%的成績，在GPQA Diamond測試中獲得93.8%的分數。在ARC-AGI-2測試中，Deep Think模式創下了45.1%的前所未有成績，展示了其解決新穎挑戰的能力。谷歌表示，該模式正在接受額外的安全評估，將在未來幾周內向Google AI Ultra訂閱用戶開放。

開發者工具全面升級

在代碼生成領域，Gemini 3被谷歌稱為"迄今構建的最佳vibe coding和智能體編碼模型"。該模型在WebDev Arena排行榜上以1487分的高分登頂，在衡量模型通過終端操作計算機能力的Terminal-Bench 2.0測試中獲得54.2%的分數，在評估代碼智能體的SWE-bench Verified基準測試中達到76.2%，遠超Gemini 2.5 Pro的表現。

開發者可以通過Google AI Studio、Vertex AI、Gemini CLI以及Cursor、GitHub、JetBrains、Manus和Replit等第三方平臺訪問Gemini 3。

谷歌同時推出了以智能體為先的全新開發平臺Google Antigravity，該平臺利用Gemini 3的高級推理、工具使用和智能體編碼能力，將AI輔助從開發者工具箱中的一個工具轉變為主動合作伙伴。DeepMind首席技術官Koray Kavukcuoglu表示："智能體可以在你的編輯器、終端和瀏覽器之間工作，以最佳方式幫助你構建應用程序。"

多模態理解與智能體能力并進

Gemini 3保留了該系列模型從一開始就具備的跨模態信息綜合能力，能夠無縫處理文本、圖像、視頻、音頻和代碼等多種模態信息，并配備100萬token的上下文窗口。

Hassabis舉例說，如果用戶想學習傳統的烹飪，Gemini 3可以破譯并翻譯不同語言的手寫食譜，制作成可分享的家庭食譜書。如果用戶想了解新主題，可以提供學術論文、長視頻講座或教程，Gemini 3能夠生成交互式閃卡、可視化或其他格式的內容幫助用戶掌握材料。該模型甚至可以分析用戶匹克球比賽的視頻，識別改進空間并生成整體動作改善的訓練計劃。

在智能體能力方面，Gemini 3在測試長期規劃能力的Vending-Bench 2排行榜上位居榜首。該模型能夠在整整一年的模擬運營中保持一致的工具使用和決策能力，在不偏離任務的情況下實現更高回報。這意味著Gemini 3能夠通過結合更深入的推理與改進的工具使用，代表用戶導航更復雜的多步驟工作流程，例如預訂本地服務或整理收件箱。

發布即上線多個核心產品

谷歌此次采取了積極的產品策略，在Gemini 3發布首日就將其整合到多個核心產品中。這是谷歌首次在新模型發布當天就將其應用于搜索產品，標志著公司AI商業化戰略的重要轉變。

在搜索方面，AI Mode現在使用Gemini 3來實現新的生成式用戶界面體驗，包括沉浸式視覺布局、交互式工具和模擬，所有這些都根據用戶查詢實時生成。在Gemini App中，所有用戶都可以使用Gemini 3，Google AI Pro和Ultra訂閱用戶還可以在AI Mode搜索中使用該模型。

在安全性方面，谷歌表示Gemini 3是其迄今最安全的模型，經歷了谷歌AI模型史上最全面的安全評估。該模型顯示出更低的諂媚性、更強的提示注入抵抗力，以及通過網絡攻擊濫用的更好防護。除了根據其前沿安全框架進行的內部測試外，谷歌還與世界領先的領域專家合作進行評估，向英國AISI等機構提供早期訪問權限，并獲得了Apollo、Vaultis和Dreadnode等行業專家的獨立評估。

每日經濟新聞綜合公開資料

如需轉載請與《每日經濟新聞》報社聯系。
未經《每日經濟新聞》報社授權，嚴禁轉載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請作者與本站聯系索取稿酬。如您不希望作品出現在本站，可聯系我們要求撤下您的作品。

上一篇文章

11月19日每經整點

返回每經網首頁

下一篇文章

國產汽車芯片認證審查技術體系實現突破，零跑、小鵬、吉利汽車發布三季報 | 汽車早參