谷歌公司今日正式推出新一代人工智能模型Gemini 3,這款被官方定義為“通往通用人工智能(AGI)重要里程碑”的產(chǎn)品,在多模態(tài)理解、深度推理和自主執(zhí)行能力方面實現(xiàn)突破性進(jìn)展。據(jù)測試數(shù)據(jù)顯示,該模型在主流基準(zhǔn)測試中全面超越前代產(chǎn)品及當(dāng)前市場領(lǐng)先模型,其增強版Deep Think模式更展現(xiàn)出博士級問題解決能力。
核心版本包含Gemini 3 Pro與Deep Think兩種形態(tài)。Pro版本即日起通過Gemini應(yīng)用和AI Studio開放預(yù)覽,在LMArena測評中以1501分刷新紀(jì)錄,較前代提升超過15%。在Humanity’s Last Exam測試中取得37.5%裸分(不使用外部工具),GPQA Diamond測試準(zhǔn)確率達(dá)91.9%,MathArena Apex數(shù)學(xué)基準(zhǔn)測試中以23.4%的成績確立新標(biāo)準(zhǔn)。多模態(tài)領(lǐng)域同樣表現(xiàn)亮眼,Video-MMMU視頻理解測試得分87.6%,SimpleQA事實核查準(zhǔn)確率突破72.1%。
增強推理模式Deep Think通過專項優(yōu)化,在復(fù)雜問題處理上實現(xiàn)階躍式提升。測試數(shù)據(jù)顯示,該模式在Humanity’s Last Exam得分提升至41%,GPQA Diamond準(zhǔn)確率達(dá)93.8%,在包含代碼執(zhí)行的ARC-AGI-2測試中取得45.1%的突破性成績。谷歌透露,Deep Think模式將作為高級功能,未來數(shù)周內(nèi)向AI Ultra訂閱用戶開放。
開發(fā)平臺方面,全新推出的Antigravity平臺重構(gòu)了AI開發(fā)范式。該平臺深度集成Gemini 3 Pro、2.5 Computer Use瀏覽器控制模型及Nano Banana圖像編輯模型,賦予智能體直接操作編輯器、終端和瀏覽器的權(quán)限。在WebDev Arena編碼測試中,Gemini 3以1487分登頂排行榜,Terminal-Bench 2.0終端操作測試中完成54.2%的任務(wù),SWE-bench Verified代碼驗證測試準(zhǔn)確率達(dá)76.2%。
針對普通用戶場景,Gemini 3擴展了100萬token的上下文處理能力,支持文本、圖像、視頻、音頻和代碼的跨模態(tài)交互。實測案例顯示,該模型可自動識別多語言手寫食譜并生成電子烹飪書,通過分析匹克球比賽視頻制定個性化訓(xùn)練方案。在搜索服務(wù)中,AI模式新增生成式交互界面,可根據(jù)用戶查詢即時創(chuàng)建可視化工具和沉浸式布局。
長時程規(guī)劃能力驗證方面,Vending-Bench 2測試顯示Gemini 3 Pro在全年模擬運營中保持決策一致性,較前代提升37%的運營回報率。這項能力使其能高效處理旅行規(guī)劃、郵件分類等現(xiàn)實場景中的多步驟任務(wù)。谷歌宣布,此次發(fā)布首次實現(xiàn)新模型在發(fā)布當(dāng)日即接入搜索服務(wù),AI Pro和Ultra訂閱用戶可立即體驗增強功能。
技術(shù)部署層面,Gemini 3采用全棧式AI策略,形成覆蓋消費級應(yīng)用、開發(fā)者工具和企業(yè)服務(wù)的完整生態(tài)。普通用戶可通過Gemini應(yīng)用和搜索AI模式直接使用,開發(fā)者可借助AI Studio、Antigravity平臺及CLI工具進(jìn)行二次開發(fā),企業(yè)客戶則通過Vertex AI和Gemini Enterprise獲得定制化解決方案。谷歌透露,當(dāng)前AI Overviews月活躍用戶已達(dá)20億,Gemini應(yīng)用月活突破6.5億,新模型的部署將進(jìn)一步鞏固其市場領(lǐng)先地位。