每日經(jīng)濟(jì)新聞 2025-03-26 19:17:04
當(dāng)?shù)貢r(shí)間3月25日,谷歌正式推出全新AI模型系列——Gemini 2.5。該系列的首發(fā)產(chǎn)品Gemini 2.5 Pro一經(jīng)發(fā)布,便在各大基準(zhǔn)測(cè)試中全面“屠榜”,在編程、數(shù)學(xué)和科學(xué)等方面表現(xiàn)出色。每經(jīng)記者實(shí)測(cè)發(fā)現(xiàn),Gemini 2.5 Pro的確實(shí)力強(qiáng)大,可輕松模擬火星登陸,快速制作小游戲,但在設(shè)計(jì)審美方面還有提升空間。
每經(jīng)記者 岳楚鵬 每經(jīng)編輯 蘭素英
圖片來(lái)源:谷歌博客
當(dāng)?shù)貢r(shí)間3月25日,谷歌正式揭開其下一代AI模型系列——Gemini 2.5的神秘面紗,宣稱這是其迄今為止“最智能的AI模型”。
首個(gè)發(fā)布的版本被命名為Gemini 2.5 Pro Experimental(以下簡(jiǎn)稱“Gemini 2.5 Pro”)。谷歌表示,Gemini 2.5 Pro支持100萬(wàn)個(gè)token的上下文窗口,這意味著AI模型能一次性處理相當(dāng)于兩本《紅樓夢(mèng)》字?jǐn)?shù)的文本量。
該模型一經(jīng)發(fā)布,便在各大基準(zhǔn)測(cè)試上全面“屠榜”,在所有測(cè)試中都穩(wěn)居第一名的位置,包括常見的編程、數(shù)學(xué)和科學(xué)基準(zhǔn)測(cè)試。
谷歌Deepmind首席技術(shù)官Koray Kavukcuoglu在博客中寫道:“現(xiàn)在,通過(guò)Gemini 2.5,我們結(jié)合了顯著增強(qiáng)的基礎(chǔ)模型和改進(jìn)后的后續(xù)訓(xùn)練,實(shí)現(xiàn)了全新的性能水平。未來(lái),我們將把這種思維能力直接構(gòu)建到我們所有的模型中,使其能夠處理更復(fù)雜的問(wèn)題,并支持更強(qiáng)大、更具情境感知能力的智能體。”
《每日經(jīng)濟(jì)新聞》記者(以下簡(jiǎn)稱“每經(jīng)記者”)也在第一時(shí)間對(duì)Gemini 2.5 Pro進(jìn)行了測(cè)試,測(cè)試包括數(shù)學(xué)、火星登陸模擬測(cè)試、網(wǎng)頁(yè)開發(fā)和小游戲制作。
測(cè)試結(jié)果顯示,該模型在科學(xué)類問(wèn)題和編程方面實(shí)力強(qiáng)大,用戶只要會(huì)打字,就能進(jìn)行編程。而且,生成速度極快,質(zhì)量良好。與每經(jīng)記者之前測(cè)試的多款大模型相比,Gemini 2.5 Pro在測(cè)試過(guò)程中幾乎沒有出現(xiàn)bug。不過(guò),在網(wǎng)頁(yè)設(shè)計(jì)審美和玩家體驗(yàn)等方面,該模型還有提升的空間。
當(dāng)?shù)貢r(shí)間3月25日,谷歌宣布推出全新AI模型系列——Gemini 2.5。谷歌首席科學(xué)家Jeff Dean表示,Gemini 2.5是該公司最智能的模型,具有令人印象深刻的高級(jí)推理和編碼能力。
Gemini 2.5系列屬于“思考模型”,這意味著該模型在生成最終回應(yīng)之前,能夠進(jìn)行內(nèi)部的“思考”或推理過(guò)程。谷歌表示,這種能力旨在顯著提升模型的性能表現(xiàn)和答案的準(zhǔn)確性,是谷歌在強(qiáng)化學(xué)習(xí)、思維鏈提示技術(shù)領(lǐng)域長(zhǎng)期深耕,以及對(duì)早期 “思考” 模型(如 Gemini 2.0 Flash Thinking )持續(xù)探索的重要成果。
Gemini 2.5 Pro是這一系列模型的首發(fā)產(chǎn)品。谷歌表示,Gemini 2.5 Pro支持100萬(wàn)個(gè)token的上下文窗口,這意味著它一次性能處理相當(dāng)于兩本《紅樓夢(mèng)》字?jǐn)?shù)的文本量。并且,谷歌承諾,Gemini 2.5 Pro很快將支持兩倍的上下文窗口(即200萬(wàn)個(gè)token)。
目前,Gemini 2.5 Pro已在Google AI Studio和Gemini應(yīng)用中推出,向Gemini Advanced用戶開放,并將很快在Vertex AI上推出。
一經(jīng)發(fā)布,Gemini 2.5 Pro便以出色的性能吸引了外界的廣泛關(guān)注。谷歌在博客中強(qiáng)調(diào),Gemini 2.5 Pro在一系列行業(yè)基準(zhǔn)測(cè)試中達(dá)到了“最先進(jìn)水平”(state-of-the-art),包括常見的編程、數(shù)學(xué)和科學(xué)基準(zhǔn)測(cè)試。
在“人類的最后考試”測(cè)試中,它獲得了18.8%的最高分?jǐn)?shù),這是目前為止所有未使用(外接工具)的大模型中最好的成績(jī)。?“人類最后的考試”是一個(gè)由全球近千名專家共同設(shè)計(jì)的多模態(tài)基準(zhǔn)測(cè)試,旨在評(píng)估大型語(yǔ)言模型的能力極限。?該測(cè)試包含3000道涵蓋數(shù)學(xué)、人文學(xué)科和自然科學(xué)等多個(gè)領(lǐng)域的前沿問(wèn)題。
“人類的最后考試”測(cè)試 圖片來(lái)源:谷歌官網(wǎng)
在專注于人類理解的大模型競(jìng)技場(chǎng)測(cè)試中,Gemini 2.5 Pro也以創(chuàng)紀(jì)錄的優(yōu)勢(shì)拔得頭籌,創(chuàng)下了歷史最大的分?jǐn)?shù)跨越,比Grok-3和GPT-4.5高出40多分。
圖片來(lái)源:大模型競(jìng)技場(chǎng)
具體來(lái)看,在代號(hào)為“nebula”的測(cè)試中,Gemini 2.5 Pro橫掃所有類別,奪得第一,獨(dú)攬數(shù)學(xué)、創(chuàng)意寫作、指令遵循、長(zhǎng)查詢和多輪對(duì)話這五大領(lǐng)域的冠軍;
圖片來(lái)源:X平臺(tái)截圖
在人類偏好測(cè)試中,Gemini 2.5 Pro同樣是在所有類別中問(wèn)鼎榜首,只在困難提示和編碼領(lǐng)域與Grok-3/GPT-4.5拿到并列冠軍。
人類偏好測(cè)試 圖片來(lái)源:大模型競(jìng)技場(chǎng)
在網(wǎng)頁(yè)開發(fā)領(lǐng)域,Gemini 2.5 Pro也是脫穎而出,在WebDev Arena上排名第二,它較上一代Gemini有了巨大的飛躍,超越了Claude 3.5 Sonnet,是第一款能與Claude抗衡的模型,但仍低于Claude 3.7 Sonnet。
WebDev Arena測(cè)試 圖片來(lái)源:大模型競(jìng)技場(chǎng)
在Vision Arena(視覺競(jìng)技場(chǎng))測(cè)試中,作為多模態(tài)模型的Gemini 2.5 Pro也處于領(lǐng)先的位置。
Vision Arena測(cè)試 圖片來(lái)源:大模型競(jìng)技場(chǎng)
每經(jīng)記者第一時(shí)間對(duì)Gemini 2.5 Pro進(jìn)行了測(cè)試,測(cè)試包括數(shù)學(xué)、火星登陸模擬測(cè)試、網(wǎng)頁(yè)開發(fā)和小游戲制作。
數(shù)學(xué)問(wèn)題
每經(jīng)記者拋出的是一個(gè)博士資格考試的群論數(shù)學(xué)問(wèn)題:有多少個(gè)147階的非同構(gòu)群?
Gemini 2.5 Pro在數(shù)量和具體的非同構(gòu)群上都給出了完美的解答。值得一提的是,此前記者也用這一問(wèn)題對(duì)其他大模型進(jìn)行了測(cè)試,Grok3、o3-mini和DeepSeek-R1都或多或少出現(xiàn)了錯(cuò)誤,不是數(shù)量沒找對(duì),就是具體的非同構(gòu)群出錯(cuò)。
火星登陸模擬
接下來(lái),每經(jīng)記者測(cè)試的是Gemini 2.5 Pro在數(shù)學(xué)和物理方面的綜合能力。測(cè)試選擇的是馬斯克的經(jīng)典問(wèn)題:繪制一個(gè)登陸火星并返回的火箭軌道圖。
Gemini 2.5 Pro給出了一個(gè)完成度超高的動(dòng)態(tài)圖像,包含任務(wù)天數(shù)、具體軌道示意圖等要素。并且,它還稱,這只是一個(gè)簡(jiǎn)單版本,如果允許它接入天體數(shù)據(jù)庫(kù)的話,它還可以制作一個(gè)更準(zhǔn)確的版本出來(lái)。
網(wǎng)頁(yè)開發(fā)
在前端設(shè)計(jì)方面,每經(jīng)記者要求它設(shè)計(jì)一個(gè)有互動(dòng)性的世界風(fēng)光介紹網(wǎng)站。
Gemini 2.5 Pro輸出了一個(gè)完整的網(wǎng)站,并且?guī)в芯包c(diǎn)介紹和互動(dòng)地圖探索相關(guān)功能。但是,在具體細(xì)節(jié)上,它犯了很多小錯(cuò)誤,例如,景點(diǎn)介紹的圖片不僅單一,而且還都是不相關(guān)的內(nèi)容。此外,整體網(wǎng)頁(yè)設(shè)計(jì)的色調(diào)也不甚美觀。
小游戲制作
最后,每經(jīng)記者讓Gemini 2.5 Pro制作一個(gè)類似于flappy bird的小游戲,標(biāo)準(zhǔn)是卡通畫風(fēng),背景要隨游玩時(shí)間變換,玩家主角要是一個(gè)小飛象,要有有趣的玩法創(chuàng)新。
在短暫的思考后,Gemini 2.5 Pro輸出了完成這個(gè)游戲需要的500多行代碼。這一游戲非常完美地契合了每經(jīng)記者給出的描述,并且對(duì)玩法創(chuàng)新的模糊描述也給出了良好的回應(yīng),自行思考出了無(wú)敵道具玩法,吃下金花生就可以在短時(shí)間內(nèi)無(wú)敵。
更重要的是,這一游戲并沒有出現(xiàn)任何bug,只需要復(fù)制粘貼就可以流暢運(yùn)行。
在此前的大模型測(cè)試中,第一次的輸出結(jié)果或多或少會(huì)出現(xiàn)一些bug,影響游戲體驗(yàn)。不過(guò),還是要指出的一點(diǎn)是,Gemini 2.5 Pro只考慮了背景變化的要求,卻沒注意到其生成的游戲背景圖案中,云朵變化速度過(guò)快,太費(fèi)眼睛。
綜上,每經(jīng)記者認(rèn)為,Gemini 2.5 Pro在科學(xué)類問(wèn)題和編程等硬實(shí)力上實(shí)力滿滿,但在審美和玩家體驗(yàn)等軟實(shí)力上還有一點(diǎn)欠缺。
如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP