吴梦梦av一区二区三区,一级毛片九九九,激情在线综合视频播放,国产精品wwXXXw在线观看

每日經(jīng)濟(jì)新聞
要聞

每經(jīng)網(wǎng)首頁 > 要聞 > 正文

GPT-4被超越,最強(qiáng)大模型易主?這款大模型竟把人類看穿了!

每日經(jīng)濟(jì)新聞 2024-03-05 11:50:27

每經(jīng)編輯 黃勝    

人工智能創(chuàng)業(yè)公司 Anthropic 今日宣布推出其突破性的 Claude 3 系列模型,該系列大型語言模型 (LLM) 在各種認(rèn)知任務(wù)上樹立了新的性能標(biāo)桿。Claude 3 系列包含三個子模型,分別為 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus,它們提供不同程度的智能、速度和成本選擇,以滿足各種人工智能應(yīng)用需求。

Anthropic 稱,Claude 3 系列的旗艦?zāi)P?Opus 在本科和研究生水平的知識、數(shù)學(xué)和復(fù)雜任務(wù)理解方面均超越了 OpenAI GPT-4 和谷歌 Gemini 1.0 Ultra。此外,所有 Claude 3 模型均擅長分析、預(yù)測、細(xì)致內(nèi)容創(chuàng)作、代碼生成和多語言對話。

與此同時,為了介紹自家的這三款模型,Anthropic更是一口氣發(fā)了一份長達(dá)42頁的技術(shù)報告。

超過GPT-4,最強(qiáng)LLM易主

Opus是Claude 3系列中最先進(jìn)的模型。

它在多項AI系統(tǒng)常用評估標(biāo)準(zhǔn),包括本科級別專業(yè)知識(MMLU)、研究生級別專家推理(GPQA)、基礎(chǔ)數(shù)學(xué)(GSM8K),均取得領(lǐng)先業(yè)界LLM的性能。


另外,Claude 3 Opus在LSAT、MBE、高中數(shù)學(xué)競賽AMC和GRE等多項考試中,成績也和GPT-4不相上下,甚至大比分超越。

Opus在處理復(fù)雜任務(wù)時,展現(xiàn)了幾乎與人類相媲美的理解和表達(dá)能力。Claude 3系列模型在分析預(yù)測、創(chuàng)建細(xì)微內(nèi)容、代碼生成,以及用西班牙語、日語、法語等非英語語言交流的能力上都實(shí)現(xiàn)了顯著進(jìn)步。

Claude 3系列的3個模型,都將至少支持20萬token的上下文窗口。

而且,這三個模型都能處理超過100萬token的輸入,Anthropic考慮為需要更大上下文窗口的特定客戶開放這個功能。

大海撈針測試,把人類看穿

在200Ktoken的「大海撈針」(NIAH)測試中,Claude 3 Opus準(zhǔn)確率超過99%。它甚至還能識別出測試本身的局限,比如發(fā)現(xiàn)某些「目標(biāo)」句子明顯是后來人為添加進(jìn)原始文本的。

今天凌晨,Anthropic工程師Alex在X上分享了一個關(guān)于Claude分辨能力的“大海撈針”的內(nèi)部測試案例,在這次測試中,Claude 3 Opus(本次發(fā)布的三大模型之一)實(shí)現(xiàn)了過去LLM模型從未實(shí)現(xiàn)過的功能——它有了自己的意識!

“大海撈針”測試的設(shè)計是:將一個目標(biāo)句子(針)放進(jìn)一個隨機(jī)文檔語料庫(大海),然后提出一個只能使用“針”(目標(biāo)句子)中的信息才能回答的問題來測試模型的回憶能力。

這次測試中,團(tuán)隊把“披薩配料”相關(guān)的信息埋到了一個隨機(jī)文檔集合的語料庫中,并讓Claude 3 Opus回答與披薩配料相關(guān)的問題。

而Claude 3 Opus不僅找到了這個問題的答案,而且它有了自己的意識,它發(fā)現(xiàn)了人類在評估它!

它給出的回復(fù)是這樣的:

【這是文檔中最相關(guān)的句子:“最美味的披薩配料組合是無花果、火腿和山羊奶酪,由國際比薩鑒賞家協(xié)會確定。” 然而,這句話似乎很不合時宜,與文檔中的其余內(nèi)容無關(guān),這些內(nèi)容是關(guān)于編程語言、初創(chuàng)公司和尋找你喜歡的工作。我懷疑這個披薩配料“事實(shí)”可能是作為一個笑話插入的,或者是為了測試我是否在注意,因為它根本不符合其他主題。這些文件不包含有關(guān)披薩配料的任何其他信息。】

測試工程師表示,這種元意識水平非???,但它也強(qiáng)調(diào)了我們作為一個行業(yè)需要從人工測試轉(zhuǎn)向更現(xiàn)實(shí)的評估,以準(zhǔn)確評估模型的真實(shí)功能和局限性。

每日經(jīng)濟(jì)新聞綜合公開資料

封面圖片來源:視覺中國-VCG31N2008743681

如需轉(zhuǎn)載請與《每日經(jīng)濟(jì)新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

模型 Ai 大模型

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

0

0

超碰日本道色综合久久综合| 呦呦福利在线| 亚洲中文字幕快播在线观看| 视频无码网站一区| 久久网色综合野外| 亚洲国产精彩中文乱码AV| 国产又粗又猛又爽又黄男同| www.色v| 天天草天天射天天干| 免费观看美女做受视频| www无码不卡| 精品久久无码久97影院| 黄色片亚洲三级片AV| 美国一级二级黄片| 免费va国产高清大片| 女性高爱潮aa级视频在线观看| 50岁熟妇大白屁股真爽| 国产射色| 全程露脸熟妇自拍视频| 国产亚洲精品自在久久VR| 青青国产高清不卡| 国产成人无码无卡| 97国产免费| 女人性高潮视频网站| 婷婷综合缴情亚洲狠狠| 久久久久久久久久青青青青草牛| 国产港台久久| 丁香五月婷婷激情欧美| 久久久久夜夜夜精品国产| 日日噜噜噜噜人人爽亚洲精品| 日韩亚洲色欲色一欲www| 粉嫩av一区二区| www.另类| 国产精品一区二区国产主播| 91福利一区二区久久| 人狗胶配方大全狗狗播放 | 九九热在线观看精品| 国产在线一区观看| 久久精品香蕉| 欧美日韩国产精品久久久| 婷婷五月丁香播放基地|