每日經(jīng)濟(jì)新聞 2024-05-13 12:41:51
每經(jīng)AI快訊,中國(guó)銀河05月13日發(fā)布研報(bào)稱(chēng):維持計(jì)算機(jī)推薦(維持)評(píng)級(jí)。
事件:5月7日,知名私募巨頭幻方量化旗下的AI公司DeepSeek發(fā)布全新第二代MoE大模型DeepSeek-V2。
性能直逼GPT-4Turbo,綜合能力位于大模型第一梯隊(duì):DeepSeek-V2是一個(gè)參數(shù)為2360億的MoE模型,每個(gè)token僅激活210億參數(shù),支持128K的上下文長(zhǎng)度。1)縱向?qū)Ρ龋簩?duì)比去年11月發(fā)布的DeepSeek67B性能取得顯著提升,訓(xùn)練成本節(jié)省了42.5%,KV緩存減少了93.3%,最大生成吞吐量提高到了5.76倍。2)橫向?qū)Ρ龋荷舷挛拈L(zhǎng)度對(duì)標(biāo)GPT-4Turbo(128K);中文綜合能力(AlignBench)超越Llama3,在開(kāi)源模型中表現(xiàn)最強(qiáng),與文心4.0等閉源模型在評(píng)測(cè)中處于同一梯隊(duì),僅次于GPT-4Turbo;英文綜合能力(MT-Bench)與最強(qiáng)的開(kāi)源模型LLaMA3-70B處于同一梯隊(duì),超過(guò)MoE開(kāi)源模型Mixtral8x22B。此外在知識(shí)、數(shù)學(xué)、推理、代碼等方面也有出色的性能。
DeepSeek-V2訓(xùn)練計(jì)算量降低,推理能力表現(xiàn)高效:DeepSeek-V2訓(xùn)練數(shù)據(jù)集是由8.1Ttoken的高質(zhì)量、多源預(yù)訓(xùn)練語(yǔ)料庫(kù)組成,采用的Transformer架構(gòu)中由一個(gè)注意力模塊和一個(gè)前饋網(wǎng)絡(luò)(FFN)組成,并且在注意力機(jī)制和FFN方面采用了創(chuàng)新架構(gòu):一方面設(shè)計(jì)了MLA(Multi-headLatentAttention)利用低秩鍵值聯(lián)合壓縮來(lái)消除推理時(shí)鍵值緩存的瓶頸,DeepSeek-V2消耗的顯存(KVCache)只有同級(jí)別Dense模型的1/5-1/100,每token成本大幅降低;另一方面,F(xiàn)FN采用高性能MoE架構(gòu)DeepSeekMoE,以經(jīng)濟(jì)的成本訓(xùn)練強(qiáng)大的模型。我們認(rèn)為,DeepSeek-V2大幅提升訓(xùn)練效率,訓(xùn)練所需計(jì)算量約為GPT-4的1/20,但性能基本上相差無(wú)幾,目前來(lái)看參數(shù)是影響大模型性能的關(guān)鍵因素之一,除此之外,架構(gòu)優(yōu)化能有效提升降低訓(xùn)練成本,提升訓(xùn)練效率,將成為另一個(gè)影響大模型性能的關(guān)鍵因素。
API價(jià)格降至約GPT-4Turbo百分之一,大模型價(jià)格戰(zhàn)即將拉開(kāi)帷幕,利好AI應(yīng)用層快速滲透:目前DeepSeek-V2API定價(jià)為每百萬(wàn)token輸入1元、輸出2元(32K上下文),幾乎低于所有市面上主流大模型價(jià)格,約為GPT-4Turbo的1/100。我們認(rèn)為,DeepSeek-V2提升數(shù)據(jù)集質(zhì)量及優(yōu)化架構(gòu),成本大幅降低,在價(jià)格方面提升競(jìng)爭(zhēng)力,大模型將逐漸進(jìn)入價(jià)格戰(zhàn)時(shí)期,AI應(yīng)用將快速滲透。
風(fēng)險(xiǎn)提示:技術(shù)研發(fā)進(jìn)度不及預(yù)期風(fēng)險(xiǎn);供應(yīng)鏈風(fēng)險(xiǎn);政策推進(jìn)不及預(yù)期風(fēng)險(xiǎn);消費(fèi)需求不及預(yù)期風(fēng)險(xiǎn);行業(yè)競(jìng)爭(zhēng)加劇風(fēng)險(xiǎn)。
每經(jīng)頭條(nbdtoutiao)——大手筆!接盤(pán)王健林的萬(wàn)達(dá)電影后,知名80后富豪又出手收購(gòu)字節(jié)游戲資產(chǎn)!背后是騰訊?
(記者 胡玲)
免責(zé)聲明:本文內(nèi)容與數(shù)據(jù)僅供參考,不構(gòu)成投資建議,使用前請(qǐng)核實(shí)。據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)。
如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP