抽搐一进一出gif120秒试看,中国大陆一级国产av片,国产日韩网站,婷婷六月丁,欧美悠悠久久黄片,色综合天天综合网国产成人网,91破解版在线|亚洲

中國企業(yè)報集團主管主辦

中國企業(yè)信息交流平臺

微博 微信

大模型路線之爭MoE獲勝,國內(nèi)MoE誰最強?

2024-04-22 10:15 來源:中國企業(yè)網(wǎng) 次閱讀
 
大模型路線之爭MoE獲勝,國內(nèi)MoE誰最強?

2024042123323413.001.jpeg

英偉達暴跌了。

4月19日一開盤,英偉達遭遇2024年以來最大規(guī)模的股票恐慌性拋售,最終出現(xiàn)股價下跌10%,市值消失1.5萬億人民幣的悲劇。

更關(guān)鍵的是,海外部分AI玩家燒不起錢了,尤其是那些基于llama 2和3開源模型的公司,用的transformer架構(gòu),成本太貴。再加上一些悄悄研發(fā)自己大模型的廠商(比如蘋果)也開始撤出。這些信息的疊加,引發(fā)機構(gòu)投資者對完全依靠資源堆積的大模型發(fā)展模式感到擔(dān)憂,最終導(dǎo)致英偉達股價下跌。

富國銀行分析師萊恩.克里對外表示,英偉達出現(xiàn)恐慌式拋售不奇怪,“資本市場在進入2024年后,其實一直對AI硬件股票小心謹慎。原因在于大家覺得一方面他們估值過高,另一方面其實是目前主流的幾家大模型,都沒有找到可持續(xù)的變現(xiàn)途徑,支撐不起龐大且長期不變的硬件投入?!?/p>

實際上,這已經(jīng)成為資本市場的共同認知。所以,對于這幾家AI硬件龍頭股票,機構(gòu)投資者在進入2024年后,都視作是一場“擊鼓傳花”游戲。

當(dāng)然,資本也開始對新的技術(shù)模式展開探討,比如MoE專家網(wǎng)絡(luò)以及去二次方大模型架構(gòu)等等。尤其是MoE,因為技術(shù)的可持續(xù)性,被認為是下階段大模型發(fā)展破局的突破口,資金開始瘋狂進入。

于是,行業(yè)產(chǎn)生一系列問題需要回答:這到底是怎么發(fā)生的?大模型還有未來嗎?未來又在哪里?MoE是什么?誰能代表MoE扛起AI大旗?

1.巨頭的無奈

為什么大家開始認為以英偉達算力芯片為核心的AI硬件,變成擊鼓傳花的游戲?原因就在于英偉達每升級一個版本,其相關(guān)芯片的價格就會暴漲幾倍。

英偉達A100算力芯片在中國市場備受矚目,2021年上市后大規(guī)模出口中國,成為AI和大模型應(yīng)用的基礎(chǔ)算力。初期定價為3000-5000美元,隨后價格上漲至8000美元。

2022年底,美國禁令限制向中國出口A100,導(dǎo)致定制版A800價格飆升至10000美元以上。英偉達隨后發(fā)布的H100芯片起售價接近2萬美元,而GB200芯片組起售價在3-4萬美元。

在國外社交媒體上,有人戲稱英偉達“技術(shù)進步以漲價為本”。

其實英偉達有自己的無奈,中國市場頂峰時曾占英偉達1/4的份額,目前因為政治因素已經(jīng)下降到不到4%,這中間巨大的市場缺失不得不通過新產(chǎn)品漲價來彌補。

但不斷上漲的算力芯片價格,也讓那些開發(fā)大模型的互聯(lián)網(wǎng)巨頭開始吃不消。

2024042123323413.003.png

當(dāng)下最主要的這些互聯(lián)網(wǎng)巨頭推出的模型,大部分使用的都是transformer模型架構(gòu)。而這個架構(gòu)是2017年由Google團隊在論文《Attention Is All You Need》中提出以來,已成為自然語言處理(NLP)領(lǐng)域的核心技術(shù)之一。

這個架構(gòu)有很多好處,但最大的缺點就是必須不斷投入大量的運算資源,以支撐模型的訓(xùn)練和對外提供服務(wù)。紐約時報曾爆料,OpenAI支撐ChatGPT對外提供服務(wù),需要使用3萬塊英偉達A100的算卡,而且每天的耗電超過50萬度。

想想都覺得可怕。

英偉達一直在尋求解決方案以降低互聯(lián)網(wǎng)巨頭使用Transformer模型訓(xùn)練和推理的成本。黃仁勛表示,英偉達的芯片進化正是為此目的。隨著算力芯片性能的提升,成本有望進一步下降。

問題是由于巨頭間的激烈競爭,模型訓(xùn)練和推理能力需持續(xù)增強,這推動了英偉達最新算卡出貨量的大幅增長。

另一方面,無論是引領(lǐng)潮流的OpenAI與ChatGPT,還是Meta、谷歌、馬斯克推出的開源大模型,都未找到穩(wěn)定的商業(yè)化道路。

OpenAI在推出GPT4之前,據(jù)說每月收入不足成本的1/3。面臨商業(yè)模式不清晰、收入無法覆蓋成本的困境,以及英偉達年年漲價的事實,互聯(lián)網(wǎng)巨頭管理層開始反思這種以資源投入和算卡堆砌推動模型發(fā)展的模式。

2.MoE成為解題關(guān)鍵

對于這些推出大模型服務(wù)的互聯(lián)網(wǎng)科技巨頭來說,想解決英偉達算卡漲價帶來的成本支出不可持續(xù)問題,有兩個解決方向。

一個是自研算力芯片。近年來,多家科技巨頭如微軟、OpenAI、Meta、馬斯克,以及谷歌和亞馬遜等,均宣布了自研芯片計劃或已制作出樣片。然而,自研算力芯片需要進行后期對接效果調(diào)整,并擺脫英偉達的CUDA重新制作中間層,這導(dǎo)致時間成本難以估量。

因此,另一個解題方向就被他們異常重視,希望通過改變模型底層架構(gòu),換一種不耗費那么多資源就可以達到很好訓(xùn)練和推理效果的模型架構(gòu),來開發(fā)自己的大模型。

而在硅谷,確實有這么一種模型架構(gòu)在這兩年被人不斷提起,甚至在很多中小模型開發(fā)方的實踐中,得到了印證。

這就是MoE。

其實在更早一些的時間,MoE一直被應(yīng)用于統(tǒng)計學(xué)的研究中。這是一種機器學(xué)習(xí)模型架構(gòu),它將多個專家(Experts)模型組合起來,共同解決一個問題。每個專家都是一個小型的神經(jīng)網(wǎng)絡(luò),它們各自擅長處理任務(wù)的某一方面。當(dāng)MoE模型接到一個任務(wù)時,它會將任務(wù)分配給最合適的專家,最后通過一個門控網(wǎng)絡(luò)匯總專家的輸出,給出最終答案。

2024042123323413.005.png

這就像一家公司有多個部門,在做決策的時候,公司的CEO可以聽從市場部、生產(chǎn)部、策劃部甚至財務(wù)部相關(guān)專業(yè)領(lǐng)導(dǎo)的建議,最終產(chǎn)生最優(yōu)的決策。

由于這種架構(gòu)運營的核心,實際上是將大任務(wù)分成小任務(wù),日常的訓(xùn)練也是針對于各個小神經(jīng)網(wǎng)絡(luò)的專家進行,所以他所需要的推理和訓(xùn)練資源遠遠低于整體運算的transformer架構(gòu)。

關(guān)鍵在于這種架構(gòu)對技術(shù)的理解和使用,切分任務(wù)和找到關(guān)鍵神經(jīng)細分網(wǎng)絡(luò)并訓(xùn)練專家模型是該架構(gòu)成功的核心,這需要強大的技術(shù)實力。相較于不斷增長的硬件投入,這種軟性投入對大模型開發(fā)者來說更可接受。此外,MoE架構(gòu)的特點有利于新興大模型企業(yè)的發(fā)展壯大,因為它們可以通過技術(shù)理解和發(fā)展來突破現(xiàn)有巨頭的硬件護城河。

正因為這樣的一個特點,MoE開始成為大模型破局的關(guān)鍵。

3.國內(nèi)其實一點也不慢

MoE作為統(tǒng)計學(xué)架構(gòu)早在1997年就被提出,真正落實到自然語音學(xué)習(xí)是2018年以后的事情。

但由于這個架構(gòu)有幾個比較困難的訓(xùn)練難點,比如結(jié)果可能擬合,這意味著模型最終結(jié)果可能只是因為特定因素影響造成而無法廣泛使用;再比如最后門框網(wǎng)絡(luò)的采用過程中,有可能偏愛幾個細分專家模型,而不能從整體的專家模型結(jié)果中獲得結(jié)論等等。

所以,哪怕谷歌在研究中有了相應(yīng)進展,MoE相對于Transformer架構(gòu),在模型發(fā)展的廣泛性上遠遠不如。

真正讓MoE模型架構(gòu)照進現(xiàn)實的,是一篇2023年6月名為《MoE Meets Instruction Tuning》的論文。這篇論文提出了幾種假設(shè)和相應(yīng)的解決方案,從技術(shù)可行性上解決了MoE非常難以控制的特點。

MoE模型架構(gòu)逐漸受到關(guān)注,成為許多新興模型研發(fā)方的選擇。2023年12月8日,Mistra AI在X平臺發(fā)布了首個開源MoE模型,引起行業(yè)震動。與此同時,國內(nèi)模型研發(fā)團隊也迅速跟進,MiniMax宣布將于2024年年初發(fā)布基于MoE架構(gòu)的大模型,新旦智能、元象科技等也相繼加入,推動了MoE在國內(nèi)的快速發(fā)展。

而業(yè)內(nèi)普遍認同的MoE在中國發(fā)展標(biāo)志事件,是今年2月6日,昆侖萬維正式發(fā)布新版MoE大語言模型“天工2.0”與新版“天工AI智能助手”APP。這是國內(nèi)首個搭載MoE架構(gòu)并面向全體C端用戶免費開放的千億級參數(shù)大語言模型AI應(yīng)用。

其實,昆侖萬維是國內(nèi)最早投入精力研究MoE模型架構(gòu)的平臺公司。

這種一手抓技術(shù),一手抓應(yīng)用的模式,對于MoE模型架構(gòu)在中國的普及才是最有意義的。畢竟任何一種新的技術(shù),無論有多炸裂,只有大量的應(yīng)用才能對于產(chǎn)業(yè),以及人們的生活帶來新的價值。

而很多時候有新價值產(chǎn)生,是衡量一個技術(shù)能否持續(xù)發(fā)展的關(guān)鍵。

2024年4月17日,昆侖萬維重磅宣布,“天工3.0”正式開啟公測。

“天工3.0”是采用4千億級參數(shù)MoE混合專家模型的全球領(lǐng)先模型之一,并將開源。行業(yè)內(nèi)現(xiàn)在一致認為,在國內(nèi)MoE模型的排名里,昆侖萬維的天工是第一位,字節(jié)豆包第二, Minimax第三。

點贊()
上一條:數(shù)字經(jīng)濟如何助力經(jīng)濟增長2024-04-21
下一條:人工智能熱度攀升市場廣闊2024-04-22

相關(guān)稿件

國內(nèi)企業(yè)競速“垂直大模型”新賽道 2023-07-27
大模型,冷靜! 2023-07-25
上海打造大模型產(chǎn)業(yè)高密度創(chuàng)新“苗圃” 2024-04-03
AI大模型助力金融高質(zhì)量發(fā)展!馬上消費“天鏡大模型”問世 2023-08-30
王小川:大模型的機會不一定落在大廠里 2023-08-09
國務(wù)院國有資產(chǎn)管理委員會 中國企業(yè)聯(lián)合會 中國企業(yè)報 中國社會經(jīng)濟網(wǎng) 中國國際電子商務(wù)網(wǎng) 新浪財經(jīng) 鳳凰財經(jīng) 中國報告基地 企業(yè)社會責(zé)任中國網(wǎng) 杭州網(wǎng) 中國產(chǎn)經(jīng)新聞網(wǎng) 環(huán)球企業(yè)家 華北新聞網(wǎng) 和諧中國網(wǎng) 天機網(wǎng) 中貿(mào)網(wǎng) 湖南經(jīng)濟新聞網(wǎng) 翼牛網(wǎng) 東莞二手房 中國經(jīng)濟網(wǎng) 中國企業(yè)網(wǎng)黃金展位頻道 硅谷網(wǎng) 東方經(jīng)濟網(wǎng) 華訊財經(jīng) 網(wǎng)站目錄 全景網(wǎng) 中南網(wǎng) 美通社 大佳網(wǎng) 火爆網(wǎng) 跨考研招網(wǎng) 當(dāng)代金融家雜志 借貸撮合網(wǎng) 大公財經(jīng) 誠搜網(wǎng) 中國鋼鐵現(xiàn)貨網(wǎng) 證券之星 融易在線 2014世界杯 中華魂網(wǎng) 納稅人俱樂部 慧業(yè)網(wǎng) 商界網(wǎng) 品牌家 中國國資報道 金融界 中國農(nóng)業(yè)新聞網(wǎng) 中國招商聯(lián)盟 和訊股票 經(jīng)濟網(wǎng) 中國數(shù)據(jù)分析行業(yè)網(wǎng) 中國報道網(wǎng) 九州新聞網(wǎng) 投資界 北京科技創(chuàng)新企業(yè)誠信聯(lián)盟網(wǎng) 中國白銀網(wǎng) 炣燃科技 中企媒資網(wǎng) 中國石油化工集團 中國保利集團公司 東風(fēng)汽車公司 中國化工集團公司 中國電信集團公司 華為技術(shù)有限公司 廈門銀鷺食品有限公司 中國恒天集團有限公司 濱州東方地毯集團有限公司 大唐電信科技股份有限公司 中國誠通控股集團有限公司 喜來健醫(yī)療器械有限公司 中國能源建設(shè)股份有限公司 內(nèi)蒙古伊利實業(yè)集團股份有限公司 中國移動通信集團公司 中國化工集團公司 貴州茅臺酒股份有限公司