11月27日,浪潮電子信息產(chǎn)業(yè)股份有限公司在京發(fā)布“源2.0”基礎(chǔ)大模型,并宣布全面開(kāi)源?!霸?.0”包括102B(1026億)、51B(518億)、2B(21億)三種參數(shù)規(guī)模的模型,在編程、推理、邏輯等方面展示出了先進(jìn)的能力。
基礎(chǔ)大模型的關(guān)鍵能力是大模型行業(yè)和應(yīng)用落地能力表現(xiàn)的核心支撐。在算法、數(shù)據(jù)和算力等方面,“源2.0”提出了新的改進(jìn)方法并獲得了能力的提升。
“源2.0”能力測(cè)評(píng)數(shù)據(jù)(浪潮信息供圖)
如在算法方面,“源2.0”提出并采用了一種新型的注意力算法結(jié)構(gòu)“局部注意力過(guò)濾增強(qiáng)機(jī)制”,讓大模型在使用更少的訓(xùn)練算力、更小的模型參數(shù)的情況下,同樣可以獲得更高的模型精度和涌現(xiàn)能力;數(shù)據(jù)方面,降低了互聯(lián)網(wǎng)語(yǔ)料內(nèi)容占比,通過(guò)使用中英文書籍、百科、論文等資料,結(jié)合高效的數(shù)據(jù)清洗流程,為大模型訓(xùn)練提供了高質(zhì)量的學(xué)科專業(yè)數(shù)據(jù)集和邏輯推理數(shù)據(jù)集。
作為千億級(jí)基礎(chǔ)大模型,“源2.0”在業(yè)界公開(kāi)的評(píng)測(cè)上進(jìn)行了代碼生成、數(shù)學(xué)問(wèn)題求解、事實(shí)問(wèn)答方面的能力測(cè)試,測(cè)試結(jié)果顯示,“源2.0”在多項(xiàng)模型評(píng)測(cè)中展示出了較為先進(jìn)的能力表現(xiàn)。
“源2.0”采用全面開(kāi)源策略,全系列模型參數(shù)和代碼均可免費(fèi)下載使用?!按竽P偷拈_(kāi)源開(kāi)放可以使不同模型之間共享底層數(shù)據(jù)、算法和代碼,有利于打破大模型孤島,促進(jìn)模型之間協(xié)作和更新迭代;同時(shí),有利于以更豐富的高質(zhì)量行業(yè)數(shù)據(jù)反哺模型,打造更強(qiáng)的技術(shù)產(chǎn)品,加速商業(yè)化進(jìn)程。目前,業(yè)內(nèi)仍沒(méi)有完全開(kāi)源可商用的千億大模型,我們希望‘源2.0’能夠?yàn)閲?guó)內(nèi)外開(kāi)發(fā)者、研究機(jī)構(gòu)、科技企業(yè)提供堅(jiān)實(shí)的底座和成長(zhǎng)的土壤?!崩顺毙畔⒏呒?jí)副總裁劉軍說(shuō)。
浪潮信息長(zhǎng)期致力于人工智能算力基礎(chǔ)設(shè)施產(chǎn)品的研發(fā),2021年在業(yè)界率先推出了中文AI巨量模型“源1.0”,參數(shù)規(guī)模達(dá)2457億,落地南京智算中心。此次發(fā)布的“源2.0”較前一版本實(shí)現(xiàn)了能力的全面提升。(記者溫競(jìng)?cè)A)
相關(guān)稿件