昨夜,Meta宣布推出迄今為止最強大的開源模型——Llama 3.1 405B,同時發(fā)布了全新升級的Llama 3.1 70B和8B模型。
Llama 3.1 405B支持上下文長度為128K Tokens,在基于15萬億個Tokens、超1.6萬個*** GPU上進行訓練,這也是Meta有史以來第一個以這種規(guī)模進行訓練的Llama模型。
研究人員基于超150個基準測試集的評測結(jié)果顯示,Llama 3.1 405B可與GPT-4o、Claude 3.5 Sonnet和Gemini Ultra等業(yè)界頭部模型媲美。
除了性能強勁外,Meta創(chuàng)始人兼CEO馬克·扎克伯格還親自發(fā)文助陣,他稱,除了比閉源模型成本和性能更優(yōu),405B開源模型將成為企業(yè)微調(diào)和訓練較小模型的最佳選擇。
Meta AI宣布接入Llama 3.1 405B,并推出AI圖片編輯、AI編程、VR/AR設備智能助手等新功能。扎克伯格預測,Meta AI助手使用率幾個月后將超越ChatGPT。
Meta的開源生態(tài)圈也已準備就緒。Meta與超過25個合作伙伴將提供Llama 3.1模型,包括亞馬遜AWS、NVIDIA、Databricks、Groq、戴爾、微軟Azure和谷歌云等。
迄今為止,所有Llama模型版本的總下載量已經(jīng)超過3億次,與主流閉源模型能力相當?shù)腖lama 3.1模型發(fā)布或許意味著,Meta要講的開源模型故事剛剛開始……
一、405B開源模型對標GPT-4o,25家合作伙伴已就緒
Meta評估了超150個基準數(shù)據(jù)集的性能,Llama 3.1 405B在常識、可操作性、數(shù)學、工具使用和多語言翻譯等一系列任務中,可與GPT-4o、Claude 3.5 Sonnet和Gemini Ultra相媲美。
在現(xiàn)實場景中,Llama 3.1 405B進行了與人工評估的比較,其總體表現(xiàn)優(yōu)于GPT-4o和Claude 3.5 Sonnet。
升級后的Llama 3.1 8B和70B模型,相比于同樣參數(shù)大小的模型性能表現(xiàn)也更好,這些較小參數(shù)的模型支持相同的128K Tokens上下文窗口、多語言、改進的推理和最先進的工具使用,以支持實現(xiàn)更高級應用。
Meta更新了許可證,允許開發(fā)人員首次使用包括405B參數(shù)規(guī)模的Llama模型的輸出來改進其他模型。
同時,Meta的開源生態(tài)進一步擴張,已經(jīng)有超過25個企業(yè)推出了Llama 3.1新模型。
其中,亞馬遜云科技、Databricks和英偉達正在推出全套服務,以支持開發(fā)人員微調(diào)和訓練自己的模型。AI芯片創(chuàng)企Groq等為Meta此次發(fā)布的所有新模型構(gòu)建了低延遲、低成本的推理服務。
同時這些模型將在亞馬遜云科技、微軟Azure、谷歌云、Oracle等主要云平臺上提供服務。
Scale AI、戴爾、德勤等公司已準備好幫助企業(yè)采用Llama模型并使用自己的數(shù)據(jù)訓練定制模型。
Llama 3.1 405B不僅是最強開源模型,還有望成為最強模型,開源和閉源的距離再次大大縮短。
二、完整優(yōu)化訓練堆棧,專注于讓模型可擴展
為了能基于15萬億個Tokens進行模型訓練,同時在合理時間內(nèi)實現(xiàn)研究人員想要的效果,Meta對訓練堆棧進行了完整優(yōu)化。
在解決上述難題方面,Meta選擇專注于保持模型開發(fā)過程可擴展并更直接的策略:
1、研究人員選擇了標準僅解碼器的Transformer模型架構(gòu)進行小幅調(diào)整,而不是采用MoE混合專家模型,可以最大限度提高訓練穩(wěn)定性。
2、研究人員采用了迭代的后訓練程序,每輪都使用監(jiān)督微調(diào)和直接偏好優(yōu)化。這使模型能夠為每一輪創(chuàng)建最高質(zhì)量的合成數(shù)據(jù),并提高每項能力的性能。
與此前Llama系列模型相比,Meta改進了用于訓練前和訓練后的數(shù)據(jù)的數(shù)量和質(zhì)量。這些改進包括為訓練前數(shù)據(jù)開發(fā)更仔細的預處理和管理pipelines、開發(fā)更嚴格的質(zhì)量保證,以及訓練后數(shù)據(jù)的過濾方法。
正如大語言模型的Scaling Laws(規(guī)模定律)所預期的那樣,Meta新旗艦模型優(yōu)于使用相同策略訓練的較小模型。Meta還使用405B參數(shù)的模型提高了其較小模型的訓練質(zhì)量。
同時,為了支持405B參數(shù)模型的大規(guī)模推理,研究人員將模型從BF16到FP8進行了量化,有效降低了所需的計算要求,并允許模型在單個服務器節(jié)點內(nèi)運行。
在指令和聊天微調(diào)方面,研究人員通過在預訓練模型之上進行幾輪對齊以生成最終模型,每一輪都涉及監(jiān)督微調(diào)(SFT)、拒絕采樣(RS)和直接偏好優(yōu)化(DPO),其使用合成數(shù)據(jù)生成來生成絕大多數(shù)SFT示例以生成所有功能中更高質(zhì)量的合成數(shù)據(jù)。
此外,Meta采取了多種數(shù)據(jù)處理技術(shù)以將這些合成數(shù)據(jù)過濾到最高質(zhì)量,這使新模型能夠跨功能擴展微調(diào)數(shù)據(jù)量。
在數(shù)據(jù)方面,研究人員還對數(shù)據(jù)進行了仔細平衡以生成具有所有功能的高質(zhì)量模型。例如,在短上下文基準上保證模型質(zhì)量,使其能擴展到128K上下文長度。
此外,Meta還宣布推出一個整體的Llama系統(tǒng)。該系統(tǒng)除了涵蓋Llama模型,還涉及多個組件協(xié)調(diào)及外部工具調(diào)用,以此助開發(fā)者開發(fā)比基礎模型更強的定制產(chǎn)品。
Llama系統(tǒng)將涵蓋一系列新組件,包括開源新的安全工具如Llama Guard 3(多語言安全模型)和Prompt Guard(即時注入過濾器)。為了讓分散的組件聯(lián)接起來,Meta還發(fā)布了對Llama Stack API的評論請求,這是一個標準接口,以此第三方項目更輕松地利用Llama模型。
對于普通開發(fā)者來說,使用405B規(guī)模的模型仍是一項挑戰(zhàn),這需要大量的計算資源和專業(yè)知識。
基于Llama系統(tǒng),生成式AI開發(fā)不僅僅是提示模型,每個人都應該可以利用405B模型完成更多的任務,包括實時和批量推理、監(jiān)督微調(diào)、針對特定應用評估模型、持續(xù)預訓練、檢索增強生成(RAG)、函數(shù)調(diào)用、合成數(shù)據(jù)生成等。
這是Meta迄今為止推出的最大模型,未來將推出更多設備友好的尺寸、更多模式以及在Agent層面的更新。
三、405B大模型爆改Meta AI,Quest智能語音助手升級
現(xiàn)在,Meta旗下的多個終端,比如WhatsApp和Meta AI聊天機器人中都開始使用Llama 3.1 405B。
Meta AI目前已支持七種新語言,本次Meta推出一批新的Meta AI創(chuàng)意工具,主要聚焦視覺生成、數(shù)學和編碼等領域。
首先看看視覺生成,Meta AI推出“想象我(Imagine Me)”圖像生成提示功能,支持用戶在Meta AI聊天中輸入“想象我”并添加提示,例如“想象我是皇室成員”或“想象我在一幅超現(xiàn)實主義繪畫中”,就可以生成圖像并與朋友和家人分享。
Meta AI將上線“使用AI編輯(Edit With AI)”功能,用戶可以通過點擊鼠標輕松添加或刪除對象,或更改和編輯它們 ,并保持圖像的其余部分不變,比如將“將貓改為柯基犬”。Meta AI還將支持將新制作的圖片添加到Facebook帖子中,以及Instagram、Messenger和WhatsApp等社交平臺上。
在數(shù)學和編程方面,用戶可以通過分步解釋和反饋獲得數(shù)學作業(yè)方面的幫助,通過調(diào)試支持和優(yōu)化建議更快地編寫代碼,并通過專家指導掌握復雜的技術(shù)和科學概念。
用戶可以結(jié)合Meta AI的編碼專業(yè)知識和圖像生成功能,從頭開始構(gòu)建新游戲或?qū)?jīng)典游戲進行全新演繹。只需幾分鐘即可將奇思妙想變成現(xiàn)實,甚至讓用戶直接預覽游戲。
值得一提的是,Meta AI也適用于雷朋Meta智能眼鏡,并將于下個月在美國和加拿大的Meta Quest上以實驗模式推出。Meta AI將取代Quest上當前的語音命令,讓用戶可以免提控制耳機、獲取問題的答案、隨時了解實時信息、查看天氣等。
用戶還可以將Meta AI與在頭顯中看到的視圖結(jié)合使用,比如詢問其在物理環(huán)境中看到的事物相關(guān)情況。
四、扎克伯格公開信:開源對開發(fā)者、Meta、世界都更有利
Llama 3.1系列剛發(fā)布,扎克伯格的長篇博客同時上線官網(wǎng),使得開閉源模型之間的火藥味更濃了。
一開始,扎克伯格就提到開源模型與閉源模型之間的差距正在逐漸縮小。去年,Llama 2僅與上一代最先進的閉源模型相當。今年,Llama 3可與最先進的模型媲美,并在某些領域處于領先地位。
從明年開始,他預計Llama模型將成為業(yè)內(nèi)最先進的模型。并且當下Llama系列模型已經(jīng)在開放性、可修改性和成本效益方面處于領先地位。
在博客中,他直指閉源模型,回答了為什么開源AI對開發(fā)者有利、為什么開源AI對Meta有利、為什么開源AI對世界有利這三大問題。
首先,為什么開源AI對開發(fā)者有利?
他認為開發(fā)者需要訓練、微調(diào)自己的模型,以滿足各自的特定需求;開發(fā)者需要掌控自己的命運,而不是被一家封閉的供應商所束縛;開發(fā)者需要保護自己的數(shù)據(jù);開發(fā)者需要高效且運行成本低廉的模型;開發(fā)者希望投資于將成為長期標準的生態(tài)系統(tǒng)。
開源AI對Meta的好處在于,Meta的商業(yè)模式是為人們打造最佳體驗和服務,要做到這一點,他認為必須確保其始終能夠使用最佳技術(shù),并且不會陷入競爭對手的封閉生態(tài)系統(tǒng)。
同時,開源AI會促使Meta將Llama發(fā)展為一個完整的生態(tài)系統(tǒng),并有成為行業(yè)標準的潛力。
他還提到,Meta與閉源模型玩家之間的關(guān)鍵區(qū)別之一是,出售AI模型訪問權(quán)限不是Meta的商業(yè)模式,這意味著開源不會削減其收入、可持續(xù)性發(fā)展或繼續(xù)投資研究的能力。
最后就是Meta擁有悠久的開源項目和成功歷史。
關(guān)于開源AI模型安全性的爭論,扎克伯格的觀點是開源AI將比其他選擇更安全。他認為開源將確保全世界更多的人能夠享受AI帶來的好處和機會,權(quán)力不會集中在少數(shù)公司手中,并且該技術(shù)可以更均勻、更安全地應用于整個社會。
結(jié)語:Meta再度落子,大模型開閉源之爭生變
開閉源大模型之爭仍在繼續(xù)……
從Meta Llama 3.1系列模型的發(fā)布,可以看出開閉源大模型之間的差距正在縮小,且大有齊頭并進、互相趕超之勢。作為開源大模型陣營的忠實擁躉者,同時也是技術(shù)創(chuàng)新的先鋒,Meta從Llama系列模型發(fā)布之初,就堅定要打造自己的開源生態(tài)圈。同時,相比于此前的Llama模型,此次新模型發(fā)布Meta還將在內(nèi)部組建團隊,讓盡可能多的開發(fā)人員和合作伙伴使用Llama系列。
Meta再度落子,使得開閉源模型之爭的定論更加撲朔迷離。但歸根結(jié)底,在實際應用中,很多企業(yè)和開發(fā)者會根據(jù)具體需求和情況選擇使用開源或閉源模型,因此模型的具體能力、適用的真實場景等,還需要時間來證明。
文章內(nèi)容僅供閱讀,不構(gòu)成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
海報生成中...
海藝AI的模型系統(tǒng)在國際市場上廣受好評,目前站內(nèi)累計模型數(shù)超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創(chuàng)作風格。
9月9日,國際權(quán)威市場調(diào)研機構(gòu)英富曼(Omdia)發(fā)布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。
IDC今日發(fā)布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。