MosaicML 發布了名為 MPT-7B-8K 的7B 參數開源語言模型(LLM),支持8K 的上下文長度。與以前的模型相比,MPT-7B-8K LLM 在摘要和回答任務方面展現出卓越的能力。
據該公司稱,該模型在 MosaicML 平臺上進行訓練,并從 MPT-7B 檢查點開始進行預訓練過程。預訓練階段使用Nvidia ***進行,另外在256個 ***上進行了三天的訓練,包含了令人印象深刻的5000億個token數據。
MosaicML 發布的 MPT-30B 在人工智能社區引起了轟動,MPT-30B 是一種開源且商業許可的基于解碼器的 LLM。該公司聲稱其比GPT-3-175B更強大,參數只有GPT-3的17%,相當于300億。
MPT-30B 在各種任務中的性能都超過了 GPT-3,并且證明比類似大小的模型訓練效率更高。例如,LLaMA-30B 所需的 FLOPs 預算比 MPT-30B 大約高1.44倍,而 Falcon-40B 的 FLOPs 預算比 MPT-30B 高1.27倍。
MosaicML 聲稱,與之前發布的所有型號相比,新型號 MPT-7B-8K 在文檔摘要和問答任務方面表現出卓越的熟練程度。該模型專門針對加速訓練和推理進行了優化,以獲得更快的結果。此外,它還允許在 MosaicML 平臺內微調特定領域的數據。
該公司還宣布提供 MPT-7B-8k 的商用版本,強調其在包含1.5萬億token的廣泛數據集上的出色訓練,超越了 XGen、LLaMA、Pythia、OpenLLaMA 和 StableLM 等類似模型。
MosaicML 聲稱,通過使用 FlashAttention 和 FasterTransformer,該模型在快速訓練和推理方面表現出色,同時受益于llm-foundry 存儲庫提供的開源訓練代碼 。
該公司發布了三種版本的模型:
MPT-7B-8k-Base: 這種解碼器式 Transformer 基于 MPT-7B 進行預訓練,并進一步優化,擴展序列長度為8k。它接受了5000億個令牌的額外訓練,產生了包含文本和代碼的1.5萬億個token的大量語料庫。
MPT-7B-8k-Instruct: 該模型專為長格式教學任務而設計,包括總結和問答。它是通過使用精心策劃的數據集對 MPT-7B-8k 進行微調而制作的。
MPT-7B-8k-Chat: 此變體充當類似聊天機器人的模型,專注于對話生成。它是通過使用約15億個聊天數據token對 MPT-7B-8k 進行微調而創建的。
Mosaic 聲稱,MPT-7B-8k 模型表現出與當前其他具有8k 上下文長度的開源模型相當或更好的性能,該公司的上下文學習評估工具證實了這 一點。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。