在這場爭奪AIGC話語權與領導力的追逐戰里,谷歌與微軟爭相拼臂力秀肌肉。Gemini 1.5 Pro的橫空出世,將多模態大模型的標準提到了一個新高度。
一、極致性能背后的模型架構
當地時間2月15日,Alphabet與Google公司首席執行官Sundar Pichai攜首席科學家Jeff Dean等眾高管在X平臺發布了多模態模型Gemini 1.5 Pro。這是繼2月7日的Gemini 1.0 Ultra后,谷歌在多模態大模型賽道的又一力作。

圖源:X平臺Alphabet與Google公司首席科學家Jeff Dean推文
“巧合”的是,Open AI在Gemini 1.5 Pro官宣兩小時發布Sora這枚重磅炸彈,頗有“一較高下”的勁頭。只是由于當下大家的視線焦點集中在視頻領域,Sora 又是 OpenAI 首次發布文生視頻模型,所以無奈被搶了頭條。

圖源:微博評論
Gemini 1.5 Pro建立在谷歌對Transformer和MoE架構的領先研究之上。傳統Transformer充當一個大型神經網絡,而 MoE(Mixture of Experts 混合專家模型)模型則分為更小的“專家”神經網絡。在這一結構之下,通過將模型參數劃分為多個組別而實現的計算的稀疏化,即每次執行推理任務時,根據對輸入類型的判斷,MoE模型會通過門控網絡選擇性地激活神經網絡中最契合指令的專家參與計算。
這種專業化、模塊化的劃分可以在提升預訓練計算效率的同時提升大模型處理復雜任務的性能,更快地學習復雜任務的同時保證準確性。與稠密模型相比,MoE模型的預訓練速度更快;使用MoE 層代替transformer 中的前饋網絡(FFN)層。因而對的采用可以彌補Transformer架構運算效率的問題。
在Switch-Transformer、M4等領域,Google 一直是深度學習 MoE 技術的早期采用者。目前大部分大語言模型開源和學術工作都沒有使用 MoE 架構。有消息稱,GPT-4也采用了由 8 個專家模型組成的集成系統。2023年12月8日Mistral AI 發布的 Mixtral 8x7B 同樣采用了這種架構。就國內的大模型而言,只有Minimax采用了MoE架構。
二、擴容的上下文窗口意味著什么?
雖然Gemini 1.5 Pro是 Gemini 1.5 系列的初代版本,但初代便表現不俗。擴大上下文窗口后的高水平性能是Gemini 1.5 Pro的一大亮點。
多模態大模型卷到今日,上下文窗口容量已然成為提升其理解能力的關鍵掣肘。此前的SOTA模型將上下文窗口容量卷到了20萬token。而谷歌的Gemini 1.5 Pro直接將上下文窗口容量提到了100萬token(極限為1000萬token),遠遠超出了 Gemini 1.0 最初的 32,000 個 token,創下了最長上下文窗口的紀錄。
對于文本處理,Gemini 1.5 Pro在處理高達530,000 token的文本時,能夠實現100%的檢索完整性,在處理1,000,000 token的文本時達到99.7%的檢索完整性。甚至在處理高達10,000,000 token的文本時,檢索準確性仍然高達99.2%。在音頻處理方面,Gemini 1.5 Pro能夠在大約11小時的音頻資料中,100%成功檢索到各種隱藏的音頻片段。在視頻處理方面,Gemini 1.5 Pro能夠在大約3小時的視頻內容中,100%成功檢索到各種隱藏的視覺元素。

圖源:Gemini 1.5 Pro官方測試數據
Gemini 1.5 Pro大大超過Gemini 1.0 Pro,在27項基準(共31項)上表現更好,特別是在數學、科學和推理(+28.9%),多語言(+22.3%),視頻理解(+11.2%)和代碼(+8.9%)等領域。即使是對比Gemini 系列的高端產品Gemini 1.0 Ultra, Gemini 1.5 Pro也在超過一半的基準(16/31)上表現更好,特別是在文本基準(10/13)和許多視覺基準(6/13)上。在 NIAH測試中,Gemini 1.5 Pro能夠在長達100萬token的文本塊中,以99%的準確率找出隱藏有特定信息的文本片段。

圖源:Gemini 1.5 Pro官方測試數據
這個上下文長度使Gemini 1.5 Pro可以自如地處理22小時的錄音、超過十倍的完整的1440頁的書(587,287字)“戰爭與和平”,以及四萬多行代碼、三小時的視頻。
三、機器腦有多好使
除高效架構和強上下文處理能力之外,Gemini 1.5 Pro的優秀品質還在于“情境學習”技能,它可以根據長提示,從以前從未見過的信息中學習新技能,而不需要額外的微調。強學習能力、信息檢索與數據分析能力使得在知識海洋中“海底撈針”由想象映照進了現實。
根據官方發布的測試報告,當給定卡拉曼語(一種全球使用人數不足 200 人的語言)的語法手冊時(500頁的語言文獻,一本詞典和400個平行句子),Gemini 1.5 Pro模型可以學習將英語翻譯成卡拉曼語,其水平與學習相同內容的人相似。

圖源:Gemini 1.5 Pro官方演示樣本
當被一個45分鐘的Buster基頓電影“小神探夏洛克”(1924年)(2674幀,1FPS,684k token)提示時,Gemini 1.5 Pro可以從其中的特定幀中檢索和提取文本信息,并提供相應的時間戳。此外還可以從一張手繪素描中識別電影中的一個場景。與側重于衡量模型檢索能力的特定事實或細節的任務不同,這些問題通常需要了解跨越大量文本的信息片段之間的關系。

圖源:Gemini 1.5 Pro官方演示樣本
Gemini 1.5 Pro在處理長達超過100,000行的代碼時,還具備極強的問題解決能力。面對龐大的代碼量,它能夠深入分析各個示例,提出實用的修改建議,還能詳細解釋代碼的條例框架。給出了整個746,152個令牌JAX代碼庫,Gemini 1.5 Pro可以識別核心自動微分方法的具體位置。開發者可以直接上傳新的代碼庫,利用這個模型快速熟悉、理解代碼結構。

圖源:Gemini 1.5 Pro官方演示樣本
正如NVIDIA高級科學家Jim Fan所言,Gemini 1.5 Pro意味著LLM能力的大幅躍升,這對于做個體戶的小公司而言可謂一騎絕塵。
在人機協同的探索過程中,單一的文本交互很難滿足多場景多樣態的內容生產訴求。多模態的信息處理與生成能力顯然是技術變革的發力點。紐約大學計算機助理教授謝賽寧說,人才第一,數據第二,算力第三,其他都沒有什么是不可替代的。Gemini 1.5 Pro是谷歌與巔峰對決的又一利器,或許AGI時代正加快到來。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。