如果把時鐘撥到2023年底,當我們回過頭來看今年科技界最激動人心的大事件,ChatGPT的橫空出世無疑會占據一席之地。就像幾年前大家被谷歌AlphaGo點燃對人工智能的熱情一樣,人們對ChatGPT的熱情只多不少。
并且,AlphaGo其實只是虛晃一槍,并沒能帶來很多的實際應用,而ChatGPT不一樣,商業應用速度異常迅速,超過了大部分的預期。OpenAI很快推出了GPT-4,微軟很快將相應模型接入其搜索、office全家桶等各條業務線;谷歌以Bard倉促應戰,并與其搜索業務深度綁定,褒貶不一;國內的百度以文心一言快速跟進,目前已經有數十萬家企業在排隊接入文心一言;阿里巴巴發布的通義千問,同樣得到數十萬企業的熱情回應。
人們對于這類AI應用的熱情可見一斑。
實際上,人工智能、可控核聚變、元宇宙這三個領域的每一次突破,都將極大的挑動人類敏感的神經,都能引發一波全民追捧熱浪。
然而,外行看熱鬧,內行看門道。作為一個專業媒體,數據猿并不滿足于報道浮在行業表面的熱點新聞,而要試圖去挖掘隱藏在冰山底下的秘密。
在我們看來,雖然現在ChatGPT已經成為萬眾矚目的明星,但它卻只是擺在臺面上的“提線木偶”,真正隱藏在幕后操控這一切的幕后大佬另有其人。
一言以蔽之:ChatGPT只是表面的喧囂,大模型才是刺破AI的那柄尖刀。
所以,要搞清楚目前的狀況,應該把更多的注意力放在底層的大模型上,而不是停留在ChatGPT上。正如上一輪AlphaGo引發的AI浪潮,其底層驅動力是深度學習技術的突破。
接下來,我們就來深入分析一下大模型,試圖搞清楚大模型跟以往的機器學習、深度學習模型有什么不一樣;大模型這么厲害,那它到底是如何工作的。
1、大模型是深度學習技術的進化版
人工智能已經發展了幾十年了,整體朝著機器學習、深度學習、大模型的進化方向發展。
人工智能是一種廣義的概念,指的是使機器能夠表現出人類智能的任何技術。機器學習是實現人工智能的一種方法,它通過讓機器從數據中學習,自動發現數據中的模式和規律。深度學習是機器學習的一種特殊形式,它使用深度神經網絡進行學習和預測。
大規模預訓練模型是一種機器學習模型,使用大量數據進行預訓練,并在后續任務中進行微調。這種模型通常采用深度學習技術,可以自動從數據中提取特征和模式,從而進行各種任務,例如自然語言處理、圖像識別、語音識別等。目前最著名的大規模預訓練模型之一是 GPT系列。
大規模預訓練模型可以被看作是深度學習技術的一種進化和擴展,大規模預訓練模型通常也使用了以往深度學習模型的一些技術,如卷積神經網絡、循環神經網絡等。通過預訓練加微調的方式,大規模預訓練模型在處理大規模數據和多個任務方面具有很強的能力,成為了當前人工智能領域的一個重要研究方向。
因此,大模型、深度學習、機器學習、人工智能的關系可以用下圖來表示:
![]()
數據猿制圖
深度學習技術可以視為大模型的地基之一,大模型發展也跟深度學習技術的突破息息相關。2012-2018年,深度學習技術在默默發展,2018年OpenAI推出GPT模型為分水嶺,大模型的發展進入加速階段。各個科技巨頭都開始狂煉大模型,一方面是在核心算法上進行探索,另一方面就是的不斷提升參數規模——大模型領域的“暴力美學”。
當然,除了美國,中國在大模型領域是跟的最緊的,百度、騰訊、阿里巴巴、華為等也誕生了不少成果。
其中,百度在這個領域的積累最深,這也是百度能在中國率先推出對標ChatGPT的文心一言產品的原因。
接下來我們試圖從技術角度,來探討一下大模型產業發展的核心邏輯。
2、全新的訓練模式:預訓練+微調
同樣是深度學習技術,為什么大模型能表現的如此驚艷,它有什么不一樣呢?
以往的深度學習模型通常需要從頭開始訓練,需要大量的標注數據和計算資源。而大規模預訓練模型則采用了一種更加高效的訓練方式,即預訓練加微調。預訓練是指在海量數據上進行無監督學習,使得模型學到更加通用的特征和表示。在預訓練完成后,可以在不同的任務上進行微調,使得模型能夠適應具體的任務。
可以發現,大模型的訓練有兩個關鍵的步驟,即預訓練+微調。通過預訓練,來獲得一些通用特征,并提升模型泛化能力。
在大規模預訓練模型中,通用的特征和表示指的是一些基本的語言或圖像特征,這些特征是在模型在大規模數據上無監督學習時自動學習到的。
這些通用的特征和表示具有一定的抽象性,可以在不同的任務中被重新利用,從而使得模型可以更加高效地學習新的任務。這就像是學生在學習不同的科目時,會學到一些基本的學習方法和技巧,比如如何理解概念、如何思考問題、如何進行邏輯推理等等。這些基本的學習方法和技巧可以被應用在不同的科目中,幫助學生更加高效地學習和掌握知識。
目前大模型的泛化效果已經相當不錯,比如在自然語言處理領域,大模型如GPT-4在多個NLP任務上均取得了出色的表現,表明大模型在泛化方面已經取得了很大的進展。未來的突破重點可能在于進一步提高模型的泛化能力,比如在數據增強、對抗訓練等方面繼續探索創新方法。
相比之前的深度學習模型,大模型之所以能夠實現更好的泛化能力,關鍵在于大模型具有更多的參數和更豐富的特征表示能力。大模型在預訓練階段就能夠學習到大規模數據的特征表示,這些通用的特征能夠被遷移應用到各種不同的任務中,使得大模型能夠更好地適應新的任務,從而提高了泛化能力。
關于泛化能力,可以把它比喻成一個人的適應能力。如果一個人只是在自己家里待著,很少接觸外面的世界,那么他可能很難適應到新的環境中去。但是如果一個人經常外出旅行,接觸不同的文化和環境,那么他的適應能力就會更強,無論面對何種情況,都能夠迅速適應。同樣地,一個模型的泛化能力越強,也就意味著它對于不同的數據集都能夠有很好的適應能力。
舉個例子,假設你是一個學習者,正在學習如何區分不同種類的水果。傳統的深度學習模型可能只能學習到一些基礎的特征,比如顏色、大小等,但是如果遇到一些特殊的水果,比如火龍果、楊桃等,模型可能就無法正確識別。這就好比你只是學習了蘋果、香蕉等常見水果的特征,但對于火龍果、楊桃這類非常規的水果,你可能無從下手。但是,如果你使用了一種大規模預訓練模型,就好比你已經學習了各種不同種類的水果的特征,并且可以將這些特征遷移到新的水果上。這樣,即使你遇到了一些之前沒見過的水果,也可以根據它們的特征正確地識別它們。
3、自監督學習,數據“爆炸”的引信
從上面的分析可以發現,足夠多的數據,是大模型實現泛化的重要基礎,只有模型“見多識廣”了,遇到以前沒見過的情況才可以從容應對。
事實上,大模型之所以能取得如此驚艷的表現,有一個關鍵的突破,就是訓練數據集的擴大。
數據猿對比了機器學習模型(以隨機森林模型為例)、傳統深度學習模型和大模型的訓練數據集規模。發現大模型的訓練數據集規模要比傳統深度學習高幾個數量級,至于更傳統的機器學習模型就更沒有可比性了。
既然訓練數據集規模越大模型的表現越好,那為什么以前不把數據集規模做大呢?不是不想,是不能。傳統深度學習模型的訓練數據,大多是標注數據,對數據進行標注是一個費時費力的過程,這極大的限制了數據規模。
要打破數據標注的桎梏,自監督學習技術閃亮登場了。
自監督學習是一種無需人工標注數據的機器學習方法,它通過利用數據自身的內在結構,訓練模型來學習數據的特征表示。其核心思想是在未標注數據上構建模型,并從數據中自動發現模式和結構。自監督學習已經在計算機視覺、自然語言處理、語音識別等領域中得到廣泛應用。
自監督學習的核心技術包括預測任務的設計、數據增強方法和模型架構的設計:預測任務的設計是指在未標注的數據上構建一些任務,讓模型通過這些任務來學習數據的特征表示。數據增強方法則是通過對未標注數據進行一些變換和擾動,生成新的數據來擴充訓練集,提高模型的泛化能力。模型架構的設計則是指選擇合適的網絡結構和優化算法,使得模型能夠從未標注數據中學習出有用的特征表示。
具體來看,實現自監督學習的具體過程包括以下幾個步驟:
收集未標注數據集。未標注數據集的選擇和收集對于自監督學習的效果至關重要,需要根據具體任務選擇適合的數據集。
設計預測任務。預測任務的設計需要根據具體任務選擇合適的目標和方法,如圖像分類、圖像重構、圖像補全等。
數據增強。數據增強可以提高模型的泛化能力,可以通過圖像旋轉、裁剪、變形等方法來擴充數據集。
構建模型。模型的選擇和設計需要根據具體任務選擇適合的模型架構和優化算法。
模型訓練。使用未標注數據進行模型訓練,通過優化損失函數來學習數據的特征表示。
模型評估。對訓練好的模型進行評估,包括特征表示的質量、模型的泛化能力和任務性能等指標。
需要指出的是,自監督學習技術已經有超過20年的發展歷史。
冰凍三尺非一日之寒,雖然看起來ChatGPT是突然爆火的,但其核心的大模型技術卻是經過了多年的發展,一點點突破之后。從深度學習到大模型,從標注數據訓練到基于自監督學習的非標注數據訓練,技術的發展就像一場接力賽,然后在最近達到了一個臨界點。
4、十年大模型無人問,一朝ChatGPT天下知
我們不僅要看到表面的熱鬧,也要看到產業背后的發展脈絡和邏輯。只有掌握產業的底層密碼,才能真正融入時代的浪潮,而不只是當一個吃瓜群眾。
ChatGPT爆火之后,中國有大量的公司想要搭上這趟快車,紛紛高調宣布自己已經或者即將推出對標的產品。
當我們關注ChatGPT時,視角應該放在GPT,而不是Chat!
中國公司能否推出對標ChatGPT的產品,核心也在于底層大模型的突破,而不是推出一個跟ChatGPT“長得像”的對話式AI產品。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。