首頁 > 產經新聞頻道 > 業界新聞

國產替代狂奔，中國版英偉達何時現身？

2023年07月11日 14:51:30 來源：阿爾法工場

　　在國產GPU突圍的道路上，部分廠商已經走出了自己的路。但鑒于硬件、生態等各方面的差距，這樣必定是一條充滿荊棘的長路。

　　最近，風頭正盛的英偉達在算力領域又下一城。

　　在最新的最新MLPerf訓練基準測試中，英偉達的***僅用11分鐘就訓練完了GPT-3。

　　并且還在所有的八項測試中都創下了新紀錄。

　　可以說，這是一款專為AI、HPC和數據分析而設計的“性能怪獸”。

　　憑借著4nm制程、800億個晶體管、18432個CUDA核心，以及專用的Transformer引擎，***將大模型訓練速度提高了6倍。

　　同時，***還支持NVLink Switch系統，可以實現單節點內和節點間的全方位GPU通信，從而支持百億億級(Exascale)的工作負載。

　　這也是其能在MLPerf 8項基準測試中橫掃其他競爭者的重要原因。

　　在算力愈發重要的AIGC時代，任何能提高模型訓練、機器學習的硬件技術，都成了各大AI企業垂涎欲滴的產物。

　　然而，目前在GPU領域，大部分國內企業，仍然只能仰賴英偉達一家的技術。

　　在國內算力愈發捉襟見肘，以及國際風云變幻的敏感時刻，國內的GPU廠商，能否奮力追趕，解決這一“卡脖子”難題，以至于成為下一個“英偉達”呢?

　　01 種子選手的秘密

　　在目前國內一票GPU的“種子選手”中，一家名叫壁仞科技的企業引起了人們的注意。

　　原因很簡單，那就是其產品BR100不僅創下了全球算力紀錄，并且宣稱其峰值算力達到了英偉達A100的3倍，甚至還能對標沒發售的***。

　　然而，稍微了解過國內芯片行業的人都知道，在芯片領域，國內的炒作太多了，徒有其表的例子也太多了。

　　那么，做出這個“媲美英偉達”GPU的企業，究竟是什么來頭?其自主研發的BR100，是否真的像其宣傳的那樣出色?

　　要回答這個問題，我們不妨先看看壁仞科技的創始班底，技術背景究竟如何。

　　作為一家通用智能芯片設計研發商的壁仞科技，成立于2019年，團隊由國內外芯片和云計算領域的專家和研發人員組成。

　　其創始人張旭博士，不僅擁有清華大學和斯坦福大學的博士學位，還曾是英偉達的高級架構師，負責Volta架構的設計和開發。

　　除此之外，團隊其他成員的技術身份，也頗為亮眼。

　　李新榮，聯席CEO，曾任AMD全球副總裁、中國研發中心總經理，負責AMD大中華區的研發建設和管理工作。

　　洪洲，CTO，曾在NVIDIA、S3、華為等工作操刀GPU工程項目，擁有超過30年的GPU領域經驗。

　　焦國方，軟件生態環境主要負責人，曾在高通領導和產品研發了5代Adreno移動GPU系統架構。

　　這樣的團隊背景，決定了壁仞科技的技術底色。

　　依據之前在英偉達、AMD、高通、商湯科技等知名企業的研發經驗和技術積累，壁仞科技研發了自主原創的芯片架構——壁立仞。

　　壁立仞架構基于SIMT(單指令多線程)模型，針對AI場景進行了專用的優化和定制。

　　其最大的特點，就是可以將多個小芯片拼成一個大芯片，每個小芯片只做一部分功能，然后通過高速互連組合成一個大芯片。

　　這樣可以提高芯片的良率和可靠性，同時降低成本和功耗，實現更強大的算力和擴展性。

　　這就是壁仞科技所謂的Chiplet的設計理念。

　　這種技術的難點在于如何保證芯片之間的高速通信和協作，同時避免信號干擾和功耗過高。

　　因此，如何設計合適的芯片分割和組合方案，使得每個芯片都能發揮最大的效能，同時減少電磁干擾和熱耗散，就成了Chiplet能否成功的關鍵。

　　對此，壁仞科技使用了兩種關鍵的技術2.5D CoWoS和BLink，來攻克這一難關。

　　簡單地說，2.5D CoWoS技術是一種把多個芯片堆疊在一起的技術，它利用了一個硅基板作為中介層，縮短了芯片之間的距離，從而提高了信號的傳輸速度和質量。

　　而BLink則在中介層上，建立了一個專用的接口，它可以讓多個芯片之間直接傳輸數據，而不需要經過其他的電路或芯片，從而減少了延遲和功耗。

　　然而，盡管2.5D CoWoS、BLink這些技術，讓壁仞科技打造出了算力更強的BR100，但這些技術，目前在國際上并不罕見，其他GPU廠商也有過類似的設計。

　　例如，Nvidia的A100和*** GPU都采用了CoWoS技術，把GPU芯片和HBM內存堆疊在一起，提高了內存帶寬和計算性能。而Nvidia還開發了自己的NVLink接口，類似于BLink接口，可以讓多個GPU之間高速互聯。

　　此外，AMD也有自己的Infinity Fabric接口，可以實現類似的功能。

　　那既然這是一種“大家都能用”的技術，那壁仞科技怎么就做到讓BR100算力達到A100三倍的呢?而英偉達真就會坐視著自己被超越了?

　　其實，這樣的結果，是二者在不同數據格式下的表現所致。

　　具體來說，BR100的巨大算力，更多是在矩陣FP32數據格式下的表現。

　　一般來說，數據格式占用的位數越多，它的范圍和精度就越高，但是也會消耗更多的空間和電力。

　　而矩陣FP32其實就是一種特殊的FP32數據格式，它只用了19位來存儲一個浮點數，這樣做的目的是為了讓矩陣FP32能夠兼容Tensor Core這種專門用于加速矩陣乘法的硬件單元。

　　矩陣乘法是深度學習中最常見和最重要的計算操作之一，所以使用矩陣FP32可以大幅提升深度學習的性能。

　　但是，矩陣FP32也有一個缺點，就是它的精度比向量FP32低，也就是說它能表示的浮點數的范圍和細節程度比向量FP32小。

　　這樣就會導致一些誤差和損失，在某些情況下可能會影響模型的質量和效果。

　　因此，矩陣FP32和英偉達A100的向量FP32并不等價，因為矩陣FP32只適用于矩陣乘法這種特定的計算操作，并不能代表GPU的整體性能。

　　02 生態之痛

　　除了技術方面的較量外，軟件生態上的壁壘，也是國產GPU無法忽視的一道屏障。

　　從某種程度上說，這樣的壁壘比某些具體技術的難點，更難以攻克。

　　在GPU領域，業界流傳著一種說法：“CUDA是Nvidia最深的護城河”。

　　這是因為，早在十幾年前，在業內大部分人都認為GPU只能處理圖形相關的計算時，英偉達就已經意識到了GPU在AI領域的潛力和價值，并開始了相應的布局，在2006年推出了通用并行計算架構CUDA。

　　在CUDA問世前，人們在進行各種計算任務時，用的都是CPU，而非GPU。

　　然而，CPU雖然具有很強的“通用性”，可以處理各種計算，但是它的速度不夠快，而且核心數量有限。

　　而相較之下，只能處理圖形計算的GPU，不僅速度很快快，而且有很多很多的核心。

　　通過CUDA，在進行AI計算時，人們可以將神經元之間的計算分配到GPU的不同核心上，并行地進行運算。這樣就大大提高了神經網絡的訓練和推理的速度、效果。

　　英偉達看到了CUDA的巨大潛力，于是不斷地完善和優化CUDA的技術和生態。

　　例如讓CUDA支持C、C++、Fortran、Python等多種編程語言，或是提供了針對不同領域和應用優化的庫和工具，比如圖像處理庫、深度學習庫、自動駕駛庫等等。

　　這樣的優化，為開發者提供了極大的便利，使其不用再學習新的編程語言，或是從頭開始編寫代碼。

　　于是，越來越多的人用慣了，用舒服了，CUDA的生態就這么被搭建起來了。

　　誠然，在CUDA構建自身生態壁壘的過程中，也不是沒有遇到過競爭者，但最后這些對手都一一成為了“陪跑者”。

　　例如，蘋果公司和Khronos Group在2009年推出的OpenCL，也有過想成為行業標準的想法，讓人們可以用不同廠商的CPU、GPU、來做異構計算。

　　然而，OpenCL沒有CUDA那么高效和靈活，需要更多的編程技巧和優化工作，這就加大了開發者的負擔。

　　而英偉達的老對手AMD，也想要提供一個通用并行計算平臺，并推出了相應的產品ROCm，它跟CUDA的架構非常類似，甚至有一個工具叫hipify，可以把CUDA代碼轉換成ROCm代碼。

　　但是ROCm只能用在AMD的GPU上，而且只支持幾款顯卡。

　　于是，綜合對比下來，更多的開發者還是選擇了“通用性”、“易用性”都更勝一籌的CUDA。

　　如今，在軟件生態方面，壁仞科技也推出了自主研發的BIRENSUPA軟件平臺，試圖通過“無縫運行”的方式，讓開發者無需修改代碼，就可以在BR100系列產品上運行原本基于CUDA的應用。

　　這樣，習慣了使用CUDA的用戶，如果轉而使用BR100系列產品，可以獲得更高的計算性能和更低的功耗成本。

　　然而，這樣的思路，卻面臨著幾大挑戰，而其中之一，就是BR100系列產品在通用計算生態上的支持。

　　因為，壁仞科技為了提高BR100系列產品在AI計算方面的性能和能效，也對流處理器進行了一些優化和定制，比如說使用BF16替代FP16作為主要的數據格式，以及增加了一些針對AI的硬件指令和功能。

　　這樣，BR100就可能犧牲了部分通用計算能力，導致其在一些非AI的應用場景和領域上表現不佳或者不兼容。

　　而這也是為什么，BR100的主要應用場景，大多是復旦大學、清華大學這類高校的人工智能計算和高性能計算項目。

　　除此之外，BR100系列產品，在算力利用率上也存在著風險。

　　雖然，BR100的架構是通用的，如果如果壁仞科技愿意，也同樣可以將其用于通用類的計算。

　　但因為BR100的內部算力帶寬已經明顯超過PCIe和HBM2e的帶寬，所以絕大部分數據可能都要在GPU內流轉。

　　這就意味著，雖然BR100的算力很強大，它的數據來源和輸出通道，都不夠快，不能及時地給它送來或者拿走數據。

　　而如果一個軟件生態主要支持通用處理，它的GPU芯片往往就需要有足夠高的外部帶寬，來獲取各種類型的數據。

　　這是因為，不同類型的應用，往往對帶寬的需求和敏感度都不同。一些大型的應用，可能需要更高的帶寬，才能更好地計算。

　　最后，也是最具風險的一點，就是雖然壁仞科技宣稱，BR100要無縫地支持CUDA生態，但CUDA不是一個開源生態，英偉達在其中埋下了大量專利壁壘。

　　如果壁仞科技真的打算撬動這塊壁壘，則很可能受到英偉達的在專利上的反擊。

　　綜上所述，雖然目前在國產GPU突圍的道路上，部分廠商已經走出了自己的路，但鑒于硬件、生態等各方面的差距，這樣的道路，必定是一條充滿荊棘的長路。

　　文章內容僅供閱讀，不構成投資建議，請謹慎對待。投資者據此操作，風險自擔。

海報生成中...

即時

全球頂級AI創作社區回歸！海藝AI國內首發“全民娛樂化創作

海藝AI的模型系統在國際市場上廣受好評，目前站內累計模型數超過80萬個，涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景，基本覆蓋所有主流創作風格。

榮耀500系列正式發布 2699元起

一加Ace 6T官宣：全球首發驍龍8 Gen5

新聞

市場占比高達35.8%，阿里云引領中國AI云增長

9月9日，國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場，1H25》報告。中國AI云市場阿里云占比8%位列第一。

企業IT

華為坤靈發布IdeaHub千行百業體驗官計劃，助力中小企

9月24日，華為坤靈召開“智能體驗，一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

3C消費

雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

雅馬哈昨日宣布推出兩款頭戴式耳機，分別是平板振膜的YH-4000和動圈原理的YH-C3000。

研究

IDC：2025上半年全球智能家居清潔機器人出貨量同比暴

IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告，2025年第二季度》顯示，上半年全球智能家居清潔機器人市場出貨1,2萬臺，同比增長33%，顯示出品類強勁的市場需求。

專題

禮儀主持_商業活動模特演藝服務公司
九章智算云Alaya NeW Cloud 2.0發布
中文科技資訊旗下IB科技資訊上線專
中文科技資訊關于我單位網站被仿冒一

返回主頁 ┊ 關于我們 ┊ 內容聯系 ┊ 聯系我們 ┊ 免責聲明 ┊ 原創新聞 ┊ 門戶版

国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院
| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |

国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院

國產替代狂奔，中國版英偉達何時現身？

最新新聞

熱門新聞

即時

全球頂級AI創作社區回歸！海藝AI國內首發“全民娛樂化創作

新聞

市場占比高達35.8%，阿里云引領中國AI云增長

企業IT

華為坤靈發布IdeaHub千行百業體驗官計劃，助力中小企

3C消費

雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

研究

IDC：2025上半年全球智能家居清潔機器人出貨量同比暴

專題

國產替代狂奔，中國版英偉達何時現身？

擴展閱讀

最新新聞

熱門新聞