2020年,Gartner發布《2021年重要戰略技術趨勢》,認為AI工程化(AI Engineering)將是“需要深挖的趨勢”,到了2021年年底,在Gartner的《2022年十二大重要戰略技術趨勢》中,AI工程化又被進一步明確為未來三到五年“企業數字業務創新的加速器”;
幾乎就在同一時期,阿里發布面向AI工程化的一體化大數據和AI產品體系“靈杰”,稱要推動“AI落地范式的升級,共同推動AI產業邁向新的增長”;
到了不久前落幕的服貿會上,人工智能數據企業云測數據發布了面向AI工程化的新一代數據解決方案,其價值設定為“高度支持企業所需數據的高效流轉、持續進行數據處理任務,提高規模化生產效率”;
而即將召開的由 LF AI & DATA 基金會主辦、關注AI領域前沿革新的 AICON 2022,將為AI工程化設置專門的分論壇……
毫無疑問,在AI加速實現場景落地的今天,“AI工程化”已經成為行業普遍的議題,被認為是AI發展必然的趨勢之一。
什么是AI工程化?
按Gartner比較官方的定義,是“使用數據處理、預訓練模型、機器學習流水線(MLOps) 等開發AI軟件的技術統稱,幫助企業更高效的利用AI創造價值”。“智能相對論”認為,AI工程化更簡單的理解,就是已經十分成熟的軟件工程將“軟件”擴展到AI后的一種針對AI開發特點的適配與進化,通過系統化、規范化、可度量地使用各種工程方法和工具,確保AI軟件能夠達到預期。
AI工程化為什么得到從權威機構、互聯網大廠到數據服務創新企業的普遍重視?這可能要從AI發展的階段性需求談起。
算法、算力、數據……AI落地現在還需要AI工程化
AI的發展有標準的算法、算力、數據三要素,在Gartner看來,任何一個行業、企業,只要有場景,有積累的數據,有算力,都可以落地AI應用。但Gartner同時指出,落地的效率、周期可能會遠超預期,其研究擺明,“只有53%的項目能夠從AI原型有效轉化為生產”。
這意味著,在當下場景落地成為主流的階段,并非只具備了精巧的算法、充沛的算力、足夠的數據就一定能夠做好AI場景應用、實現好技術的價值——正如Gartner所言,“AI 要成為企業的生產力,就必須以工程化的技術來解決模型開發、訓練、預測等全鏈路生命周期的問題。”
“智能相對論”認為,傳統的軟件工程針對“產品”,主要經歷需求分析、系統設計、代碼實現、驗證、發布以及運維的過程,瀑布式的流水線走下來,“產品”做好了發出去、做做售后就可以了。
而AI的場景落地雖然也給出的是“產品”,但其背后本質上是一系列智能化“能力”的組合。既然是能力,開發流程就與傳統軟件有較大出入,是問題抽象、數據準備、算法設計、模型訓練、模型評估與調優、模型部署的過程,在部署之后,還需要根據場景實踐不斷反饋到數據準備和算法設計上,從而讓AI的“能力”不斷接近和達到預期。
這也說明,大規模落地階段,AI工程化更加被深刻需要。因此,傳統的軟件工程體系做法已經無法支撐AI開發的需要,必須要有新的方式來推動,AI工程化提供了專門適配AI開發的一系列方法、工具和實踐的集合,就起到了這個價值,為算力、算法和數據提供了新的利用方式,持續為場景創造價值。
而除了能夠積極推動AI開發的效率和效果,隨著AI的大規模場景落地,開發過程中所面臨的日益嚴峻的風險問題的規避,也迫切呼喚AI工程化。
這一點,尤其體現在數據安全上——大批量的數據、極為繁雜的數據傳遞過程,造成了越來越明顯的數據安全隱患和越來越難以承受的數據安全事故級別,必須有對應系統化應對機制而不能只是片面的“補漏洞”。
所以,可以看到云測數據給出的解決方案就特別強調了數據安全的能力,包括了一套安全交付的標準和多個ISO企業安全體系認證。
以安全交付標準為例,方案嘗試在硬件配置、網絡安全、物理安全、人員安全管理上都進行能力設置,這些能力針對AI開發中涉及數據存儲、傳輸的方方面面,以事先體系化布局而不是事后一個個補漏的方式來規避數據安全風險,而這,就是“工程化”的直觀表達。
正向的促進作用,規避負向的風險,AI工程化成為趨勢也就成為必然。通過面向數據服務的AI工程化過程,數據安全的提升是顯而易見的。例如,最直觀的,由于這套體系讓數據存儲、數據標注、數據傳遞等有統一的管理,如果能夠有效落地,將實現數據的流轉等不需要經過人力環節(人力主要負責工單而不是數據本身的流轉,比如不用人力遞送數據硬盤),這使得AI開發的數據環節大大降低了對人的依賴,減少了失誤等風險發生的可能性。
水到渠成,AI工程化是AI軟件開發不斷成熟的結果
Gartner在《2022年十二大重要戰略技術趨勢》認為,到2025年,前10%做到AI工程化最佳實踐的企業相對于之后90%的企業,將從AI創新中得到超過3倍的價值,足見AI工程化的重要性。
所以,相關企業尋求AI工程化成為一種必要,也催生出較為廣闊的產業鏈機遇空間。
只不過,從已有的行業引領性動作來看,AI工程化雖然是某種程度上的藍海市場,但卻并非人人都可以參與進來提供相關的解決方案以獲取市場機會。
目前而言,市面上大體有兩種面向AI工程化的做法,但無論哪種,都基于已有的AI開發實踐或服務積累,不是憑空而來,是長期的AI工程化實踐(但沒有喊出這個概念)抽離、整合而來。
一種是AI開發框架型,也即原本就提供AI開發服務的各種深度學習框架,將服務延展而來,其優勢在于AI框架原本就是AI領域的基礎軟件,處于承上啟下的位置,提供面向AI工程化的服務“近水樓臺”。
這方面,以Google、Meta等科技巨頭為代表,國內有華為、百度等,以TensorFlow、PyTorch、MindSpore、PaddlePaddle等各自的深度學習框架為基礎,提供一系列與AI工程相關的生態技術和工具,如領域套件、模型可視化工具、調試調優工具、高級API等。
另一種是AI服務平臺型,也即過去為企業提供算力、算法、數據相關服務的企業,隨著客戶需求的發展專門提供面向AI工程化的能力。阿里的“靈杰”(算法方面)與云測數據面向AI工程化的解決方案(數據方面)都是如此。
以云測數據為例,其解決方案提供豐富的數據標注工具:

以及一個在流程和邏輯上閉環的數據流轉管理體系(這個體系也可以幫助對AI工程化究竟做了什么有比較直觀的印象):

而這兩大內容,顯然不是一個新晉玩家所能提供的,它們都源于企業過去向AI企業提供通用數據集、數據標注平臺與數據管理系統等生產工具以及多年的AI訓練數據服務的行業成熟經驗。
云測數據的主要業務是面向智能駕駛、智慧城市、智能家居、智慧金融、新零售等眾多領域提供一站式AI數據處理服務,已經先后推出過“云測數據標注平臺”、“AI數據集管理系統”等面向市場的成果,其數據標注精度最高做到了99.99%,曾幫助某自動駕駛車企實現數據清洗、標注工作與原流程相比提升2倍的流轉效率。
可以看到,正是因為過去實現了從“數據原料”到最后的“數據成品”全鏈條打通,做到場景數據專業化、高質量交付,有足夠的技術成熟度和標注經驗與管理流程,現在面向AI工程化的數據解決方案才能呈現出來。
而更進一步看,AI工程化機遇只屬于有行業經驗的企業,也促成后者能夠進行更多業務合作的探索,商業空間進一步打開,生態合作的內容進一步豐富。
例如,AI的開發工作除了技術性的內容,還離不開AI人力相關的管理,離不開項目管理,而云測數據基于其過去在數據方面的人才、項目管理經驗,在解決方案中也提供有匹配人員管理與項目管理的一套并行的體系作為支撐,包括招聘體系、項目管理體系、責任安全體系等,其本質是以認知資源的共享換取商業價值,典型如,云測數據更了解數據標注人才的需要、更知道從哪里可以找到特定的人才、如何培育人才、更知道怎么管理項目。
這方面,通過API集成屏蔽不同企業的差異、做到廣泛適配是服務方的共識,例如云測數據的解決方案中就通過標準協議接口、數據價值可視化、數據處理工作臺、數據權限管理來讓不同企業的管理體系都能快速進行對接。當然,作為一種根本上的To B服務,盡管有先天優勢,但不管是百度、阿里,還是云測數據來做面向AI工程化的數據服務,其落地還需要考慮對不同AI開發企業的適配,畢竟AI工程化是系統工程,牽扯面往往較廣。
AI應用的“工業化大生產”來臨,AI工程化與大模型匯流
AI工程化的價值和機遇不僅在于AI開發過程,其對大模型的促進作用也不容忽視。
從更宏觀的視野看,AI工程化的趨勢與當下AI領域的熱點大模型一樣,都是在推動AI“工業化大生產”(高效率的批量化AI落地,而不是作坊式的一個個生產),只不過一個從開發全過程出發,一個從模型本身出發。
二者碰撞到一起并非只是一種巧合,AI工程化與大模型也在實現著協同。
一方面,這體現在大模型開發本身,也即“預訓練”階段的工程化。
例如,知名NLP領域的大模型GPT-3其模型復雜度非常高,僅模型參數就高達1750億個,訓練數據量達到45TB,訓練出的模型有700GB大小。
這么復雜的工作,肯定不是有了算法、算力以及數據就能搞定的,其開發工作有31位參與者,形成了一套在數據處理、模型設計、代碼編寫、調試參數等領域各司其職的復雜工作體系來保障工作的順利推進,其本質就是AI工程化。
大模型時代許多場景下的模型只要基于基礎大模型進行微調便可以產生優質的場景應用,云測數據總經理賈宇航認為,AI工程化在這個“微調”的階段將起到重要的作用,幫助更多場景應用高效、高質量交付與持續優化。另一方面,這體現在大模型的場景調優上,也即“微調”階段的工程化。
當然,也有預訓練階段與“微調”階段通吃的AI工程化服務做法,例如阿里的“靈杰”就宣稱既可以實現超大規模模型的構建,也可以實現垂直場景小模型“蒸餾”。
無論如何,AI工程化與大模型匯流,共同推動AI應用加速實現更廣泛、更優質的場景落地,這其中涌現了新的商業合作機遇,但更重要的是在工程化開發與預訓練的優勢疊加下,AI將真正走入千行百業,變得更加普惠。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。