自上世50年代,以“計算機”作為代表性象征的信息革命開始,社會對于先進生產力的認知便開始逐步更迭——從信息化(通常認為是把企業中的信息資源與信息技術有機結合,從而提高企業的管理水平和效率)到數字化(普遍認為是以數據分析為核心,利用各種業務數據去反哺和優化業務過程)轉變。
企業希望通過數字化來突破業務瓶頸,實現轉型升級。而這期間,數據作為新的生產要素,其重要性毋庸置疑。
9月19日,2023火山引擎數據驅動科技峰會發布數據產品大語言模型(Large Language Models)應用:DataLeap-找數助手、DataLeap-開發助手和DataWind-分析助手,為企業提供從數據資產的檢索、到數據開發,再到數據應用的全鏈路AI能力。
上述能力的發布,其目的就是讓企業能更便捷地生產數據、應用數據,實現更普惠的數據消費,為數字化提供現實基礎。
DataLeap是火山引擎數智平臺(VeDI)推出的大數據研發治理套件,核心是幫助企業快速完成數據集成、開發、運維、治理、資產、安全等全套數據中臺建設。
DataLeap此次升級發布的兩款大模型應用能力“DataLeap-找數助手”與“DataLeap-開發助手”,主要聚焦在企業數據資產查詢與數據開發運維兩大核心場景,通過大模型能力的加持,降低企業數據資產檢索和數據開發的準入門檻。
“DataLeap-找數助手”:AI+數據資產查詢 提升數據資產檢索效率
利用“DataLeap-找數助手”,可以實現多種數據類型及相關業務知識的問答式檢索。
從企業數據消費的鏈路來看,數據資產的檢索、管理可以看作是消費的第一環。找到正確的數據資產,繼而才能實現數據的消費。
數據的查找和使用本身強依賴業務專業知識的輸入。過去傳統技術方案下,數據資產檢索重依賴數據結構化管理,需要大量的人力保障,且不夠靈活。同時,非結構化數據與數據資產的關聯缺失,會導致大量業務信息缺失,而以往基于關鍵詞在結構化及非結構化數據中的檢索,由于檢索鏈路割裂,會大大降低基于業務場景的數據查找和消費效率。此外,檢索提供的是基于關鍵詞的候選答案集合,需要人為再次篩選確認,不是直接的答案,導致用戶很難有良好體驗。
與大語言模型(LLM)結合后,資產查詢的方式變得更“擬人化”:在與用戶對話式的過程中,大語言模型(LLM)可以理解用戶真實意圖,讓搜索過程更聚焦,節約了人為判斷的成本。同時,伴隨模型語義理解分析能力的逐步提升,對話式檢索相比單純地用關鍵詞檢索的方式,其全鏈路的檢索效率也更高。
在功能上,“DataLeap-找數助手”目前主要提供三類:
1. 找數據,表、數據集、儀表盤等
2. 問含義,指標的口徑信息、維度枚舉值含義等
3. 業務咨詢,業務知識咨詢,如業務常見術語含義,業務分類等信息

其核心優勢在于:
1. 問答式查詢方式,查詢效率更高;
2. 輕量化接入能力,支持自助接入企業知識庫;
3. 語料充分,元數據中心能力完善可提供企業級服務
能力發布后,“DataLeap-找數助手”將讓企業的數據資產檢索變得更快,使得低成本管理、真正的自助式數據消費變得可行。
“DataLeap-開發助手”:AI+數據生產 降低數據開發門檻
利用“DataLeap-開發助手”,可以實現通過自然語言描述,自動生成代碼;針對已有的代碼可以自動實現Bug修復,代碼優化、解釋與注釋等;對話式方式進行文檔搜索、函數使用、代碼示例等問題咨詢。

過去,研發人員必須充分熟悉SQL等數據開發語言,才能高效支持數據分析背后的開發需求。但在現實場景中,數據分析師、依賴數據的業務運營人員都會有大量的數據消費訴求,也就意味著需要大量的專業數據研發人員來支持一些看似基礎但仍需要人為介入的開發工作。

“DataLeap-開發助手”底層采用大語言模型,經過海量的代碼和語料訓練,可以根據用戶的自然語言輸入,自動關聯包括表Schema在內的元數據信息,生成高質量的數據加工代碼,并具備代碼的理解、改寫以及領域知識的問答能力。
目前看,“DataLeap-開發助手”主要提供以下3個細分場景的服務:
1. 生成代碼:描述需要處理的問題可以自動生成代碼,例如:從多張數據表中,通過關聯,自動查詢、統計指標數據;
2. 智能問答:根據你描述的問題進行答疑,例如忘記 Spark 函數怎么寫,喚起智能開發助手,詢問函數使用方式;
3. 修復/優化代碼:用戶可以直接在SQL 編輯器中通過AI修復功能,了解詳細的報錯原因,并基于修復建議“一鍵完成”選中代碼的修復/優化。
“DataLeap-開發助手”的核心優勢在于:
1. 適配多場景數據開發,簡單場景自動開發,復雜場景輔助提效
2. 內置于編輯器,靈活喚起,減少多工具切換成本,交互體驗對齊桌面原生 IDE(集成開發環境)
3. 模型來源可擴展,支持企業自有模型接入
其核心價值是打破了語言障礙,極大程度降低了數據開發的準入門檻,同時讓專業數據研發人員更聚焦復雜場景的需求,利用開發助手優化代碼,提高研發生產效率與代碼質量。
以DataLeap為代表的火山引擎多個數據產品擁抱AI,本質是為了降低數據消費門檻,通過數據消費來實現企業數據資產與業務應用的飛輪效應,提升企業活力。(作者:葉悼龍)
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。