前言:正所謂:“工欲善其事,必先利其器!”,一套好的數據治理工具,能讓企業的數據治理工作事半功倍。數據治理本質是盤點數據資產、治理數據質量,實施數據全生命周期的管理,根據不同的項目特點,會用到不同的技術或工具,一般來說,數據治理產品或工具主要包含以下組件:數據模型管理、元數據管理、數據質量管理、數據標準管理、主數據管理、數據安全管理、數據服務平臺。
數據治理產品中的七個工具或組件,都各有自己的特點和使命,在企業的數據治理中都有著不同的功能側重,但是解決問題的目標是一致的——提升數據質量。這讓我不由聯想到的是那部經典的電影《七劍下天山》,數據治理的七個工具就如同電影中的七把利劍,它們的打造材料、工藝、對使用者的要求都各不相同,在執行任務中需要各盡其職,同時又需要緊密協同。想想看,數據治理中的七個工具,何嘗不是這樣呢?
天瀑劍(數據標準):一把雙頭劍,忽攻忽守,用劍者必須很專一,是一把表現“紀律”的劍。
莫問劍(數據安全):劍身是烏黑的,長兼富彈性,變化無窮,招式變幻難測。心法重劍略,有劍氣,輕易不殺,使用者需智能與內涵。
游龍劍(元數據):無堅不摧,一劍既出,眾劍稱臣,是最高攻擊的武器。
青干劍(主數據):奇鈍無比,非極鋒利,可抵擋天下最鋒利的武器,可克制“游龍”,是最好防守兵器。
競星劍(數據模型):短身,藏于衣服之內,在電光火石之間,出劍神速,迅雷不可目睹。
日月劍(數據質量):兩把相連的子母劍,時而雙劍,時而成一體,攻擊范圍可大可小。
舍神劍(數據服務):是一把開山辟石的大劍。使者攻勢力大無窮,鈍重有力,是一把求生的劍,代表重生,純樸,恒心。
一、競星劍:數據模型管理
數據模型管理工具猶如“競星劍”,短身,藏于衣服之內,在電光火石之間,出劍神速,迅雷不可目睹。在企業信息化建設過程中,數據模型“藏”于數據庫底層,對業務人員和管理人員是無感的,所以往往被忽視。但是數據模型卻是企業數據治理中最核心的一把利劍。數據模型對上是承載數據業務需求的元數據,對下是數據標準管理的內容,同時,是數據質量指標和規則定義的起點,是主數據和參照數據設計的根本,是數據倉庫和BI的核心,也是數據安全管控的對象。數據模型管理平臺從功能上,主要包括:可視化建模、模型版本管理、數據模型管理、數據模型查詢、數據模型瀏覽、數據模型分析等。
可視化建模。提供的可視化的前臺建模能力,支持企業級數據模型的構建,數據可視化建模一般支持oracle、MySQL、SQLserver、HIVE、Hbase等數據庫類型,優秀的模型管理平臺支持數據倉庫或業務系統的正向建模,同時支持將企業現有系統數據模型反向采集。
模型版本管理。支持模型變更和版本的管理,支持版本的回溯,版本明細信息查詢。
數據模型管理。支持模型導入功能,對于采用PowerDesigner、Erwin、Excle等模型設計工具設計的模型能夠導入到模型管理平臺中來,并提供模型的可視化修改、模型導出、模型刪除等功能。
數據模型查詢。支持數據模型查詢,通過輸入關鍵字可以查詢到指定的數據模型。
數據模型瀏覽。支持數據模型全景視圖,能夠直觀看到企業數據的分布地圖,并支持通過模型下鉆功能進行模型的逐級查詢,直到查詢的模型的最深層級的元數據。
數據模型分析。主要提供模型的對比分析功能,這種對比分析可以是兩個不同模型之間也可以是統一模型的不同版本之間的對比分析。通過模型的對比分析,能夠輕松找到模型之間的差異,支持由模型驅動的影響分析。
二、游龍劍:元數據管理
元數據管理工具猶如“游龍劍”,一劍既出,眾劍稱臣。元數據管理統一管控分布在企業各個角落的數據資源,企業涉及的業務元數據、技術元數據、管理元數據都是其管理的范疇,按照科學、有效的機制對元數據進行管理,并面向開發人員、最終用戶提供元數據服務,以滿足用戶的業務需求,對企業業務系統和數據分析平臺的開發、維護過程提供支持。元數據管理是企業數據治理的基礎,把它比作“游龍劍”并不為過。
元數據管理平臺從功能上,主要包括:元數據采集服務,應用開發支持服務,元數據訪問服務、元數據管理服務和元數據分析服務。
請參考:《數據治理系列2:元數據管理【深度解析】》
元數據采集服務。元數據采集服務提供各類適配器滿足以上各類元數據的采集,并將元數據整合處理后統一存儲于中央元數據倉庫,實現元數據的統一管理。這個過程中,數據采集適配器十分重要,元數據采集要能夠適配各種DB、各類ETL、各類DW和Report產品,同時還需要適配各類結構化或半結構化數據源。
元數據管理服務。市場上主流的元數據管理產品,基本都包括元數據查詢、元模型管理、元數據維護、元數據版本管理、元數據對比分析、元數據適配器、元數據同步管理、元數據生命周期管理等功能。
元數據訪問服務。元數據訪問服務是元數據管理軟件提供的元數據訪問的接口服務,一般支持REST或Webservice等接口協議。通過元數據訪問服務支持企業元數據的共享,是企業數據治理的基礎。
元數據分析服務。
血緣分析:告訴你數據來自哪里,都經過了哪些加工。
影響分析:告訴你數據都去了哪里,經過了哪些加工。
冷熱度分析:告訴你哪些數據是企業常用數據,哪些數據屬于僵死數據。
關聯度分析:告訴你數據和其他數據的關系以及它們的關系是怎樣建立的。
數據資產地圖:告訴你有哪些數據,在哪里可以找到這些數據,能用這些數據干什么。
三、日月劍:數據質量管理
數據質量管理工具猶如“日月劍”,是兩把相連的子母劍,時而雙劍,時而成一體,攻擊范圍可大可小。數據質量管理工具在不同的數據治理項目中有時會被單獨使用,有時配合元數據使用、有時又與主數據搭檔。在管理范圍上,往往會根據項目的需求、客戶的目標進行控制,可以是企業級的全域數據質量管理,也可以針對某一特定業務領域進行數據質量管理的實施。
數據質量管理工具從功能上,主要包括:數據質量指標管理、數據質量規則管理、數據質量評估任務、數據質量評估報告。
請參考:《數據治理系列5:數據質量管理的正確打開方式》
數據質量指標管理。通過對不同業務規則的收集、分類、抽象和概括,定義數據質量維度,這里給出了六種,分別是:數據唯一性、數據一致性、數據準確性、數據關聯性、數據完整性、數據及時性。質量指標反映了數據質量不同的規格標準,也體現了高層次的指標度量的特點。
數據治理規則管理。一個數據質量規則包含了數據的評估對象,評估指標、權重和期望值等。質量規則是由業務人員根據各檢核類別對不同的業務實體提出的數據質量的衡量標準。它是各檢核類別在不同業務實體上的具體體現。
數據質量檢核任務。檢核任務調度模塊是數據質量平臺的核心,通過執行檢核方法生成相應的檢核結果問題數據文件,檢核結果問題數據能夠反映出用戶所關心的數據質量問題。
數據質量分析報告。數據質量報告提供了一個集中展示數據質量狀況的窗口,相關人員可以對數據質量問題進行查詢、統計、分析,找到引起數據質量問題的根因,并付諸行動,從源頭上解決數據質量的根本問題,實現數據質量的閉環。
四、天瀑劍:數據標準管理
數據標準管理工具猶如“天瀑劍”,是一把雙頭劍,用劍者必須很專一,是一把表現“紀律”的劍。數據標準從字面上理解就是數據既定的“規則”,這個規則一旦定義,就需要必須執行。數據標準化就是研究、制定和推廣應用統一的數據分類分級、記錄格式及轉換、編碼等技術標準的過程。從管理的對象上來看,數據標準主要包含三個方面的標準:數據模型標準、即元數據的標準化;主數據和參照數據標準;指標數據標準,如指標的統計維度、計算方式、分析規則等。數據標準管理工具,從功能層面主要包括:數據標準編制、數據標準審批、數據標準發布、數據標準使用。
請參考《數據治理系列3:數據標準管理》
數據標準編制。根據企業業務進行管控數據項的劃分,確定數據項的名稱、編碼、類型、長度、業務含義、數據來源、質量規則、安全級別、域值范圍等。數據標準可以參考國際、國家或行業標準的現行標準進行制定,也可以根據企業業務制定特定的企業級數據標準。
數據標準審查。對數據標準初稿進行審查,判斷數據標準是否符合企業的應用和管理需求,是否符合企業數據戰略要求
數據標準發布。數據標準一經發布各部門、各業務系統都需要按相應的標準進行執行,對于遺留系統會存在一定的風險。標準發布的過程需要對現有應用系統、數據模型的影響進行評估,并做好相應的應對策略。
數據標準貫徹。把已定義的數據標準與業務系統、應用和服務進行映射,標明標準和現狀的關系以及可能影響到的應用。該過程中,對于企業新建的系統應當直接應用定義好的數據標準,對于舊系統應對一般建議建了相應的數據映射關系,進行數據轉換,逐步進行數據標準的落地。
五、青干劍:主數據管理
主數據管理工具猶如“青干劍”,奇鈍無比,非常鋒利,是最好防守兵器。主數據是企業最基礎、最核心的數據,企業的一切業務基本都是基于主數據來開展的,是企業最重要的數據資產。如果大數據是一座礦山,主數據就是那礦山中的金子,通過主數據的解決各異構系統的數據不標準、不一致問題,保障業務連貫性和數據的一致性、完整性和準確性,提升業務線條之間的協同能力,同時,高質量的主數據也為領導的管理決策提供了支撐。所以,主數據管理也是企業數據治理成為最核心部分。
主數據管理平臺從功能上主要包括:主數據模型、主數據編碼、主數據管理、主數據清洗、主數據質量、主數據集成等。
對于如何建設主數據請參考《數據治理系列4:主數據管理四部曲》
主數據模型。提供主數據的建模功能,管理主數據的邏輯模型和物理模型以及各類主數據模板。
主數據編碼。編碼功能是主數據產品的初級形態,也是主數據產品的核心能力,支持各種形式主數據的編碼,提供數據編碼申請、審批、集成等服務。
主數據管理。主要提供主數據的增刪改查功能。
主數據清洗。主要包括主數據的采集、轉換、清理、裝載等功能。
主數據質量。主要提供主數據質量從質量問題發現到質量問題處理的閉環管理功能。
主數據集成。主要提供主數據采集和分發服務,完成與企業其他異構系統的對接。當然,談到集成就不得不說的一個重要工具,ESB(企業服務總線),這個工具也是經常會與主數據產品進行配合在實現企業主數據治理的同時,解決企業異構系統的集成問題。關于數據集成我們下次單獨再談,此處不再贅述。
六、莫問劍:數據安全管理
數據安全管理工具猶如“莫問劍”劍身是烏黑的,長兼富彈性,招式變幻難測,重劍略,有劍氣,輕易不殺,使用者需智能與內涵。數據安全規則會隨著不同行業、不同企業的需求不同而變換莫測,數據安全一般企業作為數據戰略的重要組成。“莫問劍”長兼富彈性,帶有劍氣,不易操作,需要使用者的智能與內涵。數據安全也一樣,在企業數據治理中,數據安全一般作為是企業數據治理的一道“紅線”,任何人、任何數據不可逾越。但是數據安全也不能隨意、輕易地使用,否則就會影響業務效率,安全和效率之間需要找到一個平衡點。
數據安全涵蓋了操作系統安全、網絡安全、數據庫安全、軟件應用安全等。對于數據的安全治理,側重點是對于數據使用過程的控制,使得數據安全合法的進行使用,所以管控的重點是在應用上。從應用上,數據安全的主要功能包括:身份認證與訪問控制、數據合規性申請、數據分級與授權、數據脫敏/脫敏、數據加密、安全審計等。
身份認證與訪問控制。身份認證是為訪問控制提供支撐,訪問控制提供了不同身份用戶訪問不同信息資源提供了相應的安全策略。身份認證是在計算機及計算機網絡系統中確認操作者身份的過程,確定用戶是否具有對某種資源的訪問和使用權限,防止攻擊者假冒合法用戶獲得資源的訪問權限,保證系統和數據的安全。常用身份認證的技術包括:電子簽名(CA)、USB-key(智能卡)、靜態口令,動態口令、短信密碼、人臉識別、指紋識別、虹膜識別、聲音識別等。
數據合規性申請。對于企業關鍵信息的創建和變更需要符合企業相關的數據管理流程,建立數據申請、審批制度,對新增的數據或變更的數據進行合法性審批。
數據的分級與授權。根據數據的來源、內容和用途對數據資產進行分類,根據數據的價值、敏感程度、影響范圍進行敏感分級,建立敏感分級數據與用戶角色的訪問控制矩陣,對不同等級的數據分配給相應的用戶角色實現分級授權。
數據脫敏。簡單的數據脫敏技術就是給數據打個“馬賽克”,脫敏的過程數據的含義保持不變、數據類型不變、數據的關系不變。
數據加密。數據加密技術是數據防竊取的一種安全防治技術,指將一個信息經過加密鑰匙及加密函數轉換,變成無意義的密文,而接收方則將此密文經過解密函數、解密鑰匙還原成明文。
安全審計。數據安全審計是通過記錄用戶對數據的所有訪問和操作記錄日志,并通過日志的分類統計和分析,提供數據訪問報表,支持對數據的檢索和分析,支持對用戶的違規訪問和危險操作進行告警。
七、舍神劍:數據服務平臺
數據服務平臺猶如“舍身劍”:是一把開山辟石的大劍,鈍重有力,是一把求生的劍,代表重生,純樸,恒心。數據服務平臺是數據治理的能力輸出平臺,持續的數據服務能力輸出,披荊斬棘,為前端的數據分析和數據應用提供支撐。數據服務平臺在互聯網架構下一般會基于統一的API網關進行服務的統一接入,由統一網關對所有數據服務進行調度、管理、編排、適配,應適應企業內部的數據共享和企業外部的數據開放等需求。
數據服務平臺主要包括服務能力輸出和統一網關服務兩大部分,一部分是輸出數據服務能力,另一部分是通過統一的網關來管理這些能力。
能力輸出。數據治理平臺的主要輸出的數據服務能力包括:數據查詢服務、資源目錄服務、主數據服務、數據標準查詢服務、數據安全服務等,每一類數據服務都是由一組服務接口組成的。數據服務能力也可以根據業務主題進行組織,形成主題服務。數據服務的量和質量也是考驗一個數據治理項目實施的一項重要指標。
服務網關。嚴格意義上來說,服務網關也是一套獨立的工具,核心功能包括:服務的編排、注冊接入、流程控制、協議適配、安全防護等。傳統架構中一般會以ESB——企業服務總線,作為服務網關來使用。在互聯網架構下,ESB這種中心化的架構對應高并發的前臺應用無法支撐,所以目前一般采用API網關,即API Gateway技術來替代傳統的ESB。API網關提供日志、安全、流量控制、熔斷、負載均衡、鑒權等功能插件。這些插件會隨著企業業務應用規模等的變化進行不斷的強化與調整,而不用頻繁對網關層進行改動,確保網關層的穩定性。
八、傳說中七劍合璧就能召喚神龍
在一個大型的數據治理項目中,不是一項技術或工具就能搞定的,需要根據企業的需求采用不同產品和工具的組合。而當我們將以上企業數據治理的七把利劍的相關核心能力組合起來以后,就形成了一個完整的數據治理平臺,而這個數據治理平臺與當前流行的“數據中臺”不謀而合。這里,我們并不是因為數據中臺的概念火,就將數據治理往中臺靠,而事實上,任何一個數據中臺,都離不開數據治理的各項能力。一個完整的數據中臺重點提供了數據的“采、管、存、用”四種能力,而數據治理工具就是提供了最核心的“管”數據的能力和一部分“采、存、用”數據的能力。
注:關于數據中臺的話題,不斷更新中……
1、《熱的發燙的「中臺」是什么?》
2、《數據中臺“熱”下的“冷思考”》
九、寫在最后
數據治理的各個工具在企業數據治理過程中各司其職,發揮著不同的作用,當然,除了筆者以上列出的七個產品,在不同的項目可能還會用到企業的數據治理工具或技術,這里就不在一一羅列了。一個企業的數據治理項目的成功實施和持續見效,產品和工具很重要,但絕對不能以工具論。高瞻遠矚的數據戰略,先進的數據治理架構,數據治理時機的把握,數據治理組織、文化和制度的保障以及建立長效的運營機制缺一不可!而技術與工具只是支撐企業數據戰略、數據標準落地的工具而已。
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。