經(jīng)過快速穩(wěn)定的發(fā)展,川慶物探IT規(guī)模逐漸擴大,IT基礎架構建設趨于完備。云計算時代,川慶物探著眼于業(yè)務擴展的需要,引入云資源,加快了川慶物探信息化建設的步伐。但是,川慶物探原有的IT運維并不完善,IT運維服務模式的改革創(chuàng)新勢在必行。
目前川慶物探共有3個數(shù)據(jù)中心機房:2個在成都,1個在新疆庫爾勒。其中庫爾勒為移動式機房,成都1樓機房主要為利舊將下線的老設備,2樓機房為承載川慶物探重要業(yè)務應用的集群化服務器和存儲資源。
目前針對機房及設備間的管理都比較完善,服務器和存儲設備資源均已池化,但隨著支撐業(yè)務應用的逐漸增多,資源的合理利用是一個較大問題。
1 行業(yè)特性
對石油勘探行業(yè)而言,IT資源除了存儲海量數(shù)據(jù)的設備外,最關鍵的就是計算資源。石油勘探行業(yè)采集的地質(zhì)數(shù)據(jù)數(shù)量龐大,而且需要經(jīng)由地震資料處理類軟件和地震資料解釋類軟件復雜的運算才能完成數(shù)據(jù)分析工作,這兩類軟件分別用于地震數(shù)據(jù)的處理和地震數(shù)據(jù)的解釋,其所需要的運算量相當龐大。
采集上來的原始數(shù)據(jù)經(jīng)過地震資料處理類軟件或解釋類軟件的復雜運算,再通過矩陣的變化,迭代后會產(chǎn)生更龐大的數(shù)據(jù)量。最后,輸出原始數(shù)據(jù)處理結果時,又需要進行大量計算,最后變成與原始數(shù)據(jù)體量規(guī)模相似的數(shù)據(jù)。
2 項目背景
2016年底,勤智運維與川慶物探研究中心合作,搭建一體化智能運維平臺承擔整個研究中心的運維支撐工作。川慶物探研究中心通過部署勤智OneCenter一體化運維管理平臺,對川慶成都數(shù)據(jù)中心機房的核心網(wǎng)絡設備、計算和存儲集群資源進行了全面監(jiān)控;通過網(wǎng)絡拓撲圖、設備性能視圖、設備告警視圖、自動化運維及定制化功能,直觀了解網(wǎng)絡設備、技術、存儲集群資源的使用情況,并能及時發(fā)現(xiàn)設備故障;通過自動化資源調(diào)度合理分配、計算、存儲資源,由被動運維變?yōu)橹鲃舆\維。
3 現(xiàn)狀描述及需求分析
3.1 現(xiàn)狀描述
類似川慶物探研究中心計算所這樣的科研機構,承載地學研究、勘探數(shù)據(jù)分析等任務的石油勘探行業(yè)的研究所或計算中心,都面臨著同樣的信息化運維難題。隨著數(shù)據(jù)規(guī)模不斷增長,計算壓力逐漸變大,計算所的規(guī)模也在擴大。川慶物探現(xiàn)有3個數(shù)據(jù)中心,2個在成都,1個在新疆。各數(shù)據(jù)中心只能負責各自的數(shù)據(jù),數(shù)據(jù)中心之間的遠程監(jiān)控還未實現(xiàn)。
為了保障勘探項目的順利進行,為各項目組提供服務,川慶物探研究中心計算所投資建設的高性能計算平臺有2000多個計算節(jié)點,近40000個CPU,每個CPU的核數(shù)超過了10000。硬件上的投入看似足夠,但當項目繁忙需要很多應用軟件同時在高性能計算平臺上運行時,系統(tǒng)的穩(wěn)定性就會出現(xiàn)問題。川慶物探急需一套專業(yè)的一體化運維平臺,實現(xiàn)網(wǎng)絡、計算、存儲資源監(jiān)控、遠程、自動化的調(diào)度管理,讓投資的硬件、軟件資源的利用率更高,為業(yè)務順利開展提供服務保障。
3.2 需求分析
隨著川慶物探投資建設的高性能計算平臺上線運行,各核心網(wǎng)絡設備運行基本暢通,計算及存儲資源在實際項目中的合理高效利用成為關注的焦點。為此,川慶物探從實際業(yè)務出發(fā)提出了如下要求:
1)實現(xiàn)對核心網(wǎng)絡設備的全面監(jiān)控,并可在拓撲視圖中直觀顯示網(wǎng)絡架構、設備的運行狀態(tài)和網(wǎng)絡鏈路的性能和通斷情況。
2)實現(xiàn)對計算及存儲集群資源監(jiān)控,并通過統(tǒng)計視圖展現(xiàn)集群資源CPU、內(nèi)存使用情況。
3)實現(xiàn)磁盤陣列各文件系統(tǒng)的信息采集,并以圖表方式展現(xiàn)。
4)實現(xiàn)以矩陣方式展現(xiàn)各計算集群節(jié)點運行應用分布情況,不同應用以不同顏色區(qū)分。
5)實現(xiàn)計算集群資源通過自動化執(zhí)行腳本方式自動調(diào)度分配。
4 解決方案
經(jīng)過前期需求調(diào)研,考慮到需監(jiān)控管理的計算節(jié)點超過1000個,勤智運維決定采用分布式部署方式,數(shù)據(jù)處理器單獨部署一臺服務器,兩個數(shù)據(jù)采集器、集中門戶等組件單獨部署一臺服務器,數(shù)據(jù)庫采用Oracle11g單獨部署一臺服務器。
1)通過網(wǎng)絡拓撲視圖展示,自動發(fā)現(xiàn)生成網(wǎng)絡拓撲,并且關聯(lián)設備的性能和告警信息,便于進行故障隔離和快速定位。

1 拓撲圖展示
2)通過勤智OneCenter一體化智能運維平臺實現(xiàn)對網(wǎng)絡、計算、存儲集群資源全面監(jiān)控,實時展現(xiàn)各資源的CPU、內(nèi)存、磁盤、接口等性能指標信息。

2 網(wǎng)絡設備

3 計算集群節(jié)點

4 存儲集群節(jié)點
將業(yè)務資源分組,以統(tǒng)計視圖方式集中展現(xiàn)各計算、存儲集群資源CPU、內(nèi)存使用情況。

5 計算集群資源使用統(tǒng)計視圖

6 計算集群各節(jié)點CPU利用率
川慶物探數(shù)據(jù)機房運維:實現(xiàn)資源統(tǒng)一、自動化調(diào)度管理

7 計算集群各節(jié)點內(nèi)存利用率
3)磁盤陣列使用情況統(tǒng)計:通過定時代理方式,在指定存儲節(jié)點上執(zhí)行腳本命令采集獲取磁盤陣列文件系統(tǒng)目錄使用情況,并以圖表方式進行集中展現(xiàn)。

8 存儲文件系統(tǒng)一級目錄

9 存儲文件系統(tǒng)一級目錄
4)項目應用矩陣視圖展現(xiàn):按照川慶物探的業(yè)務,每個計算集群節(jié)點上均會部署運行一個項目應用,例如:Omega、Paradigm等。計算集群節(jié)點為Linux系統(tǒng),勤智OneCenter一體化智能運維平臺按照Linux對各節(jié)點進行監(jiān)控,并將川慶物探的項目應用名稱同Linux操作系統(tǒng)的“系統(tǒng)說明”字段進行綁定,綁定策略可在后臺配置文件中進行維護。
以矩陣方式集中展現(xiàn)a段、b段、c段等計算集群節(jié)點上運行應用情況。

10 矩陣視圖展示
5)自動化資源調(diào)度:通過對計算集群資源的全面監(jiān)控,及時掌控各集群節(jié)點的使用情況,結合資源調(diào)度功能實現(xiàn)自動化在線分配節(jié)點資源(釋放空閑節(jié)點的資源到業(yè)務緊張的節(jié)點中)。

11 資源調(diào)度
5 用戶收益
勤智OneCenter一體化智能運維平臺,能夠幫助川慶物探用戶找到問題出現(xiàn)的根源,比如哪些資源已經(jīng)超負荷,哪些資源處于閑置狀態(tài),并通過在線資源調(diào)度合理分配超負荷資源和閑置資源,使其得到高效利用。川慶物探能夠?qū)崟r掌控計算平臺上的應用運行情況,預知分配給應用的計算節(jié)點何時達到峰值。如果當前CPU利用率較低,就可以加載將要運行的軟件,提高平臺處理效率。
川慶物探反饋引入勤智OneCenter一體化智能運維平臺后,業(yè)務能夠更好地順利開展,所有可監(jiān)控的業(yè)務都做到了提前報警,計算集群節(jié)點使用狀況實時可控,實現(xiàn)了資源的統(tǒng)一、自動化管理,投資的軟硬件資源利用率更高。
6 案例亮點
本項目一期建設亮點如下:
1)實現(xiàn)對川慶物探核心網(wǎng)絡設備、計算和存儲集群資源全面監(jiān)控,結合ITAM平臺實現(xiàn)自動調(diào)用腳本實現(xiàn)計算集群資源的在線調(diào)度。
2)通過定制化需求對計算集群節(jié)點CPU、內(nèi)存性能指標進行集中展現(xiàn);以矩陣方式展現(xiàn)各計算集群節(jié)點運行業(yè)務應用情況。
3)通過定時代理方式在指定存儲節(jié)點上執(zhí)行腳本命令,獲取磁盤陣列文件系統(tǒng)目錄使用情況,并以圖表方式進行集中展現(xiàn)。
文章內(nèi)容僅供閱讀,不構成投資建議,請謹慎對待。投資者據(jù)此操作,風險自擔。
海報生成中...
海藝AI的模型系統(tǒng)在國際市場上廣受好評,目前站內(nèi)累計模型數(shù)超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創(chuàng)作風格。
IDC今日發(fā)布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。