国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院

  • 首頁 > 企業IT頻道 > 人工智能

    B站出圈背后,誰來為業務創新和系統穩定護航

    2023年05月29日 11:27:48 來源:數智前線

      云原生的應用創新經驗,正在被行業上下游不斷提起和討論,其實踐也正從行業先鋒、先進應用企業開始走向千行百業。

      文|徐鑫

      編|任曉漁

      AI孫燕姿在B站火了。

      最近幾年,B站時常有新的內容形態和話題破圈?缒晖頃底秩、虛擬直播、大型賽事,各種新內容消費場景帶來了用戶規模的快速擴張。數據顯示,B站月均活躍用戶數從2019年Q4的1.16億增長到了2022年Q4的3.26億。伴隨著用戶和內容破圈,B站的平臺系統復雜性也快速增加。

      這對云上的運維、穩定性及成本管理都提出了新的要求。B站在云上系統穩定和高可用系統的治理有不少實踐。以云上的系統穩定為例,B站已經建成了完備的SRE(站點可靠性工程)質量運營體系,SRE質量運營團隊在云上掃雷,積累了保障B站安全穩定運營的豐富經驗。

      日前,在全球云原生交流平臺“創原會”組織的走進B站的活動上,這些經驗也分享給了來自不同行業、關注云原生應用的與會者們。

      新一波技術浪潮來勢洶涌,內容平臺云上業務創新迎來了新機遇,也給確定性運維提供了新的可能性。前端的業務洶涌創新背后,都離不開先進的平臺底層架構的支撐。早已完成云原生改造的企業們已經享受到了紅利,在降本增效的大背景下,這些企業已經開始探討更深一層的成本和性能平衡問題。

      01

      誰在為平臺保駕護航

      B站技術團隊沒有浪費任何一次風險處理經驗。

      2021年發生過一次故障處理事件,處理過程被他們視作一次經典的案例,現在已經被盤出了包漿。不僅在內部學習,B站技術團隊將它整理制作成了復盤文章和視頻,講述從發現到協同SRE質量運營團隊及相關技術人員解決問題的過程。如同打怪一般,挖掘平臺穩定運營的風險點并排除風險,引了數百萬人閱讀和圍觀。

      這一出圈的過程,某種程度是當下互聯網平臺普遍面臨系統穩定性考驗的縮影。

      隨著互聯網逐漸滲透到更廣泛人群,國內主要平臺用戶體量已達到了驚人的數字。軟件系統越來越復雜,業務變更速度快,往往更容易導致質量問題。一旦出現故障,損失也頗為嚴重。有機構統計,一小時的宕機可給IT企業帶來損失超過100萬元。

      實際上各大平臺做了不少努力,來提升系統穩定性。例如,大企業內部都建了非常多的平臺,包括工程平臺、壓測平臺、容量預估平臺、變更管理平臺等來同步信息。通常,企業內也有非常多人力來保證系統穩定,比如多數公司里都有測試、運維和研發等多個團隊來配合作業。但這些平臺普遍存在信息孤島問題,而故障和穩定性是有時間跨度的周期問題。許多企業缺乏從整個質量周期層面來管理和應對風險及故障。

      在創原會組織的技術分享會上,B站SRE體系負責人劉昊向與會人士介紹,B站十分關注云上的應用程序可靠、可用和安全,專門設立了SRE質量管理團隊來監控和管理故障的事前、事中和事后的流程。

      劉昊認為,要從故障預防、故障發現、故障定位、故障恢復、故障改進的全生命周期來關注和運營故障,企業也需要通過平臺化能力去提升故障發現效率、降低故障恢復的時長,最終能夠深挖故障價值,并確保改進措施能夠有效落實。

      B站做了非常多細節工作來確保這套理念的落地。例如,針對故障事前、事中、事后,做了事件運營中心。這個中心收斂了上游的各種報警系統、客訴系統、輿情系統、變更系統,通過人工上報和自動上報結合的方式監測各類系統內的報警信息。

      一旦有事件發生,首先接入到風險預警體系,最后才判斷是不是故障。風險預警相當于掃雷,基于統一的事件識別來挖掘各類風險,要把潛在風險挖出來,管控風險,提升效率,還要讓風險的一些指標可度量。

      有些沒兜住的預警會產生故障。其中非常重要的工作是,讓需要知道故障信息的人士得到該知道的信息。B站有兩套體系可以完成組織、業務和人的匹配,既可以通過組織架構找到與業務相關的人,也能通過內部的投訴系統把職責、業務、團隊關聯在一起。匹配完成后,質量運營體系還會再做一些冗余事件聚類降噪,使各類故障信息就能通告到各個關注方。

      為了讓已經發生過的故障產生價值,他們還設置了非常詳細的,包含了定性問題和定量問題,來提升復盤文檔的價值。

      那份出圈的2021年故障復盤,B站的技術團隊現在還在反芻。劉昊向與會的創原會成員們解釋,這一過程有助于企業內形成對故障處理的肌肉記憶,讓新進入團隊的新人能夠學習企業技術架構模式及協同方式,從而規避類似的故障。“外面熱搜都炸了,新來的研發還在慢吞吞看代碼的BUG,團隊已經形成了SOP(標準作業流程),但他可能完全想不到去看SOP。”他的比喻引發現場人士會心一笑。

      與會者們也好奇,SRE質量運營團隊在組織內的角色定位和價值如何度量。一位同樣在內容平臺的技術人員發出靈魂拷問,“SRE是否必須為公司所有業務的故障背鍋,有SRE,故障次數一定要下降嗎?”

      劉昊對此毫不猶疑,在他看來,如果正確認知了SRE的角色,就很難成背鍋俠。“SRE要背的指標是,如果系統內實際有20個風險點,SRE只挖出了2個風險點,剩下的18個沒能和業務方一起挖出來。這就是SRE的錯。”另外,他認為,如果質量運營體系實現了全面覆蓋,但故障增多,SRE要能提供數據分析出薄弱環節,讓技術團隊知道系統的薄弱點,才能投入技術和人力資源去改善。

      快速的業務變化和系統變動下,SRE體系正扮演B站站點可靠性工程層面的白帽子角色,排除故障,保障云上系統安全穩定。

      02

      業務創新紅利來自云原生改造

      B站業務蓬勃創新的出圈過程中,除了掃雷的站點可靠性工程白帽子們存在,還有非常多幕后角色在細分技術戰場發揮作用。

      AIGC爆火,加速了各大內容平臺的創新速度。B站也有不少AIGC相關產品來豐富內容生態。例如,去年3月開始,B站正式推出了虛擬直播專區,主播可以自定義長什么樣,自由選擇身材和衣服配套,定制自己的虛擬角色,虛擬玩法。

      高校的研究也給內容平臺的AIGC熱潮加了一把火。最近開源社區有人使用浙江大學教授趙洲團隊推出的AIGC相關的生成式語音模型DiffSinger,這款產品很快在B站獲百萬瀏覽量。趙洲介紹,此前他們的產品AudioGPT沒有辦法跟用戶進行交互,有了ChatGPT之后他們調用了它的框架,幫助自己的產品理解用戶的意圖。

      小紅書音視頻架構的負責人陳靖感受到了這股趨勢。他判斷,2022年開始內容生產明顯進入了智能時代。在創原會的分享上,陳靖坦言,過去曾感覺AIGC內容并不那么靠譜,但隨著大模型實現智能涌現,他認為,AIGC將給創作者提供啟發,賦能創作鏈路,內容創作領域也會出現智能化浪潮。

      除了業務本身,大模型給智能運維也帶來一些新的可能性,但這還在探索之中。創原會副理事長、華為云Marketing部長董理斌與華為云的一些工程師交流時發現,在售后維護場景下,工程師們已經利用AI開發了一些類似知識問答的系統,助力可靠性運維。這類系統可以在網絡出現故障后,根據過去的經驗給出處理建議。當下工程師們也在思考,基于大模型能否利用網絡上各種各樣的歷史數據,能否加速模型的積累,推動知識類產品從過去的知識問答發展到自動處理和操作。

      劉昊同樣認為智能運維是未來的發展方向,他也判斷仍需時間才能落地,問題出在智能運維場景下,喂給模型的高水平的SOP語料比較缺乏。不過在單點運維場景,AI技術已在B站實際場景中發揮作用,例如,底層資源維護層面,大數據場景下的磁盤故障預測,可通過AI手段實現。

      無論是面向用戶的業務場景創新,還是企業內的各類新興服務嘗試,離不開底層技術的支撐,其中既包括新的云上的技術方案使用,也包括底層架構的云原生化改造。

      以B站的虛擬直播為例,這個新場景出現后,不少開通虛擬直播的主播已經順利完成了吸粉和商業化進程。實際上,用戶能體驗到虛擬直播絲滑、低延時和高質量的內容體驗,與B站此前在現象級直播事件中打造出的邊緣分布式方案分不開。

      通常情況下,直播需要保證過程里的穩定性、降低時延,同時有伸縮性且成本較低。比如B站的英雄聯盟S12全球總決賽直播,為期35天,91場賽事,直播間實時人氣突破3.1億。流量洪峰的考驗下,B站聯合華為云共同建設了B站的分布式直播方案,消除了之前統一轉碼源站的單點故障,增強了直播過程中的穩定性、安全性,同時依托中心云平臺上的海量彈性資源池,按需調度,更好地提升了用戶的互動體驗。

      除了極限場景里磨練出來的方案,B站當下的業務創新還離不開一個底層角色——經過云原生化改造的平臺架構。

      B站在2017年下半年開始了以Kubernetes引領的底層架構的云原生改造。劉昊告訴數智前線,在C端消費者感知層面,當時傳統架構模式的劣勢尚不明顯,但是技術團隊已經發現了一些典型問題。例如,在緩存上容器時,用其他的方案做緩存服務的PaaS化。配置熱更新后,容器沒有辦法原地生效。但如果重啟又會影響業務進行,而在Kubernetes架構下能很方便完成更新,實現容器快速擴容。同時,內部平臺的接口豐富度和底層操作系統層的適配度,經過云原生化改造后也大大提升。

      2019年開始,B站就嘗到了紅利。隨著用戶群體開始破圈,內部應用數量也飆升。劉昊記得,內部應用一開始只有1000個,從2019年下半年快速增長,到當下已經有2萬多個應用,幾年內十倍增長。服務增長通常會帶來軟件開發的管理成本上升,保障團隊的管理成本也飆升。

      但經過云原生化的改造后,開源社區有非常多的現成工具,B站可以直接使用現有的技術成果,避免了團隊規模的指數級增長。先進的底層架構還方便他們把外部資源如華為云作為資源的備用池,一旦出現大型活動容量突增場景,可以快速接入外部資源,保障了應用的穩定可用。

      03

      深度用云時代的成本優化

      完成了云化改造后,相關技術團隊開始更深一步重視“協同”、“優化”等,其中云上的成本成本管理問題日益凸顯。

      小紅書音視頻架構部門負責人陳靖觀察到,國內主流視頻處理平臺架構的演進經歷了從單體服務自建機房,逐步到計算存儲CDN云化,之后通過容器技術,實現了微服務架構,今天已經基本向Serverless云原生化演進。

      這些變化是伴隨著內容平臺的業務挑戰而來。過去十年里,內容發布數量飆升,用戶對音視頻的質量要求在提高,為了更好提供服務,平臺也需要同步加速在內容平臺的處理速度,并且要以相對低的成本完成。

      “由于很早開始云服務,小紅書得以將主要精力投入到業務研發,快速迭代升級,從業務速度、媒體質量和整體成本三個方面實現了平衡。”陳靖介紹。

      陳靖團隊內部關注到了一個案例。亞馬遜的Prime Video是一個識別用戶查看視頻質量問題的應用,最初亞馬遜的技術團隊用了很多分布式組件來實現。后來這個服務的性能比較差,經過排查,他們發現Step Functions居然是瓶頸的所在。

      亞馬遜的技術人員很疑惑,很好的技術為什么在這個場景里會有瓶頸?他們把這個服務整個遷到單體,降低了90%的成本,整體伸縮性反而有提高。這使行業內開始討論微服務的應用場景問題。

      微服務能很快把應用架構搭起來,幾周甚至幾天驗證出對客戶的價值,這是單體的架構很難實現的。而經過微服務驗證價值后,如果基于企業內節省資源,降低成本的考量,在特定業務場景里,就可以采用單體方案。

      陳靖介紹,目前在小紅書的業務場景里,技術團隊會優先考慮使用微服務,但他們也發現,在一些公司里可能會存在這樣的情況,技術團隊希望通過微服務達到架構清晰、方便理解的效果,但最后卻出現微服務開發越來越多,越迭代越復雜的情況。

      如何避免過度使用微服務呢?以Prime Video為例,它只是一個大的業務架構里的監控用戶視頻質量的小功能,陳靖認為這并不是一個值得分拆的組件,用單體化的方式去實現難度并不大。

      華為云容器服務首席架構師張琦從云上資源利用的角度來提供了另一種看法。張琦在自己接觸的大量案例中發現,在經過容器化改造之后,業務拆分成很小的微服務,業務團隊需要為每一個微服務申請資源。過程中,業務團隊通常會給微服務運行需要的資源量留出余量。當每一個微服務都有它的buffer,加起來以后,整個的資源占用比單體的時候要多很多。從這個例子中可以看出云上資源管理和成本控制的必要性。一份調查顯示,全球范圍內超過90%的受訪企業已經開始FinOps實踐。

      張琦介紹,在業界談論得較多的FinOps解決方案中,都會提供了一個成本洞察和成本優化的大盤,可以給財務團隊、運營支撐團隊、IT團隊等提供相應的決策參考。具體的方案上,會用各類技術手段,把此前公司內部業務的煙囪式的資源池作優化,統一調配,融合調度、混合部署,解決資源利用率的問題,華為云也基于云原生基礎設施構建了相關的技術降本的解決方案,比如通過微服務和批量計算任務分時使用資源消減集群和節點資源碎片;提供隊列、組、作業優先級、公平調度、資源預留等多種抽象,統一滿足微服務、大數據、AI多業務調度需求;并在CPU、內存等多維度上為應用提供高優低優的自動控制,使資源分時復用,提升資源利用率;同時通過打通多集群資源池,為應用提供統一的資源視圖,實現部署運行最優、服務流量治理最優。

      他用一個客戶的案例舉例,該客戶的應用部署在自己的集群里,大數據任務和其他業務服務混在一起,此前使用時會出現干擾。如果沒有任何控制,會嚴重影響到業務運行的質量。通過一系列技術手段干預,整體提升了資源利用率,最后資源利用率提升到了40%多。

      Gartner預測,到2025年,云原生平臺將在超過95%的新數字計劃中作為基礎,而此前2021年的數據只有不到40%。隨著廣大的企業完成云原生的改造,企業的關注重心也在改變。

      八年前,云原生技術興起之際,產業上下共同的合力推動了開源生態的標準共建、技術開放、成果共享。后云原生時代,云原生企業的應用實踐,云廠商的創新解決方案和開源技術社區的開放共創,正在推動技術生態的進一步完善。創原會這樣的開放技術交流平臺,匯集行業人士探討新的技術應用和落地實踐,正在推動云原生的最佳實踐從先鋒和先進應用企業走向千行百業。

      文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。

    海報生成中...

    最新新聞

    熱門新聞

    即時

    全球頂級AI創作社區回歸!海藝AI國內首發“全民娛樂化創作

    海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。

    新聞

    市場占比高達35.8%,阿里云引領中國AI云增長

    9月9日,國際權威市場調研機構英富曼(Omdia)發布了《中國AI云市場,1H25》報告。中國AI云市場阿里云占比8%位列第一。

    企業IT

    華為坤靈發布IdeaHub千行百業體驗官計劃,助力中小企

    9月24日,華為坤靈召開“智能體驗,一屏到位”華為IdeaHub千行百業體驗官計劃發布會。

    3C消費

    雅馬哈推出兩款高端頭戴耳機YH-4000與YH-C3000

    雅馬哈昨日宣布推出兩款頭戴式耳機,分別是平板振膜的YH-4000和動圈原理的YH-C3000。

    研究

    IDC:2025上半年全球智能家居清潔機器人出貨量同比暴

    IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。

    国产九九视频一区二区三区_亚洲欧美资源在线_精品国产自在久精品国产_成人午夜黄色影院
    | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |