首頁 > 技術(shù) > 正文

天天時(shí)訊:火山引擎DataLeap推出全鏈路智能監(jiān)控報(bào)警平臺(tái)

2023-04-07 16:00:00來源:中關(guān)村在線  

隨著大數(shù)據(jù)開發(fā)場景下需要運(yùn)維管理的任務(wù)越來越多,在日常運(yùn)維中開發(fā)者經(jīng)常會(huì)面臨以下幾個(gè)問題:

1.任務(wù)多,依賴關(guān)系復(fù)雜:很難查找到重要任務(wù)的所有上游任務(wù)并進(jìn)行監(jiān)控。如果監(jiān)控所有任務(wù),又會(huì)產(chǎn)生很多無用報(bào)警,導(dǎo)致有用報(bào)警被忽視;

2.配置運(yùn)維成本高:每個(gè)任務(wù)的運(yùn)行情況不一樣,承諾完成時(shí)間不一樣,如果單獨(dú)對(duì)每個(gè)任務(wù)設(shè)置監(jiān)控,分析及人工對(duì)齊任務(wù)服務(wù)級(jí)別協(xié)議(SLA)成本非常高;


(資料圖)

3.報(bào)警形式多樣性:對(duì)于小時(shí)級(jí)的任務(wù),不同時(shí)段的報(bào)警及時(shí)性要求不同,普通監(jiān)控?zé)o法滿足不同時(shí)段多樣的報(bào)警需求。

為了幫助企業(yè)開發(fā)者更好地解決這一問題,及時(shí)平穩(wěn)完成日常運(yùn)維、高效保障數(shù)據(jù)質(zhì)量,字節(jié)跳動(dòng)數(shù)據(jù)平臺(tái)開發(fā)套件數(shù)據(jù)開發(fā)團(tuán)隊(duì)自研了基于依賴關(guān)系的全鏈路智能監(jiān)控報(bào)警——基線監(jiān)控,它能根據(jù)任務(wù)運(yùn)行情況,智能決策是否報(bào)警、何時(shí)報(bào)警、如何報(bào)警以及向誰報(bào)警,貫穿整條任務(wù)產(chǎn)出鏈路,避免出現(xiàn)環(huán)節(jié)缺失,保障鏈路完整性。目前基線監(jiān)控已在字節(jié)跳動(dòng)內(nèi)部得到廣泛使用,覆蓋抖音、電商、廣告等100+個(gè)項(xiàng)目,服務(wù)級(jí)別協(xié)議(SLA)任務(wù)的基線監(jiān)控覆蓋率超過80%。

當(dāng)前,該能力已通過火山引擎DataLeap向企業(yè)開放。企業(yè)可以通過火山引擎DataLeap的基線監(jiān)控功能,有效降低監(jiān)控配置成本、避免無效報(bào)警及報(bào)警泛濫。

圖:火山引擎DataLeap監(jiān)控范圍

火山引擎DataLeap默認(rèn)監(jiān)控的范圍包括:基線保障任務(wù)及保障任務(wù)上游的所有任務(wù)。如上圖所示,保障任務(wù)D,E及它們所有的上游節(jié)點(diǎn)都會(huì)納入基線監(jiān)控范圍,而任務(wù)C,F(xiàn)不受基線監(jiān)控。值得一提的是,火山引擎DataLeap的基線監(jiān)控允許用戶配置基線監(jiān)控只覆蓋“指定項(xiàng)目”下的任務(wù),此時(shí)基線監(jiān)控的范圍就只包含了保障任務(wù)及這些項(xiàng)目下的上游任務(wù)。

圖:火山引擎DataLeap基線監(jiān)控整體架構(gòu)

火山引擎DataLeap基線監(jiān)控由基線管理模塊、基線實(shí)例生成、基線埋點(diǎn)檢測等構(gòu)成,各模塊功能詳情如下:

基線管理模塊:負(fù)責(zé)基線創(chuàng)建、更新、刪除等操作,管理基線元信息,包括保障任務(wù),承諾時(shí)間,余量及報(bào)警配置等;

基線實(shí)例生成:火山引擎DataLeap每天定時(shí)觸發(fā)生成基線實(shí)例,生成實(shí)例的同時(shí)根據(jù)保障任務(wù),由下而上逐層遍歷 (BFS)所有上游任務(wù)并生成基線監(jiān)控埋點(diǎn)。生成基線監(jiān)控埋點(diǎn)的過程中,火山引擎DataLeap會(huì)計(jì)算每個(gè)任務(wù)節(jié)點(diǎn)的預(yù)測運(yùn)行時(shí)長,承諾時(shí)間,預(yù)警時(shí)間,預(yù)警最晚開始時(shí)間,承諾最晚開始時(shí)間。此外,火山引擎DataLeap會(huì)給基線監(jiān)控任務(wù)添加基線出錯(cuò)/變慢報(bào)警規(guī)則,當(dāng)任務(wù)執(zhí)行觸發(fā)規(guī)則后,通過基礎(chǔ)報(bào)警服務(wù)發(fā)送基線報(bào)警事件;

監(jiān)控埋點(diǎn)校驗(yàn):系統(tǒng)維護(hù)一個(gè)延遲隊(duì)列,火山引擎DataLeap會(huì)根據(jù)校驗(yàn)時(shí)間點(diǎn)(預(yù)警最晚開始時(shí)間,承諾最晚開始時(shí)間以及破線加劇時(shí)間校驗(yàn)點(diǎn)),同時(shí)火山引擎DataLeap會(huì)定時(shí)觸發(fā)監(jiān)控埋點(diǎn)校驗(yàn)任務(wù)實(shí)例運(yùn)行狀態(tài),如果在時(shí)間點(diǎn)實(shí)例未運(yùn)行成功,產(chǎn)生基線預(yù)警/破線報(bào)警事件,發(fā)送報(bào)警。

未來,火山引擎DataLeap的研發(fā)人員將繼續(xù)針對(duì)基線監(jiān)控進(jìn)行優(yōu)化,如基線關(guān)鍵路徑分析、基線實(shí)例生成效率優(yōu)化等,不斷提高基線監(jiān)控算法性能,完善基線鏈路分析能力,提升用戶體驗(yàn),向企業(yè)級(jí)市場提供更強(qiáng)大的全鏈路監(jiān)控運(yùn)營服務(wù)。(作者:崔崗)

標(biāo)簽:

相關(guān)閱讀

精彩推薦

相關(guān)詞

推薦閱讀