近日,中國電信云計(jì)算研究院在智能故障監(jiān)測領(lǐng)域取得重要研究進(jìn)展,由王彥文、湯聞達(dá)、吳杰研究團(tuán)隊(duì)完成的論文《Nip it in the Bud: Unsupervised KPI Incipient Fault Detection via Dynamic Latent Feature Ensembling》被分布式系統(tǒng)可靠性領(lǐng)域國際頂級會議IEEE SRDS 2025接收。研究聚焦云計(jì)算環(huán)境中早期故障檢測的關(guān)鍵難題,為運(yùn)維系統(tǒng)可靠性保障提供了創(chuàng)新性解決方案。
在云計(jì)算和分布式系統(tǒng)日益復(fù)雜的背景下,如何實(shí)時(shí)監(jiān)控關(guān)鍵性能指標(biāo)(KPI)并精準(zhǔn)識別系統(tǒng)性能退化的早期信號,是保障服務(wù)連續(xù)性和用戶體驗(yàn)的核心挑戰(zhàn)。然而,受限于噪聲干擾、多元時(shí)間序列(MTS)的高維關(guān)聯(lián)性,以及缺乏充足標(biāo)注數(shù)據(jù),現(xiàn)有方法往往難以在KPI發(fā)生明顯異常前及時(shí)發(fā)現(xiàn)潛在故障。本研究提出一種新型無監(jiān)督檢測框架HEIMDALLR,旨在挖掘隱藏在KPI背后的初始微弱異常信號。該方法以面向KPI的動(dòng)態(tài)潛空間建模為核心,結(jié)合異常歸因機(jī)制,對潛在因果關(guān)系進(jìn)行刻畫與拆解。相比傳統(tǒng)方法,HEIMDALLR不僅在準(zhǔn)確率與誤報(bào)控制方面表現(xiàn)優(yōu)越,同時(shí)具備低計(jì)算開銷和高可解釋性,更適用于大規(guī)模云系統(tǒng)的實(shí)時(shí)部署需求。
IEEE SRDS (International Symposium on Reliable Distributed Systems) 是分布式系統(tǒng)可靠性領(lǐng)域歷史悠久的國際頂級會議,迄今已舉辦43屆,會議涵蓋分布式系統(tǒng)可信與隱私、容錯(cuò)自愈與實(shí)時(shí)技術(shù)、可信系統(tǒng)設(shè)計(jì)與評估等方向。SRDS 2025將于9月29日至10月2日在葡萄牙波爾圖召開。
作為中國電信科技創(chuàng)新的重要研究機(jī)構(gòu),中國電信云計(jì)算研究院持續(xù)推進(jìn)“智能泛在云”技術(shù)體系建設(shè),不斷深化前沿技術(shù)研究。本次在故障檢測領(lǐng)域的研究突破,不僅豐富了云網(wǎng)智能監(jiān)控的核心能力,也進(jìn)一步夯實(shí)了在無監(jiān)督智能診斷與高可靠分布式系統(tǒng)方向的技術(shù)儲備。該成果的發(fā)表將有力支撐大規(guī)模云系統(tǒng)在高可靠、低延遲運(yùn)維中的智能化演進(jìn),為下一代智能基礎(chǔ)設(shè)施提供堅(jiān)實(shí)的技術(shù)支撐。