大數(shù)據(jù)運維工程師
1-1.2萬元/月崗位職責:
負責數(shù)據(jù)平臺部門的故障運營管理工作,主要包括:牽頭組織故障復盤會議、審核故障報告內容、推動故障待辦事項落地、基于故障記錄構建故障分析數(shù)據(jù)體系,以及開展穩(wěn)定性文化建設相關工作(如變更規(guī)范、定級標準、紅黃線規(guī)則等制度的推進與執(zhí)行)
任職要求:
故障管理與運營經(jīng)驗:
1、具有2年以上在互聯(lián)網(wǎng)或科技企業(yè)從事運維、SRE、技術運營或相關崗位的工作經(jīng)歷。
2、掌握互聯(lián)網(wǎng)行業(yè)故障全生命周期的管理流程,涵蓋故障發(fā)現(xiàn)、應急處置、升級匯報、事后復盤、整改措施跟蹤及閉環(huán)管理等環(huán)節(jié)。
3、曾獨立主導或深度參與重大故障復盤過程,熟練運用5Why、根因分析等分析方法進行問題歸因。
數(shù)據(jù)分析與報告能力:
1、具備較強的數(shù)據(jù)分析和歸納總結能力,能從大量故障數(shù)據(jù)中識別關鍵問題、共性規(guī)律和發(fā)展趨勢。
2、可獨立完成故障分析報告的撰寫、審閱與質量把控,確保報告結構嚴謹、根因清晰、改進方案具體且具備可操作性。
3、有使用SQL、Excel/Google Sheets等工具進行數(shù)據(jù)處理的經(jīng)驗,熟悉BI工具(如Tableau)并用于搭建和維護故障數(shù)據(jù)看板者優(yōu)先。
技術理解與流程認知:
1、對數(shù)據(jù)平臺常用組件(如Hadoop、Spark、Kafka、Flink、OLAP引擎等)有一定了解,能夠理解技術團隊在復盤中的專業(yè)討論內容。
2、熟悉軟件開發(fā)流程與運維體系,對變更管理、監(jiān)控告警、容量評估、高可用架構等保障系統(tǒng)穩(wěn)定性的核心領域有扎實認知。