運維工程師
3000-9000元/月崗位職責:
負責由8卡16臺H100服務器構(gòu)成的算力集群的現(xiàn)場日常巡檢、運行監(jiān)控與系統(tǒng)維護,確保集群持續(xù)穩(wěn)定運轉(zhuǎn),保障算力服務的高可用性與輸出穩(wěn)定性。
實時掌握集群硬件運行狀態(tài),涵蓋服務器主機、GPU模組、網(wǎng)絡單元及存儲設備等,及時識別并處置硬件異常,包括故障部件更換、兼容性問題診斷與處理。
承擔集群操作系統(tǒng)的部署、驅(qū)動安裝、虛擬化平臺配置及相關軟件環(huán)境的更新優(yōu)化,保障軟硬件協(xié)同工作的高效性與兼容性。
維護集群網(wǎng)絡結(jié)構(gòu),確保各節(jié)點間通信暢通,及時排查網(wǎng)絡故障,實施性能調(diào)優(yōu),提升數(shù)據(jù)交互的穩(wěn)定性與傳輸效率。
定期開展集群性能評估與數(shù)據(jù)分析,采集關鍵性能參數(shù),針對瓶頸環(huán)節(jié)提出改進方案并落地執(zhí)行,持續(xù)提升整體計算效能。
制定并落實集群數(shù)據(jù)備份機制,保障信息資產(chǎn)安全,能夠在數(shù)據(jù)丟失或系統(tǒng)異常時快速完成恢復操作。
建立完整的運維技術(shù)文檔體系,包括設備清單、故障處理日志、標準操作流程等,確保運維過程規(guī)范、可查、可追溯。
參與集群擴容與版本升級項目,配合完成新設備上架、通電調(diào)試及現(xiàn)場技術(shù)支持工作。
對突發(fā)性系統(tǒng)故障具備快速響應能力,制定應急處理預案并組織實施,最大限度降低對業(yè)務連續(xù)性的影響。
關注行業(yè)前沿技術(shù)發(fā)展動態(tài),結(jié)合實際運維經(jīng)驗,提出切實可行的技術(shù)優(yōu)化與架構(gòu)改進建議。
任職要求:
學歷與專業(yè):本科及以上學歷,計算機科學與技術(shù)、電子信息工程、軟件工程、自動化等相關專業(yè)背景。
工作經(jīng)驗:
具備2年以上服務器集群運維實踐經(jīng)驗,有H100、A100等高性能GPU服務器運維經(jīng)歷者優(yōu)先考慮。
具有大型算力中心或數(shù)據(jù)中心現(xiàn)場支持經(jīng)驗者優(yōu)先。
專業(yè)技能:
熟悉服務器硬件組成,掌握CPU、內(nèi)存、硬盤、GPU等核心部件的工作機制及常見故障排查方法。
熟練掌握Linux系統(tǒng)(如CentOS、Ubuntu)的安裝配置、系統(tǒng)管理與性能優(yōu)化,具備常用命令操作及腳本開發(fā)能力(如Shell、Python)。
熟悉GPU驅(qū)動程序、CUDA環(huán)境的部署與調(diào)試流程,了解GPU虛擬化相關技術(shù)者優(yōu)先。
具備基礎網(wǎng)絡知識,理解TCP/IP協(xié)議棧,能完成交換機、路由器等網(wǎng)絡設備的基本配置與故障定位。
具有一定存儲系統(tǒng)認知,了解SAN、NAS等典型存儲架構(gòu)者優(yōu)先。
熟練使用主流監(jiān)控工具(如Zabbix、Prometheus)及日志分析工具,實現(xiàn)系統(tǒng)狀態(tài)可視化管理。
個人素質(zhì):責任心強,具備良好的職業(yè)操守,能適應高強度工作節(jié)奏和7×24小時應急值守要求。
具備出色的故障分析與解決能力,能夠獨立判斷并高效處理復雜系統(tǒng)問題。
擁有良好的溝通協(xié)作意識,能與研發(fā)、技術(shù)支持等多方團隊緊密配合。
工作嚴謹細致,重視操作規(guī)范,具備較強的文檔整理與撰寫能力。
持有RHCE、CCNA等相關專業(yè)技術(shù)認證者優(yōu)先。