您當前的位置：首頁 > 職位列表 > 職位詳情

運維工程師

3000-9000元/月

投遞簡歷

廣東-廣州-花都區(qū)

經(jīng)驗不限網(wǎng)絡運維 · 系統(tǒng)運維運維經(jīng)驗

2026-02-27 13:41:42 更新被瀏覽：247 次

中通服建設有限公司

最近在線時間：2026-02-27 13:41:42

電話：133********

地址：廣州市越秀區(qū)原道路17號

職位描述

崗位職責：
負責由8卡16臺H100服務器構(gòu)成的算力集群的現(xiàn)場日常巡檢、運行監(jiān)控與系統(tǒng)維護，確保集群持續(xù)穩(wěn)定運轉(zhuǎn)，保障算力服務的高可用性與輸出穩(wěn)定性。
實時掌握集群硬件運行狀態(tài)，涵蓋服務器主機、GPU模組、網(wǎng)絡單元及存儲設備等，及時識別并處置硬件異常，包括故障部件更換、兼容性問題診斷與處理。
承擔集群操作系統(tǒng)的部署、驅(qū)動安裝、虛擬化平臺配置及相關軟件環(huán)境的更新優(yōu)化，保障軟硬件協(xié)同工作的高效性與兼容性。
維護集群網(wǎng)絡結(jié)構(gòu)，確保各節(jié)點間通信暢通，及時排查網(wǎng)絡故障，實施性能調(diào)優(yōu)，提升數(shù)據(jù)交互的穩(wěn)定性與傳輸效率。
定期開展集群性能評估與數(shù)據(jù)分析，采集關鍵性能參數(shù)，針對瓶頸環(huán)節(jié)提出改進方案并落地執(zhí)行，持續(xù)提升整體計算效能。
制定并落實集群數(shù)據(jù)備份機制，保障信息資產(chǎn)安全，能夠在數(shù)據(jù)丟失或系統(tǒng)異常時快速完成恢復操作。
建立完整的運維技術(shù)文檔體系，包括設備清單、故障處理日志、標準操作流程等，確保運維過程規(guī)范、可查、可追溯。
參與集群擴容與版本升級項目，配合完成新設備上架、通電調(diào)試及現(xiàn)場技術(shù)支持工作。
對突發(fā)性系統(tǒng)故障具備快速響應能力，制定應急處理預案并組織實施，最大限度降低對業(yè)務連續(xù)性的影響。
關注行業(yè)前沿技術(shù)發(fā)展動態(tài)，結(jié)合實際運維經(jīng)驗，提出切實可行的技術(shù)優(yōu)化與架構(gòu)改進建議。

任職要求：
學歷與專業(yè)：本科及以上學歷，計算機科學與技術(shù)、電子信息工程、軟件工程、自動化等相關專業(yè)背景。
工作經(jīng)驗：
具備2年以上服務器集群運維實踐經(jīng)驗，有H100、A100等高性能GPU服務器運維經(jīng)歷者優(yōu)先考慮。
具有大型算力中心或數(shù)據(jù)中心現(xiàn)場支持經(jīng)驗者優(yōu)先。
專業(yè)技能：
熟悉服務器硬件組成，掌握CPU、內(nèi)存、硬盤、GPU等核心部件的工作機制及常見故障排查方法。
熟練掌握Linux系統(tǒng)（如CentOS、Ubuntu）的安裝配置、系統(tǒng)管理與性能優(yōu)化，具備常用命令操作及腳本開發(fā)能力（如Shell、Python）。
熟悉GPU驅(qū)動程序、CUDA環(huán)境的部署與調(diào)試流程，了解GPU虛擬化相關技術(shù)者優(yōu)先。
具備基礎網(wǎng)絡知識，理解TCP/IP協(xié)議棧，能完成交換機、路由器等網(wǎng)絡設備的基本配置與故障定位。
具有一定存儲系統(tǒng)認知，了解SAN、NAS等典型存儲架構(gòu)者優(yōu)先。
熟練使用主流監(jiān)控工具（如Zabbix、Prometheus）及日志分析工具，實現(xiàn)系統(tǒng)狀態(tài)可視化管理。
個人素質(zhì)：責任心強，具備良好的職業(yè)操守，能適應高強度工作節(jié)奏和7×24小時應急值守要求。
具備出色的故障分析與解決能力，能夠獨立判斷并高效處理復雜系統(tǒng)問題。
擁有良好的溝通協(xié)作意識，能與研發(fā)、技術(shù)支持等多方團隊緊密配合。
工作嚴謹細致，重視操作規(guī)范，具備較強的文檔整理與撰寫能力。
持有RHCE、CCNA等相關專業(yè)技術(shù)認證者優(yōu)先。