Python爬蟲開發(fā)工程師(Scrapy方向)
8000-18000元/月1. 基于Python+Scrapy框架開發(fā)高效、穩(wěn)定的網(wǎng)絡(luò)爬蟲,完成各類網(wǎng)站(電商/資訊/社交/企業(yè)信息等)的數(shù)據(jù)采集、清洗、存儲;
2. 分析目標網(wǎng)站結(jié)構(gòu)及反爬機制,制定并落地反反爬策略(如IP池、UA池、驗證碼識別、動態(tài)渲染頁面處理等);
3. 負責爬蟲系統(tǒng)的日常維護、監(jiān)控與優(yōu)化,解決爬蟲運行中的卡頓、漏采、封禁等問題,保障數(shù)據(jù)采集的完整性和時效性;
4. 對接業(yè)務(wù)需求,梳理數(shù)據(jù)采集規(guī)則,輸出標準化的數(shù)據(jù)格式,配合數(shù)據(jù)分析師/產(chǎn)品經(jīng)理完成數(shù)據(jù)應用落地;
5. 參與爬蟲架構(gòu)優(yōu)化,提升爬蟲集群的并發(fā)能力、容錯能力和可擴展性;
6. 編寫爬蟲開發(fā)文檔、接口文檔,沉淀技術(shù)方案和最佳實踐。
#### 三、任職要求
##### 【基礎(chǔ)要求】
1. 本科及以上學歷,計算機、軟件工程等相關(guān)專業(yè)(優(yōu)秀者可放寬至大專),1-3年(初級)/3-5年(中級)/5年以上(高級)Python爬蟲開發(fā)經(jīng)驗;
2. 精通Python編程語言,熟練使用Scrapy框架進行爬蟲開發(fā),熟悉Scrapy的核心組件(Spider、Item Pipeline、Middleware、Downloader等);
3. 熟悉HTTP/HTTPS協(xié)議,掌握請求頭、Cookie、Session、代理IP等爬蟲核心知識點,能獨立分析并突破常見反爬手段(如封IP、驗證碼、JS加密、動態(tài)加載、User-Agent驗證等);
4. 熟悉數(shù)據(jù)解析方式:XPath、CSS Selector、正則表達式,了解JSON/XML數(shù)據(jù)處理,能處理非結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù);
5. 熟悉常用數(shù)據(jù)庫(MySQL/Redis/MongoDB等),能根據(jù)數(shù)據(jù)特點選擇合適的存儲方案,具備基本的SQL優(yōu)化能力;
6. 具備良好的代碼規(guī)范和編程習慣,能獨立完成模塊開發(fā),有排查和解決線上問題的能力。
##### 【重點看】
1. 熟悉Selenium/Playwright/Pyppeteer等動態(tài)頁面渲染工具,有分布式爬蟲(Scrapy-Redis)開發(fā)經(jīng)驗;
2. 了解爬蟲監(jiān)控、日志分析工具(如ELK、Prometheus),有爬蟲集群部署和運維經(jīng)驗;
3. 有過驗證碼識別(OCR/打碼平臺對接)、滑塊驗證、短信驗證繞過等實戰(zhàn)經(jīng)驗;
4. 具備逆向工程基礎(chǔ),能分析JS加密邏輯(如AST、Hook);
5. 有電商/金融/政務(wù)類網(wǎng)站爬蟲開發(fā)經(jīng)驗優(yōu)先。