身為站點可靠性工程師 (SRE),您的工作是保持重要係統平穩且有效率地運作。您將在開發和營運團隊之間工作,以確保系統可靠、快速並且能夠應對成長。您將使用工具、自動化任務並遵循最佳實踐來使系統更好、更易於管理。
主要任務:
- 建置可以處理大量使用且很少失敗的系統。
- 建立工具來自動執行任務並減少手動工作。
- 使用特定目標和指標(例如 SLO 和 SLI)追蹤和提高系統效能。
- 調查問題、找出原因並解決它們,以防止將來出現問題。
- 與不同的團隊合作,建立可靠的系統並在出現問題時進行處理。
- 解決資料庫、網路和系統平台(如 Kubernetes)的問題。
- 確保問題在商定的時間內得到解決。
- 尋找並修復系統中的效能問題。
- 保留清晰的流程和修復文檔,以便於共享和合規性。
所需技能:
- 了解 Python、Golang 或 Java 等程式語言。
- 擁有設計可靠且可擴展系統的經驗。
- 了解 SRE 原則(例如,SLO、SLI 和減少手動工作)。
- 熟悉雲端服務(例如 AWS、Azure 或 Google Cloud)。
- 強大的 Linux 系統管理和故障排除技能。
- 善於解決問題並獨立或團隊合作。
獎勵技能:
- 熟悉監控工具和系統效能優化。
- 具有系統管理自動化和腳本編寫經驗。
- 了解 DevOps 實踐(例如 CI/CD 和容器化)。
對於熱衷於解決技術挑戰和改進系統以使系統每天運作得更好的人來說,這個角色是理想的選擇。
- 有競爭力的薪資待遇
- 混合工作模式
- 檳城喬治城、新山和八打靈再也設有辦事處
Job Location
B02-D-06-1, Menara 3, KL Eco City,No 3, Jalan Bangsar,
Click to view the location on Google maps