必备条件:
统招
优先条件:
大厂
岗位职责:
1.教育背景
-统招本科及以上学历,计算机、软件工程、云计算相关专业优先;
2.工作经验
-3年以上容器运维经验,主导或深度参与过千级Pod规模的集群维护;
-熟悉生产环境容器化全生命周期管理,包括部署、监控、扩缩容、故障恢复等场景;
-有多云环境/混合云管理经验;
-头部互联网/云计算大厂优先;
3.技术能力
-精通Kubernetes架构及生态工具(如Etcd、Calico、Istio、volcano),具备集群性能调优经验(如APIServer负载均衡、节点调度优化);
-精通K8S gpu 调度vgpu、k8s device-plugin、精通CRI/CSI/CNI;
-熟练使用Docker、Prometheus、Grafana、ELK等工具链,熟悉云原生安全体系(如镜像扫描、RBAC策略、网络策略);
-具备运维开发能力,能使用Python/Go开发自动化工具(如自定义Operator、监控告警脚本)。
任职要求:
岗位职责
-负责千节点级Kubernetes集群(GPU+NPU)的建设与稳定性保障,包括版本升级、故障排查、资源利用率优化;
-设计高可用架构,解决APIServer性能瓶颈、etcd存储压力等大规模集群特有问题;
-主导容器化架构调优(如Pod调度策略、网络插件选型、存储方案设计),优化资源请求/限制配置以减少资源争用;
-建立容器安全防护体系,包括漏洞扫描、运行时安全监控(如Falco)、合规审计;
-解决生产环境疑难问题(如OOM、网络延迟、存储性能瓶颈),输出标准化SOP文档;
-协同研发团队优化微服务架构,推动ServiceMesh等新技术落地;