云原生后端高级研发工程师(AI Infra方向)

发布时间: 2025-10-19 02:45 工作地点: 北京、南... 薪资: 30-100万


岗位职责:
1. 平台架构设计与研发
- 负责核心后端服务的架构设计与实现(任务编排、数据流调度、算力资源调度、作业管控等);
- 参与系统模块化与微服务治理,建设高可用、可扩展的云原生服务体系。
2. 资源调度与计算优化
- 优化 GPU/CPU 等异构算力的利用率,提升集群调度效率与吞吐;
- 设计多队列、弹性调度、优先级策略等,提高资源利用率与成本效率。
3. 任务与数据闭环系统建设
- 参与构建任务生命周期管理系统(数据处理、调度、回灌);
- 设计大规模数据流转与自动化闭环处理机制(触发上传、任务回流、结果聚合)。
任职要求:
1. 本科及以上学历,计算机、软件工程、分布式系统相关专业优先,5年以上后端研发经验。
2. 精通 Golang / Python,具备扎实的工程实现与系统优化能力。
3. 深入理解 Kubernetes 核心组件(Scheduler、Controller、CRD、Operator)及云原生应用开发,有复杂调度/资源管理经验。
4. 熟悉 分布式系统设计,理解一致性、容错、负载均衡等原理。
5. 熟悉常用数据库Mongo、Mysql,掌握至少一种消息组件的使用和性能优化方案
6. 具备 云计算背景,熟悉 AWS、百度云、阿里云等主流云厂商的 PaaS/IaaS 服务。
7. 优秀的 问题分析与线上故障排查能力,能支撑大规模生产系统的稳定运行。
具备以下条件之一者优先:
1. 有 自动驾驶/AI 训练任务调度平台 开发经验,理解数据闭环、分布式训练与推理场景。
2. 熟悉或参与过 Volcano、KubeFlow、Argo Workflows、Ray、Fluid 等开源项目开发。
3. 有 GPU 调度、Gang Scheduling、多队列配额管理经验,能在 PB 级数据与万卡规模下进行性能优化。
4. 对 大规模集群资源利用率提升、任务吞吐量优化 有可量化成果。

简历提交评估