必备条件:
统招本科
三年及以上工作经验
优先条件:
云计算
岗位职责:
1、智算平台运维:负责大规模GPU集群平台的日常运维与监控,确保平台稳定运行(N卡/国内GPU卡);
2、算力模型适配支持、进行模型的上传下载适配工作、手册的输出
3、监控与报警:配置和管理监控系统,跟踪平台性能指标,及时发现潜在问题并进行预警;
4、支持自动化运维工具:学习和使用自动化运维工具,提高工作效率;
任职要求:
1、熟悉 Linux 系统管理与操作(如 CentOS、Ubuntu 等)及排障;
2.熟悉主流模型deepseekR1、llama3、千问等模型产品的使用,参与过大规模模型训练的集群运维;
3.有 AI 芯片(如 NVIDIA、华为昇腾、百度昆仑芯、Habana)的底层驱动调优经验,具备GPU集群管理经验(如NVIDIA DGX/SuperPOD);
4.熟悉主流深度学习框架(PyTorch、TensorFlow)及分布式训练技术(FSDP/Deepspeed/Megatron-LM);
5.熟悉操作系统调优(如内核参数优化、GPU 显存管理、NUMA 绑定);
任职要求:
1、负责云上、云下存储系统风险点梳理,并根据风险点的级别,定制对应维护策略的执行和监督、制定和维护数据安全策略;
2、负责监控存储系统的日常状态,巡检、故障处理、容量及性能管理,资源分配与管理;
3、负责分布式块存储及文件存储的日常维护;
能力要求:
1、熟练掌握云上包含不限于华为云、阿里云等存储产品(如云硬盘/文件存储等);
2、有存储产品运维经验,有Ceph、GPFS等块/文件存储部署、故障处理、资源开通及日常性能调优等维护的经验,
3、熟悉传统企业级文件系统、分布式文件系统优先,包含但不限于 Lustre, GPFS, Ceph, MinIO, JuiceFS, TiKV 等;
4、熟悉Linux系统,理解RAID、副本/EC、NFS、SMB、强一致性、故障域、RDMA等技术实现原理,了解io性能测试工具如DD/fio/vdbench等优先;