珠海招聘算力驻场运维 -

必备条件:
统招本科
三年及以上工作经验
优先条件:
云计算
岗位职责:
1、智算平台运维：负责大规模GPU集群平台的日常运维与监控，确保平台稳定运行(N卡/国内GPU卡)；
2、算力模型适配支持、进行模型的上传下载适配工作、手册的输出
3、监控与报警：配置和管理监控系统，跟踪平台性能指标，及时发现潜在问题并进行预警；
4、支持自动化运维工具：学习和使用自动化运维工具，提高工作效率；
任职要求：
1、熟悉 Linux 系统管理与操作（如 CentOS、Ubuntu 等）及排障；
2.熟悉主流模型deepseekR1、llama3、千问等模型产品的使用，参与过大规模模型训练的集群运维；
3.有 AI 芯片（如 NVIDIA、华为昇腾、百度昆仑芯、Habana）的底层驱动调优经验，具备GPU集群管理经验（如NVIDIA DGX/SuperPOD）；
4.熟悉主流深度学习框架（PyTorch、TensorFlow）及分布式训练技术（FSDP/Deepspeed/Megatron-LM）；
5.熟悉操作系统调优（如内核参数优化、GPU 显存管理、NUMA 绑定）；
任职要求:
1、负责云上、云下存储系统风险点梳理，并根据风险点的级别，定制对应维护策略的执行和监督、制定和维护数据安全策略;
2、负责监控存储系统的日常状态，巡检、故障处理、容量及性能管理，资源分配与管理;
3、负责分布式块存储及文件存储的日常维护;
能力要求：
1、熟练掌握云上包含不限于华为云、阿里云等存储产品（如云硬盘/文件存储等）；
2、有存储产品运维经验，有Ceph、GPFS等块/文件存储部署、故障处理、资源开通及日常性能调优等维护的经验，
3、熟悉传统企业级文件系统、分布式文件系统优先，包含但不限于 Lustre, GPFS, Ceph, MinIO, JuiceFS, TiKV 等；
4、熟悉Linux系统，理解RAID、副本/EC、NFS、SMB、强一致性、故障域、RDMA等技术实现原理，了解io性能测试工具如DD/fio/vdbench等优先;

算力驻场运维

简历提交评估