深圳招聘计算加速工程师 -

必备条件:
硕士以上学历
优先条件:
百度
岗位职责:
岗位职责
1.负责大规模语言模型（LLM）分布式训练系统的性能优化，包括数据并行、模型并行、流水线并行（Pipeline Parallelism）等策略的工程实现与效率提升；
2.基于NVIDIA/AMD GPU硬件特性（如NVLink、InfiniBand互联、显存带宽优化），设计并优化分布式训练框架（如Megatron-LM、ColossalAI）的核心模块；
3.解决大模型训练中的显存瓶颈、通信延迟、计算负载不均衡等问题，开发高效显存管理、梯度压缩、混合精度训练等技术；
4.针对特定场景（如DeepSeek系列模型），优化DualPipe等定制化训练流水线，实现端到端训练吞吐量提升；
5.跟踪LLM训练技术前沿（如3D并行、ZeRO优化、动态计算调度），推动训练框架的迭代与创新。
任职要求:
岗位要求
1.熟悉NVIDIA CUDA/AMD ROCm编程，具备GPU内核优化经验（如PTX指令调优、显存带宽优化）；
2.精通Megatron-LM、DeepSpeed或Colossal-AI等分布式训练框架，有千亿参数模型并行训练实战经验；
3.熟悉大模型训练全流程优化（数据加载、梯度累积、通信压缩等），能通过Profiling工具定位性能瓶颈；
4.优先条件，熟悉异步强化学习训练框架（如VeRL、AReaL）、参与过Agentic RL训练优化，或者有DeepSeek系列模型优化经验（如DualPipe调度、MLA注意力优化）、参与过相关开源项目贡献等经验者优先

计算加速工程师

简历提交评估