必备条件:
统招,AI大模型方向相关的优质人选都可以投递哈
优先条件:
阿里、腾讯、华为、字节等大厂
岗位职责:
职位描述:
1.参与AI大模型训练框架研发,支持百亿~万亿规模的稠密/MoE大模型的预训练、微调、强化学习、蒸馏;
2.通过5D并行加速、通信掩蔽、训推一体复用等技术,在国产异构算力上实现极致的大模型训练性能优化;
3.研发高效的故障定位系统和容错机制,保障大规模训练的稳定性,监控训练任务日志,快速识别和修复问题;
任职要求:
任职要求:
1. 有扎实的工程能力和算法基础,具备大模型分布式训练性能优化经验;
2. 掌握PPO/DPO/GRPO等RLHF技术,有大模型微调、蒸馏、强化学习相关经验者优先;
3. 熟悉PyTorch/Megatron/DeepSpeed等业界主流训练框架,熟悉TensorRT-LLM/vLLM/SGLang等大模型推理引擎;
4.具备国产算力硬件实操经验者优先。