大模型训练架构师

发布时间: 2025-10-22 01:13 工作地点: 北京 薪资: 50-135万

必备条件:
1. 学历要求:本科及以上学历,计算机相关专业;
2. 工作经验:无要求;
3. 专业能力:
- 有大模型实操研究经历、预训练或指令微调经验,熟悉QWen、LLaMA、Deepseek等大模型的训练和部署;
优先条件:
1. 学历要求:本科及以上学历,计算机相关专业;
2. 工作经验:无要求;
3. 专业能力:
- 有大模型实操研究经历、预训练或指令微调经验,熟悉QWen、LLaMA、Deepseek等大模型的训练和部署;
岗位职责:
1. 负责大模型训练架构层面训练与加速支持,包括使用DeepSpeed、Megatron-ML实现TP、PP等并行框架
2. 负责结构化数据大模型核心算法的前沿技术探索与落地,包括超大规模预训练、指令微调、强化学习等,从多语言角度出发,解决幻觉、长文本等问题;
3. 负责模型加速与优化,轻量化设计与处理,包括模型剪枝/量化等算法研发。
任职要求:
1. 学历要求:本科及以上学历,计算机相关专业;
2. 工作经验:无要求;
3. 专业能力:
- 有大模型实操研究经历、预训练或指令微调经验,熟悉QWen、LLaMA、Deepseek等大模型的训练和部署;
- 对DeepSpeed、Megatron-ML等框架非常熟悉;
- 有TP、PP并行实操经理,熟知底层原理与实现方式;
- 扎实的计算机和深度学习基础,能够灵活应用解决实际问题;
- 熟悉大模型、深度学习原理和基本模型,熟练使用常用深度学习工具;
- 较强的算法实现能力,掌握Python/C++/C等语言。
4. 个人素质:
- 具有较强的学习能力和创新精神;
- 具备良好的团队合作精神和抗压能力;
- 具备较强的责任心。

简历提交评估