必备条件:
1.统招本科及以上,计算机、电子工程、软件或相关专业;硕士优先(深度学习方向)
2.扎实的 PyTorch 编程经验(至少 2–3 年),能读懂并重构复杂模型代码。
3.熟悉 * 结构与训练细节(attention 机制、positional encoding、layernorm/bias、初始化、正则化等)。
4.熟悉DP/TP/PP(至少两种)在多 GPU/多节点上的实现与调优。
优先条件:
1.统招本科及以上,计算机、电子工程、软件或相关专业;硕士优先(深度学习方向)
2.扎实的 PyTorch 编程经验(至少 2–3 年),能读懂并重构复杂模型代码。
3.熟悉 Transformer 结构与训练细节(attention 机制、positional encoding、layernorm/bias、初始化、正则化等)。
岗位职责:
1.使用 PyTorch 从零或基于现有代码库实现 Transformer(Encoder/Decoder/Encoder-Decoder)及其变体,并保证代码结构清晰、可维护。
2.针对模型训练与推理进行性能优化:内存优化(activation checkpointing、gradient checkpointing、optimizer state sharding)、混合精度(AMP)、算子替换、fusion、kernel 优化等。
3.设计并实现大规模训练方案:DP、TP、SP、PP等并行方式的组合与调度,支持多节点多 GPU 群集。
4.熟练使用并能集成主流分布式训练库与工具:PyTorch Distributed、DeepSpeed、Megatron-LM等。
5.编写可靠的训练/验证/推理流水线:数据读取(高效 I/O、prefetch、bf16/float16 数据管线)、训练监控、自动恢复、checkpoint 策略与快速恢复。
6.性能分析与故障排查:使用 profiler(Nsight、nvprof、torch.profiler等)、系统指标(CPU/PCIe/网络/IO)定位瓶颈并提出改进方案。
7.与研究团队/产品工程师协作,把模型优化成果工程化,推动模型在集群/云/边缘上的稳定运行。
8.编写高质量单元测试、集成测试。
任职要求:
1.统招本科及以上,计算机、电子工程、软件或相关专业;硕士优先(深度学习方向)
2.扎实的 PyTorch 编程经验(至少 2–3 年),能读懂并重构复杂模型代码。
3.熟悉 Transformer 结构与训练细节(attention 机制、positional encoding、layernorm/bias、初始化、正则化等)。
4.熟悉DP/TP/PP(至少两种)在多 GPU/多节点上的实现与调优。
5.熟悉GPU编程与性能优化概念(CUDA、cuBLAS、cuDNN、NCCL、内存带宽、PCIe/IB 瓶颈)。
6.熟悉混合精度训练、梯度累积、优化器(Adam/AdamW)、LR 调度、梯度裁剪等。
7.良好的工程能力:Git、Docker、Linux 常用工具、脚本语言(Python、Bash)。
8.优秀的问题解决能力与沟通能力,能与跨职能团队协作完成工程落地。