工作职责:
负责淘宝闪购深度模型和超大规模训练推理,支持万亿规模的稠密及稀疏训练推理优化,结合分布式系统、高性能计算、异构计算,探索性能边界,支撑超大规模模型的训练及推理部署
我们关注超大规模模型训练及推理系统,为深度学习模型提供算力基座
岗位职责:
1、支持百亿-万亿规模的稠密模型、稀疏模型训练,在千卡集群上,实现多种分布式训练架构,以及强化学习训推一体复用等技术,消除各类大规模模型分布式训练的瓶颈
2、支持大规模深度模型的推理部署性能优化,通过高性能计算、分布式计算、异构计算、编译优化等手段,在千卡集群上,解决大尺寸模型的推理性能瓶颈
3、深入工程和算法协同,结合大规模推荐、大语言、多模态算法,探索适合业务的创新训练范式
1、计算机相关专业本科及以上学历,具有扎实的工程算法基础,掌握各种编译、调试、性能分析工具
2、极佳的工程实现能力,精通C/C++、Python,熟悉常用的机器学习框架(如TensorFlow、PyTorch、vLLM等)
3、具备良好的计算机体系结构知识,理解异构GPU硬件的工作原理,了解异构计算(CUDA)
4、具备良好的沟通能力和团队合作精神,对新技术充满热情,具备强烈的责任感和学习能力
任职要求:
1、计算机相关专业本科及以上学历,具有扎实的工程算法基础,掌握各种编译、调试、性能分析工具
2、极佳的工程实现能力,精通C/C++、Python,熟悉常用的机器学习框架(如TensorFlow、PyTorch、vLLM等)
3、具备良好的计算机体系结构知识,理解异构GPU硬件的工作原理,了解异构计算(CUDA)
4、具备良好的沟通能力和团队合作精神,对新技术充满热情,具备强烈的责任感和学习能力