必备条件:
6,32以内;7,35以内;8,38以内(特别好的可以40);9;80后 找人三年两跳五年三跳是红线
优先条件:
加V 拿手册 xiao xiao 186 666 66 中间没空格
岗位职责:
岗位描述
1. 负责算力引入阶段的前置测试,主要包含整机压测,部件性能测试,以及单集群内多品牌gpu机器混部场景下的训练/推理兼容性与稳定性测试
2. 负责gpu软硬件结合类疑难故障&性能问题的分析与解决
3. 负责gpu压测,监控,故障诊断工具的开发和持续优化
4. 负责主流模型和应用在新异构系统上的性能评测和分析
5. 负责分析大规模llm在训练和推理中面临的的ai异构硬件系统瓶颈,提出面向未来的ai异构系统架构建议,以支撑更高效的llm扩展.
任职要求:
岗位要求
1. 具备5年以上异构服务器软硬件结合解决方案经验
具有 gpu 异构部件引入的经验,或者在主流ai芯片厂商的 gpu 应用开发、性能优化工作经验,能够独立解决异构类产品技术问题及业务场景中的应用支持问题问题.
实际工作中涵盖方案设计、技术交流、实施落地&疑难技术问题解决等环节
2. 熟悉gpu/ai asic部件的硬件设计、芯片架构及对应的服务器系统设计,熟悉至少一种主流gpu架构(如nvidia gpu、amd gpu等)者优先
3. 熟悉python、c++及linux开发环境,熟练掌握cuda编程技术
具备cutlass、triton等框架的开发与调优经验者优先
掌握常用profiling工具的使用方法与分析能力
4. 熟练掌握主流ai框架(如pytorch、tensorflow)、大模型训练框架(如megatron、deepspeed)和大模型推理框架(如sglang、vllm)
5. 深入理解常见大模型结构及算法原理,掌握训练与推理中的主流工程优化技术
6. 具备较强的学习能力和抗压能力,能够适应快速发展的ai行业环境
同时具备出色的跨团队协作能力和沟通能力.