必备条件:
5年以上基础设施架构设计或分布式系统开发经验,熟悉AI和机器学习应用的基础设施需求。
应用层架构
高阶不超过45岁,控制在35-40的
薪酬高阶的话open,现金+股票
学历211/985,如果过往经历很优秀,沟通很好的,可以推普本
优先条件:
字节/华为/腾讯等云厂优先,AI应用层架构公司也可以推
岗位职责:
1)设计和构建高效的AI基础设施平台,支持大语言模型的推理和承载,支持多模态模型的承载。
2)深入优化平台的性能和硬件资源使用效率,优化AI模型的存储和计算资源利用,包括GPU/TPU、内存、带宽、存储等,提升系统的可靠性、性能和扩展性。
3)与其他团队密切合作,提供训练和推理基础设施的技术支持和优化方案。
任职要求:
1)计算机科学、软件工程或相关专业,本科及以上学历,硕士或以上学历优先。
2)5年以上基础设施架构设计或分布式系统开发经验,熟悉AI和机器学习应用的基础设施需求。
3)精通Kubernetes、Docker、Hadoop、Spark等分布式系统技术,具备大规模计算集群的部署和运维经验。具备云计算平台(如AWS、阿里云等)上的资源管理和部署经验,熟悉Terraform、Ansible等基础设施自动化工具。熟悉CI/CD流程,具有MLOps经验,掌握模型的持续集成与部署(如Kubeflow、MLflow)。
4)有GPU/TPU加速集群的构建和优化经验,了解NVIDIA CUDA、TensorRT、vllm等深度学习推理优化工具。优秀的性能调优技能,能够分析并解决分布式环境中的性能瓶颈,熟悉GPTCache、KVCache等。
5)熟悉大规模训练和推理下的运维和排障方式,具备AI基础设施可观测性设计能力和故障定位能力。
6)出色的沟通能力,善于跨团队协作,具有支持多团队AI项目的经验。
加分项:
1)有参与建设和优化大规模AI推理平台的经验。
2)熟悉ONNX Runtime、TensorFlow Serving等模型服务化技术。
3)在开源项目或社区贡献过代码或有AI基础设施架构相关技术博客和论文者优先