必备条件:
统招,35以内
优先条件:
知名大厂及AI公司
岗位职责:
参与团队数据基础设施平台建设,构建新一代面向大规模模型的数据-训练-评测全链路流程,
工作内容包括:
1. 构建面向多模态数据(包括文本、图像和视频)的PB 级高吞吐数据处理系统;
2. 构建高吞吐、低延迟的数据解码与读取加载管道,以支持多模态模型的高效大规模训练;
3. 通过AI 技术手段实现Data+AI 的数据治理全链路,包括异构多源数据处理流水线编排、
数据读取加速及管理、数据语义理解与数据融合、数据Coreset 选取及合成等;
任职要求:
1. 计算机/软件工程等相关专业硕士及以上学历,拥有博士学位者优先;
2. 熟悉分布式计算原理,有大规模数据处理框架开发(如Hadoop/Spark/Flink)经验者优
先;
3. 了解传统大数据处理流程,拥有多模态数据处理工作经验者优先;
4. 熟悉AIGC/LLM 等领域的相关研究工作和算法;
5. 具备性能调优经验(资源调度、任务并行化、网络通信优化等);
6. 具备良好的沟通和协调能力,对前沿技术有强烈探索热情。