必备条件:
1.了解LLM大模型,熟悉大模型的数据建设原理,有一定的大模型调优、应用实践经验;
2.较强的工程实现能力,熟练掌握C/C++,JAVA,Python等至少一种语言;
3.熟悉大数据处理/分析相关工具/框架,包括但不限于Spark/Hive,有相关实践经验优先;
4.良好的数据分析能力,能够从数据集中洞察并提取有价值的业务信息,并提出优化方式;
5.具有较强的沟通协调能力,具备团队合作精神,能够独立思考、快速学习和解决问题;
6.有大模型测评或大模型数据管理相关工作经验优先
优先条件:
1.了解LLM大模型,熟悉大模型的数据建设原理,有一定的大模型调优、应用实践经验;
2.较强的工程实现能力,熟练掌握C/C++,JAVA,Python等至少一种语言;
3.熟悉大数据处理/分析相关工具/框架,包括但不限于Spark/Hive,有相关实践经验优先;
4.良好的数据分析能力,能够从数据集中洞察并提取有价值的业务信息,并提出优化方式;
5.具有较强的沟通协调能力,具备团队合作精神,能够独
岗位职责:
1.设计训练数据全生命周期管理方案,涵盖元数据与血缘管理、质量监控(异常检测/置信校准)、自动化评估体系,为模型训练提供稳定、可靠的高质量数据;
2.探索大模型强化数据及SFT数据合成路径,推动大模型中数据价值验证方法论的建设与落地;
3.抽象并开发高效、可靠的数据加工框架,全面管理数据,提供训练数据的可视化、可观测能力;提升训练数据治理的工程效率;
4.不断跟进业界前沿数据算法并进行落地,提高数据算法效果和效率,为大模型储备高质量的数据资源。
任职要求:
1.了解LLM大模型,熟悉大模型的数据建设原理,有一定的大模型调优、应用实践经验;
2.较强的工程实现能力,熟练掌握C/C++,JAVA,Python等至少一种语言;
3.熟悉大数据处理/分析相关工具/框架,包括但不限于Spark/Hive,有相关实践经验优先;
4.良好的数据分析能力,能够从数据集中洞察并提取有价值的业务信息,并提出优化方式;
5.具有较强的沟通协调能力,具备团队合作精神,能够独立思考、快速学习和解决问题;
6.有大模型测评或大模型数据管理相关工作经验优先