必备条件:
无
优先条件:
具身智能公司,项目已经实行到小批量阶段
岗位职责:
职位描述
1、负责端到端语音识别大模型的训练、微调与优化,面向机器人语音交互场景、构建高鲁棒性识别能力;
2、基于 Whisper、Parakeet 等大规模预训练模型,进行压缩(蒸馏、量化)、结构优化与风格适配,提升模型推理效率与产品适配性;
3、研究并实现多模态融合识别方案,强化复杂场景下语音感知能力、推进先进训练范式落地;
4、联合VAD、声纹模块,构建具备全链路协同优化能力的语音系统;
5、关注生成式 AI 和多模态交互技术,对推动人形机器人智能化有热情。
任职要求:
职位要求
1、本科及以上学历,计算机、人工智能、电子、数学等相关专业;
2、出色的问题分析和解决能力,自主探索新解决方案的能力强;
3、关注生成式 AI 和多模态交互技术,对推动人形机器人智能化有热情;
4、熟悉当前主流语音大模型架构,具备 ASR 预训练/微调经验。
加分项:
1、有 Whisper 等大模型的蒸馏调优、参数高效微调(如 LoRA、Adapter)经验者
2、精通NeMo 等开源工具链,具备分布式训练与模型压缩能力;
3、有机器人语音系统研发经验或复杂语音场景(噪声、多人、跨语种)实战经验者;
4、在HCI、HRI、RSS、CVPR、ECCV、ICCV、NeurIPS、ICLR、SIGGRAPH或SIGGRAPH Asia等顶级会议/期刊上发表论文者;
5、具有优秀的代码能力和竞赛精神,ACM/ICPC、RoboMaster等比赛获奖者。