工作职责:
职位描述:
我们正在寻找一位专注多模态视觉理解的算法工程师。您将主要负责利用多模态大模型技术,从海量街景图片与视频中自动发现、识别与更新地图POI信息,提升地图数据的鲜度、广度与精度,为用户提供更智能、更沉浸的出行与生活服务。本岗位兼具前瞻性技术探索与规模化业务落地的双重属性,你将有机会完整参与从创新模型研究到核心业务系统迭代的全过程。
主要职责:
1. 前瞻性模型预研与业务驱动研发:探索并研发适用于大规模街景图像/视频理解的下一代视觉-语言大模型(VLM),重点攻克POI变化发现、细粒度属性理解等关键课题,并将创新技术转化为实际业务解决方案。
2. 端到端业务落地与闭环优化: 主导多模态POI发现技术在“高德扫街榜”等核心业务中的集成、优化与全流程落地。
3. 前沿技术跟踪与创新: 持续跟踪多模态理解、视频表征学习、地理空间智能等领域的最新进展,探索技术边界发表高质量论文,实现空间感知理解的学术突破,持续迭代核心算法,达到业界sota。
1. 基础要求: 计算机科学、人工智能、遥感等相关专业硕士及以上学历,具备3年及以上计算机视觉或多模态算法研发经验。
2. 核心技术能力:
· 精通多模态理解的主流模型与方法(如Qwen-VL、BLIP、Grounding DINO等)。
· 具有丰富的图像/视频理解项目经验,熟悉时序建模、弱监督学习等相关技术者更佳。
· 熟练掌握PyTorch、DeepSpeed、Transformers等主流框架,具备扎实的Python/C++编程和模型调试能力。
3. 方法论经验: 掌握大模型微调(SFT)、LoRA、强化学习、提示工程等技能,有实际模型训练与调优经验。
4. 优先条件:
· 在CVPR、ICCV、ECCV、NeurIPS、ICLR等顶级会议发表过多模态、计算机视觉相关论文。
· 有地理信息处理、街景理解、大规模图像检索或相关项目经验。
· 具备同时参与过前沿技术预研和大型业务系统算法开发的经验者优先。
5. 个人特质: 对技术创新有强烈热情,兼具前瞻性的研究视野和务实的工程落地能力,具备优秀的问题解决能力、自驱力和团队协作精神。
任职要求:
1. 基础要求: 计算机科学、人工智能、遥感等相关专业硕士及以上学历,具备3年及以上计算机视觉或多模态算法研发经验。
2. 核心技术能力:
· 精通多模态理解的主流模型与方法(如Qwen-VL、BLIP、Grounding DINO等)。
· 具有丰富的图像/视频理解项目经验,熟悉时序建模、弱监督学习等相关技术者更佳。
· 熟练掌握PyTorch、DeepSpeed、Transformers等主流框架,具备扎实的Python/C++编程和模型调试能力。
3. 方法论经验: 掌握大模型微调(SFT)、LoRA、强化学习、提示工程等技能,有实际模型训练与调优经验。
4. 优先条件:
· 在CVPR、ICCV、ECCV、NeurIPS、ICLR等顶级会议发表过多模态、计算机视觉相关论文。
· 有地理信息处理、街景理解、大规模图像检索或相关项目经验。
· 具备同时参与过前沿技术预研和大型业务系统算法开发的经验者优先。
5. 个人特质: 对技术创新有强烈热情,兼具前瞻性的研究视野和务实的工程落地能力,具备优秀的问题解决能力、自驱力和团队协作精神。