必备条件:
统招本科,学信网可查,双证齐全。
优先条件:
无
岗位职责:
岗位职责
1. 参与自动化运维平台规划设计、实现及优化工作,提升集群与平台稳定性;
2. 负责线上 混合云Kubernetes 集群的运行和维护、性能调优、故障处理等
3. 负责维护与优化持续集成与持续交付流程与平台
4. 负责Kubernetes平台的运营优化、预算,制定相关运营规划;
5. 熟悉vmware vsphere, 负责维护VMware企业级虚拟化平台日常虚拟机的环境搭建.虚拟机的变更支持.故障处理等工作
6. 规划并落地大模型推理服务、Embeddings 服务、向量数据库等 Agent 基础设施的容器化与弹性伸缩
7. 建设 LangChain-Serve、FastAPI、vLLM、LLM-Gateway 等组件的交付流水线与 Observability 体系
任职要求:
岗位要求:
1. 本科及以上学历,五年以上运维工作经验,其中三年以上业务运维负责人或类似职位经验;
2. 熟悉 DevOps理念和实践,具备自动化构建、测试、部署和监控等方面的经验,熟练搭建Grafana/Prometheus/Jaeger/ELK 并具备调优经验,熟练使用CI/CD 工具(Jenkins、GitLab Cl)等;
3. 熟悉Kubernetes和容器运行时(docker、containerd等)的架构和基本运行原理,具备常见问题的诊断和排查能力;
4.熟悉各个第三方组件在 Kubernetes 集群内的部署、运行、调优工作,例如EMQX、Elasticsearch、Redis、Memcached、RabbitMQ、Kafka等中间件的运维部署
5. 熟悉Terraform/Ansible,具有多云管理编排经验(包括但不限于AWS、华为、阿里等),能熟练使用Java/Go/Python等一种或多种语言完成日常的运维脚本或工具的编写;
6. 有K8S多云集群管理与优化经验,包括但不限于多云镜像管理,镜像缓存&加速,成本优化;
7. 有K8S的扩展与开发经验优先,例如 operator mode 开发经验,调度器、rdma网络、CNI/CSI/CRI集成与优化
8. 熟悉 GPU Operator、KServe、vllm-operator 或类似大模型部署方案, 了解 Prompt/Chain 版本管理、Agent 日志 & Trace 采集规范
加分项
熟悉 LangChain / LlamaIndex / Semantic Kernel / AutoGPT / CrewAI 等框架
Agent Observability:LangSmith、PromptLayer、OpenTelemetry Trace
了解 ReAct、Plan-and-Execute、Multi-Agent 协作模式
向量数据库及 RAG:Chroma、Pinecone、Milvus、Weaviate
Prompt Engineering、Tool/Action 设计、Memory & Retrieval 策略
大模型生态:OpenAI、Claude、Gemini、LLama2/3、Qwen、Yi 等