LongCat - 大模型训练 AI 工程师（多方向）

美团

北京市, 上海市

核心本地商业-基础研发平台

方向：

算法

发布日期：

2026-05-29

首次查询：

2026-05-29

最新刷新：

2026-05-29

状态：

开放中

职位描述

本岗位覆盖以下主要技术方向：方向一：文本/多模态预训练 • 设计和优化千亿级参数大模型的分布式训练系统，支持文本基座预训练和原生多模态训练的正确性、性能和稳定性 • 负责训练框架核心模块（通信、调度、容错、Checkpoint、数据加载）的架构设计和性能优化，在同等硬件条件下持续提升训练吞吐 • 协同算法迭代和硬件演进，针对新模型架构（MoE、超长序列、多模态融合）快速完成训练适配和性能验证 • 作为工程Pipeline的上游起点，持续推进训练Infra的架构迭代方向方向二：强化学习框架 • 构建并提升在线RL训练系统的性能和Scale能力，打通策略更新、环境交互、奖励建模的端到端训练流程 • 支持Chat/Thinking/Agentic以及未来多种RL范式（PPO/GRPO/DPO等），和算法Codesign推进RL架构迭代 • 设计高效的Actor-Critic架构、经验回放机制和分布式采样系统 • 负责RL训练的性能瓶颈分析和优化，包括GPU利用率提升、通信开销降低、训练稳定性保障方向三：异构算力适配 • 建设迭代多种异构算力（GPU/NPU等）的验证和适配方案，包括稳定性保障、精度验证和高性能runtime • 开发调优GPU和NPU架构的通信算子，推进超节点架构的最佳实践 • 面向RL采样场景，深入优化NPU架构的推理性能 • 跟踪硬件生态发展，评估新硬件的技术价值，输出选型建议和规模化落地方案方向四：高性能内核 • 定制开发高性能计算内核，深入发掘GPU/NPU等不同硬件架构的优化空间 • 推进算子开发范式的迭代，探索自动化算子生成（如LLM辅助生成高性能kernel）

任职要求

• 计算机、电子工程、数学等相关专业硕士及以上学历 • 3年以上大模型训练/推理/分布式系统相关开发经验 • 熟悉PyTorch/Megatron-LM/DeepSpeed等主流框架中至少一个的内部实现 • 熟悉至少一种分布式并行策略（DP/TP/PP/SP/EP）的原理和实现细节，或有高性能算子开发经验 • 扎实的C++/Python/CUDA编程能力，有性能优化经验 • 有实际参与过10B+参数规模模型训练的项目经验

立即投递