LongCat - 大模型训练 AI 工程师(多方向)

美团
北京市, 上海市
核心本地商业-基础研发平台
方向:
算法
发布日期:
2026-05-29
首次查询:
2026-05-29
最新刷新:
2026-05-29
状态:
开放中
职位描述
本岗位覆盖以下主要技术方向: 方向一:文本/多模态预训练 • 设计和优化千亿级参数大模型的分布式训练系统,支持文本基座预训练和原生多模态训练的正确性、性能和稳定性 • 负责训练框架核心模块(通信、调度、容错、Checkpoint、数据加载)的架构设计和性能优化,在同等硬件条件下持续提升训练吞吐 • 协同算法迭代和硬件演进,针对新模型架构(MoE、超长序列、多模态融合)快速完成训练适配和性能验证 • 作为工程Pipeline的上游起点,持续推进训练Infra的架构迭代方向 方向二:强化学习框架 • 构建并提升在线RL训练系统的性能和Scale能力,打通策略更新、环境交互、奖励建模的端到端训练流程 • 支持Chat/Thinking/Agentic以及未来多种RL范式(PPO/GRPO/DPO等),和算法Codesign推进RL架构迭代 • 设计高效的Actor-Critic架构、经验回放机制和分布式采样系统 • 负责RL训练的性能瓶颈分析和优化,包括GPU利用率提升、通信开销降低、训练稳定性保障 方向三:异构算力适配 • 建设迭代多种异构算力(GPU/NPU等)的验证和适配方案,包括稳定性保障、精度验证和高性能runtime • 开发调优GPU和NPU架构的通信算子,推进超节点架构的最佳实践 • 面向RL采样场景,深入优化NPU架构的推理性能 • 跟踪硬件生态发展,评估新硬件的技术价值,输出选型建议和规模化落地方案 方向四:高性能内核 • 定制开发高性能计算内核,深入发掘GPU/NPU等不同硬件架构的优化空间 • 推进算子开发范式的迭代,探索自动化算子生成(如LLM辅助生成高性能kernel)
任职要求
• 计算机、电子工程、数学等相关专业硕士及以上学历 • 3年以上大模型训练/推理/分布式系统相关开发经验 • 熟悉PyTorch/Megatron-LM/DeepSpeed等主流框架中至少一个的内部实现 • 熟悉至少一种分布式并行策略(DP/TP/PP/SP/EP)的原理和实现细节,或有高性能算子开发经验 • 扎实的C++/Python/CUDA编程能力,有性能优化经验 • 有实际参与过10B+参数规模模型训练的项目经验