职位描述
本岗位覆盖以下主要技术方向:
方向一:文本/多模态预训练
• 设计和优化千亿级参数大模型的分布式训练系统,支持文本基座预训练和原生多模态训练的正确性、性能和稳定性
• 负责训练框架核心模块(通信、调度、容错、Checkpoint、数据加载)的架构设计和性能优化,在同等硬件条件下持续提升训练吞吐
• 协同算法迭代和硬件演进,针对新模型架构(MoE、超长序列、多模态融合)快速完成训练适配和性能验证
• 作为工程Pipeline的上游起点,持续推进训练Infra的架构迭代方向
方向二:强化学习框架
• 构建并提升在线RL训练系统的性能和Scale能力,打通策略更新、环境交互、奖励建模的端到端训练流程
• 支持Chat/Thinking/Agentic以及未来多种RL范式(PPO/GRPO/DPO等),和算法Codesign推进RL架构迭代
• 设计高效的Actor-Critic架构、经验回放机制和分布式采样系统
• 负责RL训练的性能瓶颈分析和优化,包括GPU利用率提升、通信开销降低、训练稳定性保障
方向三:异构算力适配
• 建设迭代多种异构算力(GPU/NPU等)的验证和适配方案,包括稳定性保障、精度验证和高性能runtime
• 开发调优GPU和NPU架构的通信算子,推进超节点架构的最佳实践
• 面向RL采样场景,深入优化NPU架构的推理性能
• 跟踪硬件生态发展,评估新硬件的技术价值,输出选型建议和规模化落地方案
方向四:高性能内核
• 定制开发高性能计算内核,深入发掘GPU/NPU等不同硬件架构的优化空间
• 推进算子开发范式的迭代,探索自动化算子生成(如LLM辅助生成高性能kernel)