职位描述
1、将电商、广告、本地生活等业务流程抽象为可交互环境(State/Action/Reward),构建评估用业务沙箱;
2、设计并实现大模型/Agent 自动评测流水线:任务编排、模型调用、日志采集、打分与报表;
3、工程化落地LLM-As-A-Judge、自动Red-Teaming(攻防评估)、风险检测等组件,保证稳定性、成本与吞吐;
4、对接推荐/广告平台/商家后台/风控等内部系统,将评估纳入模型研发与上线流程;
5、与算法研究员、其他算法团队及业务团队协作,共同优化评估覆盖度、效率与可解释性。