职位描述
1、从商家运营、广告优化、内容运营、客服等真实业务中抽取高价值任务,设计评估任务集与协议;
2、构建大模型能力图谱与指标体系,覆盖任务完成度、业务收益代理指标(Proxy)、安全与合规;
3、研究并落地评测方法:LLM-As-A-Judge、多维Rubric、Pairwise比较、自动Red-Teaming(攻防评估)等;
4、运用统计/实验设计方法,对不同模型/策略进行严谨对比与归因分析;
5、与模型、算法、产品、运营等团队合作,定义不同业务线的大模型上线标准与健康度指标;
6、输出方法论、技术文档与内部分享,沉淀评估最佳实践。