大模型评估与环境算法研究员-Commercial AI

ByteDance

北京

方向：

算法, 研发

发布日期：

2026-01-13

初次查询：

2026-01-14

最新刷新：

2026-01-14

状态：

开放中

职位描述

1、从商家运营、广告优化、内容运营、客服等真实业务中抽取高价值任务，设计评估任务集与协议； 2、构建大模型能力图谱与指标体系，覆盖任务完成度、业务收益代理指标（Proxy）、安全与合规； 3、研究并落地评测方法：LLM-As-A-Judge、多维Rubric、Pairwise比较、自动Red-Teaming（攻防评估）等； 4、运用统计/实验设计方法，对不同模型/策略进行严谨对比与归因分析； 5、与模型、算法、产品、运营等团队合作，定义不同业务线的大模型上线标准与健康度指标； 6、输出方法论、技术文档与内部分享，沉淀评估最佳实践。

任职要求

1、计算机、数学、统计等相关背景，具有机器学习、NLP、推荐、广告、RL等经验、研究成果优先； 2、有语言模型/LLM/Agent相关研究或项目经验，工业项目或高质量科研/开源均可； 3、熟悉实验设计与基本统计方法，能设计合理对照实验并解释评估结果； 4、能将模糊业务问题抽象为可研究的技术问题，有清晰的问题分解和书面表达能力； 5、对如何可靠地衡量智能系统的真实能力与风险有浓厚兴趣与探索精神。

立即投递