郑 佳琦
大模型算法 | 美团
Beijing
Education
- 北京大学 硕士, 计算机技术 Grade : 4.0/4.3 (前20%) Sep 2024 - Present
- 西安交通大学 学士, 金融工程 Grade : 4.0/4.3 (前20%) Sep 2018 - Jun 2022
Experience
- 大模型算法 美团 May 2025 - Present • 10 mos
基于 Qwen3-8B SFT 构建推荐语生成强化学习训练方案,使用 VERL框架,设计GRPO 实现组内相对优化;在 H20 多机环境结合 DeepSpeed/FSDP 进行分布式训练与稳定性优化,相比 SFT baseline 训练方差降低 40%。
设计“质量-真实性-合规性”三层 Reward:质量层使用酒店 CVR 弱监督数据训练 MTBERT 评分模型(Spearman 0.78);真实性层训练幻觉检测分类器(Acc 92%)进行扣分;调节层加入长度惩罚项。通过加权融合与消融实验确定权重,推荐语综合评分 +4%。
数据治理/数据流水线:在 XT 上搭建每日自动更新的训练数据表,沉淀特征与样本构建逻辑(按周/按月聚合 CVR/曝光/点击等统计用于弱监督标签构建与去噪),保障训练数据稳定供给与口径一致性。
工程化与可复现:使用 Python 编写统一的“训练-推理-测评”流水线脚本,训练配置以 YAML 管理(模型/数据分区/reward 权重/多机参数等),支持快速复现实验与批量对比。
评测体系:构建基于大模型评测的离线评估流程,对生成结果进行自动化打分与回归对比,辅助定位质量波动与 reward 设计问题。
Skills
- LinuxExpertNoviceBeginnerSkillfullExperiencedExpert
- PythonExpertNoviceBeginnerSkillfullExperiencedExpert
Languages
- 雅思Native speakerWorking knowledgeGood working knowledgeVery good commandHighly proficientNative speaker
- 六级Native speakerWorking knowledgeGood working knowledgeVery good commandHighly proficientNative speaker
Certifications
- 校级社会工作奖 北京大学
- 优秀学生 西安交通大学