cover
郑 佳琦 | Gengen

郑 佳琦


大模型算法 | 美团
Beijing

Education

  1. logo
    北京大学 硕士, 计算机技术 Grade : 4.0/4.3 (前20%) Sep 2024 - Present
  2. logo
    西安交通大学 学士, 金融工程 Grade : 4.0/4.3 (前20%) Sep 2018 - Jun 2022

Experience

  1. logo
    大模型算法 美团 May 2025 - Present • 10 mos

    • 基于 Qwen3-8B SFT 构建推荐语生成强化学习训练方案,使用 VERL框架,设计GRPO 实现组内相对优化;在 H20 多机环境结合 DeepSpeed/FSDP 进行分布式训练与稳定性优化,相比 SFT baseline 训练方差降低 40%

    • 设计“质量-真实性-合规性”三层 Reward:质量层使用酒店 CVR 弱监督数据训练 MTBERT 评分模型(Spearman 0.78);真实性层训练幻觉检测分类器(Acc 92%)进行扣分;调节层加入长度惩罚项。通过加权融合与消融实验确定权重,推荐语综合评分 +4%

    • 数据治理/数据流水线:在 XT 上搭建每日自动更新的训练数据表,沉淀特征与样本构建逻辑(按周/按月聚合 CVR/曝光/点击等统计用于弱监督标签构建与去噪),保障训练数据稳定供给与口径一致性。

    • 工程化与可复现:使用 Python 编写统一的“训练-推理-测评”流水线脚本,训练配置以 YAML 管理(模型/数据分区/reward 权重/多机参数等),支持快速复现实验与批量对比。

    • 评测体系:构建基于大模型评测的离线评估流程,对生成结果进行自动化打分与回归对比,辅助定位质量波动与 reward 设计问题。

Skills

  1. Linux
    Expert
  2. Python
    Expert

Languages

  1. 雅思
    Native speaker
  2. 六级
    Native speaker

Certifications

  1. logo
    校级社会工作奖 北京大学
  2. logo
    优秀学生 西安交通大学