cover
Joey Wang | Gengen

Joey Wang


音频算法工程师 | 汇顶科技
Singapore

Summary

AI算法工程师,拥有4年工作经验,擅长语音识别、说话人识别、性别识别、音频大语言模型等技术。曾主导研发基于NN-HMM和端到端语音识别系统,在远场开放域识别场景下取得了优秀的识别率。同时,在音频降噪、语音通话技术方面也有丰富的经验。

Education

  1. logo
    四川大学 硕士, 模式识别与智能控制 Sep 2017 - Jun 2020
  2. logo
    重庆邮电大学 本科, 电气工程及其自动化 Sep 2013 - Jun 2017

Experience

  1. logo
    音频算法工程师 汇顶科技 Jul 2020 - Aug 2021 • 1 yr 2 mos

    参与自研gooidx_voice_call2语音通话降噪算法的研究与落地,进行ENC算法开发工作,研究真无线蓝牙耳机(TWS),采用多麦克风采集语音数据,基于波束形成、回声消除、后置滤波、风噪检测与抑制等算法模块实现语音高音质、低损失、强降噪的通话性能。项目职责: • 在搭建算法框架的过程中,为防止产生内存碎片和内存泄露,负责使用RAM堆空间模拟栈结构,统一管理算法模块使 用的动态内存空间; • 调研风噪检测和抑制算法相关论文、专利,使用Matlab实现算法原型,并进行仿真验证; • 基于Visual Studio平台,独立完成风噪检测和抑制算法模块从Matlab原型设计到C代码实现的转换,并对降风噪模块 进行持续的优化和改进; • 基于DSP硬件平台和Xplorer软件平台,采用HiFi3语言对风噪模块原型进行工程实现,并使用流水线等技术进行 memory开销和MIPS资源优化。

  2. logo
    语音识别算法工程师 达闼机器人 Sep 2021 - Jul 2024 • 2 yrs 11 mos

    1、参与自研基于NN-HMM混合语音识别系统的研究与落地工作,流式解码,在远场开放域识别场景下,中英文code- swtiching识别率为82%,RTF为0.2。 • 语言模型:爬取约300G无监督文本数据,进行文本清洗,使用SRILM训练4-gram约4G的基本语言模型,并使用领 域相关文本数据进行增强。 • 解码器:构建HCLG,使用基于WFST的解码器进行解码,并开发解码器工程引擎对接服务器。 • 热词系统:使用基于Kaldi开发的on-the-fly二级热词系统,可配置全局通用热词,也可根据Agent配置客户热词。 2、主导自研基于端到端语音识别系统的研究与落地工作,包括流式联合CTC/Conformer和流式Paraformer算法,在远 场开放域识别场景下,中英文code-swtiching识别率为91%,RTF约0.2。 • 声学模型:使用约60000小时有监督训练数据,迭代第二代基于CTC/Conformer的流式声学模型,使用音节作为建 模单元;在第二代基础上,迭代第三代使用BPE和字符作为建模单元的流式声学模型;迭代第四代基于Paraformer的 流式声学模型。 • 语言模型:沿用混合系统n-gram语言模型,增强文本建模能力和领域自适应能力。 • 解码器:构建TLG,仍使用基于WFST的解码器进行解码,并优化解码器工程引擎以适配新声学模型。 • 热词定制系统:修改TLG结构以支持on-the-fly热词系统,并开发热词自定义多发音功能;在第四代系统中,引入 NN-embedding热词模块。 主导自研声纹验证系统的研究与落地工作,准确率为98.3%(测试条件:1m距离,30人,每人20句,声纹库有相应 注册声纹) • 基于有说话人标注的数据,训练基于5层TDNN和注意力机制的说话人识别模型,提取fc1层的输出作为说话人嵌入向 量x-vector。 • 开发声纹验证工程引擎对接服务器。 2、主导线上会议系统项目中无监督说话人聚类模块的算法和工程实现,可在无说话人标签的情况下为每句话打上说话人 标签,在内部采集测试集上准确率达85%(超过竞品73%) • 基于自研模型提取参会者的声纹特征。 • 原创性地设计一种无监督的声纹聚类算法,无需指定说话人数量和标签,可自适应地区分说话人。并形成专利。 性别识别 主导自研基于语音的性别验证系统的研究与落地。修改说话人识别模型扩展到性别识别,在600句男女各半的测试集上准 确率达95.71%,并开发性别识别工程引擎对接服务器。 音频大语言模型 调研音频大语言模型Qwen-Audio相关论文、模型架构,推理验证其在ASR任务上的性能,并对比自研产品。

Skills

  1. 语音识别
    Expert
  2. Kaldi
    Expert

Languages

  1. 中文
    Native speaker
  2. 英文
    Native speaker

Certifications

  1. logo
    CET6