I am a graduate student with a strong interest in Artificial Intelligence, particularly in Computer Vision and Multimodal Learning. I have hands-on experience in developing and implementing AI models for tasks such as multimodal retrieval and intelligent surveillance systems. I am proficient in C++, Python, OpenCV, and YOLO, and have a solid academic background with a GPA of 3.88/4.00. I am seeking a position as an AI algorithm engineer specializing in computer vision and multimodal directions.
1 11
核心开发者 | 导师实验室
Singapore
Summary
Education
- 河北工业大学 本科, 人工智能与数据科学学院 Grade : GPA: 3.88/4.00 专业排名:11/142(前8%) 已修课程:高等数学(96)、复变函数(97)、概率论(97)、操作系统(93)、数据结构(89)、计算机组成原理(88) Aug 2023 - Present
Experience
- 核心开发者 导师实验室 May 2025 - Dec 2025 • 8 mos
项目背景:本项目依托于导师实验室课题组,聚焦于边缘计算与多模态感知在无人系统中的应用研究。 核心工作:负责设计“端-边-云”协同架构:基于Jetson Xavier NX平台搭建嵌入式硬件系统,融合可见光与红外双光视觉数据,利用YOLO与OpenCV实现动态目标的实时检测与追踪;设计基于RTSP/WebRTC的低延迟双路视频流传输协议,解决了复杂网络环境下的远程监控难题;开发边缘端数据预处理与云端决策控制的协同算法,实现了本地自主巡检与远程人工接管的无缝切换,验证了轻量化模型在边缘侧部署的可行性。 项目成果:成功构建了“端-边-云”协同的无人小车智能巡检原型系统。实现了在动态复杂环境下的高精度目标识别与低延迟视频回传,验证了多模态感知与边缘计算在无人巡检场景中的有效性。
- 核心开发者 面向专利 PDF 的多模态检索增强问答系统 Jan 2026 - Apr 2026 • 4 mos
项目背景:针对专利文档中图文混排、长文本理解及跨页证据定位的学术难点,设计并实现了一套基于多模态大模型的检索增强生成框架。 核心工作:利用PyMuPDF构建页面级图像与文本的统一索引结构,解决了非结构化数据的模态对齐问题;提出BM25+Dense+Visual的混合检索策略,通过图文协同证据定位与邻域页面加权算法,显著提升了长文档检索的召回率,指标达到;针对不同题型设计了差异化的模态融合机制,并基于结构化提示词工程优化了大模型的答案生成逻辑,增强了系统对复杂专利信息的推理能力。 项目成果:显著提升了问答系统的性能表现,Char-F1 指标上达到0.3849, Rouge-L 指标达到0.3726。
Skills
- c/c++Expert
- pythonExpert
Languages
- CET-4Native speaker
- CET-6Native speaker