🧕🏻 男 / 1996.12

✉️ [email protected]

🚀 github.com/chasezcz

🏠 北京

个人经历


小米集团 - 集团技术委员会 - 高级算法开发工程师

2022.07(应届)- 至今 青年工程师、优秀技术奖等,一作论文 1 篇,专利 2 篇,多次从0到1主导算法研究与项目开发。

中国科学院大学 - 软件工程 - 硕士

2019.09 - 2022.07

期间发表 EI 两篇,优秀毕业生、校级一等奖学金,获得数据挖掘、高级软件工程等优秀课设。

山东科技大学 - 物联网工程 - 本科

2015.09 - 2019.07 GPA:3.74/4.00(专业前5%)三好学生,校级二等奖学金一次,三等奖学金两次。

项目经历


面向多场景的非结构化数据画像建模与客户洞察

2024.10 - 至今

目标:从非结构化数据中建模用户画像,并利用LLM实现用户摘要与场景下用户分类。

负责:

**1. 画像建模及摘要生成:**算法架构设计与开发,将非结构化语料拆分为事实片段,基于 Qwen3 做事实提取与标签分类,并微调(QLoRA)模型以优化摘要总结准确性和稳定性,P 0.9x,R 0.8x,F1 0.9x,较baseline提升 F1 +12pp。(此项目对外不披露绝对值)

**2. 用户分类:**在给定的分类标准下训练 Qwen3 进行多分类,较传统 XGBoost/LightGBM 等机器学习模型,在私有数据集表现效果更好,高频场景F1 为 0.9x,低频场景F1 0.8x。不均衡问题采用 Imblearn + Focal Loss,F1 较baseline 提升 +6.1pp,强化低频场景泛化能力。

智能数据机器人

2023.11 - 2024.08 目标:理解用户意图,根据用户语义,进行语义理解,数据查询,智能分析,结果润色等环节,完成用户”查数、取数、用数“的需求。 负责: **1. NL2SQL:**自建 10 万样本数据集(库表多样化、复杂 JOIN/嵌套/Group By),基于 Qwen2-14B 指令微调 + Schema Linking + 约束解码(SQL Grammar)+ 增强一致性,在垂域评测 Exec Acc 0.94,对比 Spider 常见 top 模型在公司场景下 +5.2 pp。 **2. 检索&校验:**利于语义模型实现语义检索、SQL生成、执行校验、增强事实与自动重试。失败样例使用语义 topK 探索增强鲁棒性。

数据洞察与智能分析(已沉淀论文)

2022.10 - 2023.08 目标:对给定数据,分析数据中高价值洞察点,并自动完成智能分析与报告生成。 负责: **1. 算子体系建设:**实现异常检测、时序预测、变点检测、显著性、根因分析等算子并统一特征接口; **2. 报告自动生成:**基于 LLM 的操作序列学习(参考 InsightBench + 私有日志),模型能调用算子发现基础洞察、洞察量化、多洞察归纳成文;在内部评测 Acc 0.86,较 同期GPT4/Llama/Gemini 等模型在内部基线上取得更好效果。