胡天乐 | 简历
求职方向:大模型算法工程师

胡天乐

南京理工大学 / 2027届计算机科学与技术学硕在读

2027 届应届毕业生。兼具科研与产业实战经历。方向为多模态信息抽取,具有多模态命名实体识别与视觉定位(GMNER)、数据合成等方面经验。曾于中科院软件所、百度(北京)参与实习。在百度实习期间参与百度搜索首页视频重排序、生成式搜索结果事实巡检等项目, 具备从数据构建、模型训练到效果评估与线上优化的完整链路经验。

多模态信息抽取 视觉定位 多模态重排序 VLM / LLM PEFT

教育背景

南京理工大学

计算机科学与技术 · 学术型硕士(在读)
2024.09 – 2027.03

南京信息工程大学

计算机科学与技术 · 工学学士 / 荣誉学士
2020.09 – 2024.06

主要工作经历

百度 · 创新搜索策略组(算法)

2025.11 – 2026.02

搜索内容理解、多模态重排序

  • 围绕百度搜索视频场景,参与“基于故事图的多模态重排序算法”设计,聚焦视频内容理解、查询意图匹配与排序质量优化。
  • 基于视频 ASR / OCR 结果,通过 MRC 聚类生成转场点,并以带剪枝的密度算法补全关键时间戳;进一步抽取对应画面,融合文本、视觉与上下文元数据构建“故事图”实体。
  • 设计多维度评分指令与投票机制,构建偏好对数据集并微调 VLM,用于优化搜索首页结果中的视频质量与相关性。

生成式搜索事实校验

  • 参与基于 ReAct 的搜索召回结果事实校验算法研究,围绕用户满足度、结果冗余度、信息完整度等多维标准开展质量评估。
  • 围绕时间一致性、事实相关性与多信源交叉验证设计校验流程,降低生成式搜索中的事实性错误与幻觉风险。

中科院软件所 · ××领域××系统(算法)

2025.05 – 2025.11

科研经历与实践项目

面向多模态命名实体识别与视觉定位的数据合成方法研究

多模态大模型 / 数据增强 / 低资源信息抽取
  • 针对社交媒体新实体涌现快、人工标注成本高的问题,提出自动化数据合成方法,用于低成本扩充 GMNER 训练数据。
  • 设计并实现数据合成框架,结合多模态大模型理解与生成能力、传统数据增强及 Mask-and-Fill 策略,自动生成包含新实体且语义合理的图文对数据。
  • 实验表明,该方法可有效提升下游 GMNER 模型性能。

MiniLangModel:基于自注意力机制的小型自然语言模型

PyTorch / 自注意力 / 文本生成
  • 使用 PyTorch 基于一定规模小说文本训练小型语言模型,实现自注意力机制在自然语言生成中的应用。
  • 完成可变窗口分词、双向词典构建、位置编码设计与编码序列处理,通过堆叠自注意力层提取语义特征,实现语义较连贯的按序文本生成。

多模态命名实体识别与视觉定位框架 HTL

Google T5 / OFA / VinVL / LLM Bridge
  • 设计并实现 HTL(Hybrid Textual-visual Locator)流水线框架,用于从图文对中自动抽取实体、类型及其在图像中的视觉目标,形成规范三元组。
  • 将复杂 GMNER 任务拆分为多个子任务,综合运用 Google T5、OFA、VinVL 等预训练模型,并引入 LLM 作为桥接模块,增强实体信息丰富度与视觉定位精度。
  • 整体方案体现了多模态信息抽取、任务拆解与模块协同设计能力。
HTL 架构图

基于 CNN 的人脸识别系统

Python / PyTorch / ResNet
  • 针对人脸识别场景,使用 Python 与 PyTorch 搭建 ResNet 网络,实现较高正确率识别。
  • 独立完成开发,系统掌握神经网络数学基础、PyTorch 使用方法与模型搭建流程。
Ruilan 项目截图
其他项目
P5CCG 项目截图

Persona 5 Calling Card Generator

Python / C# / Avalonia

开源图像生成工具,提供 GUI 与 Python 后端,支持可定制化生成 Persona 5 风格 calling card。

Lambda Launcher 项目截图

Lambda Launcher

C# / WPF

Windows 快捷启动器,通过热键与单键触发提升常用应用的唤起效率。

Lighthouse Bookstore 项目截图

Lighthouse Bookstore

C# / WinForm / T-SQL / Database

书店管理系统,覆盖库存、销售订单与交易处理;负责数据库结构、界面设计与核心算法实现。

SMSIII 项目截图

SMSIII:学生管理系统

C++ / EasyX

完整独立开发的桌面管理系统,包含角色权限、信息管理与图形界面交互组件自实现。

更多
  • CCAC - Chinese Character Assembly Company: Unity 2D 教育游戏,围绕汉字部件拼装与学习趣味性设计。
  • Easy Monopoly: 基于 EasyX 的多人 Monopoly 风格 C++ 游戏。
  • Mr. Sole: Minecraft Fabric Mod,新增生物与唱片内容,项目开源。
  • Jove: 使用 Java EE 技术栈的在线交友平台。
  • UniLand Game: 基于 Unity 2D 的 5×5 棋盘策略游戏。
  • Zhiyan: 方言语音识别系统移动端视觉设计与交互原型。
  • What’s the Magic Wordle: Insights from the Puzzle 美国大学生数学建模竞赛论文。

专业技能

编程语言

熟悉 Python、C/C++ 等主流语言;了解 C#、Java、Rust 等语言;具备较扎实的算法实现与实验能力。

算法与框架

熟悉 Transformer、多模态对齐、指令微调、数据清洗;熟悉 PyTorch 与主流 Python 数据处理库。

大模型工程

熟练使用 LLaMA-Factory 等工具进行 LLM / VLM 的 PEFT;熟悉推理部署与实验迭代流程。

任务能力

覆盖数据构建、模型训练、评测设计、偏好数据构建、排序优化与事实校验等环节。

工程协作

熟悉软件工程与团队开发模式,熟练掌握 Git,具备独立推进项目的能力。

其他能力

具备桌面应用(Avalonia/Flutter/Slint/EasyX/...)和移动端应用(Flutter)数据库系统与视觉类项目开发经验。

竞赛与荣誉

奖学金与荣誉

  • 本科生国家奖学金(2023.12)
  • 江苏省三好学生(2023.05)
  • 南京理工大学一等奖学金(2024.09)
  • 南京信息工程大学校长奖学金(2023.05)
  • 南京信息工程大学三好学生标兵(2022.12)
  • 南京信息工程大学优秀学生干部(2022.12)

竞赛与项目荣誉

  • 美国大学生数学建模竞赛 ICM/MCM 荣誉奖(全球前 20%)
  • 蓝桥杯江苏赛区 C/C++ 程序设计大学 B 组一等奖(2022 / 2023)
  • “互联网+”大学生创新创业大赛校铜奖(主持)
  • 校程序设计竞赛团体赛金奖