Bowen Cheng

Wiki Powered byIconIQ
Bowen Cheng

Bowen Cheng

程博文(Bowen Cheng)是 的人工智能研究员。他专注于多模态基础模型,并在 OpenAI 的重要人工智能项目(包括 GPT-4o)和特斯拉的完全自动驾驶 (FSD) 软件中做出了贡献。 [1] [2]

教育

程博文在伊利诺伊大学厄巴纳-香槟分校 (UIUC) 获得了电气与计算机工程 (ECE) 的理学学士学位和博士学位。在攻读博士学位期间,他的导师是 Alexander Schwing 教授和 Thomas Huang 教授。 [1] [2] [4]

职业生涯

截至 2025 年,程博文是 (MSL) 的研究员。在加入这个新成立的团队之前,他曾在 OpenAI 担任研究员,从事多模态理解和交互方面的工作。在 OpenAI 工作期间,他是专注于构建多模态模型的后期训练团队的成员。在加入 OpenAI 之前,程博文是特斯拉的高级研究科学家,在那里他从事 Autopilot 团队的工作。在他的学术生涯中,他曾在著名的技术实验室完成了多个研究实习,包括纽约市和门洛帕克的 Facebook AI Research (FAIR)、洛杉矶的 Google Research、雷德蒙德的 Microsoft Research 以及北京的 Microsoft Research Asia。 [1] [3] [2] [4] [5] [6]

程博文一直是人工智能领域多个备受瞩目的项目的核心贡献者。他的工作涵盖计算机视觉、自动驾驶和大规模多模态模型。

他的主要贡献包括:

  • Meta 超智能实验室:作为研究科学家加入了一个专注于高级人工智能研究和开发的团队。 [2]
  • OpenAI
    • GPT-4o:担任核心贡献者,专注于感知和高级语音模式,该模式在音频交互中具有显着降低的延迟。
    • Thinking with Images:发起研究并成为该项目的奠基贡献者,他将其描述为解决感知问题的范式转变。
    • o3 和 o4-mini:担任这些模型的核心贡献者。
    • GPT-4.1:被列为核心贡献者。
    • OpenAI Audio API:为下一代音频模型贡献了研究。 [1] [3]
  • 特斯拉
    • FSD v12:是特斯拉完全自动驾驶软件第十二版的核心贡献者。 [1] [3]
  • 学术研究
    • Mask2Former:一种通用的图像分割架构。
    • MaskFormer:一种全景分割架构。
    • Panoptic-DeepLab:一种自下而上的全景分割方法。

这些项目突出了他在分割转换器和多模态系统方面的工作。 [1] [5] [6]

研究兴趣

程博文的主要研究兴趣是构建实时多模态交互系统。他的目标是开发能够处理流式音频和视频输入以实时生成流式音频和视频输出的人工智能。他对这种系统的愿景包括无限上下文窗口以实现流畅交互、高级长期记忆功能以及在主动创建内容的同时保持最新信息的能力等功能。 [1] [6] [5]

参考文献

首页分类维基MC事件词汇表