Bowen Cheng

程博文（Bowen Cheng）是 Meta 超智能实验室的人工智能研究员。他专注于多模态基础模型，并在 OpenAI 的重要人工智能项目（包括 GPT-4o）和特斯拉的完全自动驾驶 (FSD) 软件中做出了贡献。 ^[1] ^[2]

教育

程博文在伊利诺伊大学厄巴纳-香槟分校 (UIUC) 获得了电气与计算机工程 (ECE) 的理学学士学位和博士学位。在攻读博士学位期间，他的导师是 Alexander Schwing 教授和 Thomas Huang 教授。 ^[1] ^[2] ^[4]

职业生涯

截至 2025 年，程博文是 Meta 超智能实验室 (MSL) 的研究员。在加入这个新成立的团队之前，他曾在 OpenAI 担任研究员，从事多模态理解和交互方面的工作。在 OpenAI 工作期间，他是专注于构建多模态模型的后期训练团队的成员。在加入 OpenAI 之前，程博文是特斯拉的高级研究科学家，在那里他从事 Autopilot 团队的工作。在他的学术生涯中，他曾在著名的技术实验室完成了多个研究实习，包括纽约市和门洛帕克的 Facebook AI Research (FAIR)、洛杉矶的 Google Research、雷德蒙德的 Microsoft Research 以及北京的 Microsoft Research Asia。 ^[1] ^[3] ^[2] ^[4]^[5] ^[6]

程博文一直是人工智能领域多个备受瞩目的项目的核心贡献者。他的工作涵盖计算机视觉、自动驾驶和大规模多模态模型。

他的主要贡献包括：

Meta 超智能实验室：作为研究科学家加入了一个专注于高级人工智能研究和开发的团队。 ^[2]
OpenAI：
- GPT-4o：担任核心贡献者，专注于感知和高级语音模式，该模式在音频交互中具有显着降低的延迟。
- Thinking with Images：发起研究并成为该项目的奠基贡献者，他将其描述为解决感知问题的范式转变。
- o3 和 o4-mini：担任这些模型的核心贡献者。
- GPT-4.1：被列为核心贡献者。
- OpenAI Audio API：为下一代音频模型贡献了研究。 ^[1] ^[3]
特斯拉：
- FSD v12：是特斯拉完全自动驾驶软件第十二版的核心贡献者。 ^[1] ^[3]
学术研究：
- Mask2Former：一种通用的图像分割架构。
- MaskFormer：一种全景分割架构。
- Panoptic-DeepLab：一种自下而上的全景分割方法。