新智元报道
编辑:编辑部 HYZ
【新智元导读】加入Anthropic半年后,OpenAI联创又双叒离职了!这位强化学习先驱、ChatGPT核心架构师离职,对Anthropic来说是一大损失。
加入Anthropic才刚六个月的OpenAI联创John Schulman,又火速选择离开了!
此前,Schulman曾在OpenAI工作了9年。
去年8月份,他选择离开OpenAI,加入Anthropic。
当时,他在给前同事们的信中表示,自己之所以做此选择,目的是「深化自己对AI对齐的关注,开启自己职业生涯的新篇章,回归到能亲自动手的技术工作」。
而如今加入Anthropic才刚半年,他却又忽然选择离开。
Anthropic:表示遗憾
Anthropic首席科学官Jared Kaplan在一份声明中表示:「我们对John的离开感到遗憾,但完全支持他追求新机会的决定,并祝愿他一切顺利。」
有人表示,Schulman的离职对Anthropic是一种打击。他不仅是强化学习先驱,更是ChatGPT背后开发核心架构师。
2024年8月,时任OpenAI「后训练」团队负责人John Schulman,在推特上官宣入职劲敌Anthropic。
当时这个消息,就曾引起巨大震动。
原因不仅仅在于,Schulman是OpenAI最受瞩目的技术领袖之一,带领团队为ChatGPT取得突破性成果做出了关键贡献。
他离开的时节也十分敏感。当时,正处于OpenAI的高管离职潮,CTO Mira Murati在内的其他高管,也几乎在同一时间离职。
对此,Sam Altman甚至十分郑重地用了「大写字母」来发文回应。
ChatGPT架构师,PPO一作
Schulman与OpenAI的结缘,是在研究生学业完成后,以创始人身份正式加入OpenAI。
至今,他已在OpenAI供职9年。值得一提的是,这是Schulman除实习之外,唯一工作的公司。
之前,他负责的是对齐团队,随后他开始主要领导「后训练」团队,对部署在ChatGPT和OpenAI API中的模型进行微调。
John Schulman本科在加州理工学院学习物理学,之后到加州大学伯克利分校攻读神经科学方向的博士。
当时,他对人工智能也有点兴趣,但在其中并没有看到类似神经科学的可遵循的道路。
直到参与伯克利的实验室轮换项目时,他与Pieter Abbeel共同进行了直升机和机器人方面的工作,由此决定转到EECS(电子工程和计算机科学)。
Schulman与OpenAI结缘已久。作为ChatGPT架构师,早在2015年还在读博士学位时,他就加入OpenAI成为联合创始人之一。
在一次采访中,Schulman解释了自己加入OpenAI的原因:
「我想做人工智能方面的研究,我认为OpenAI这家公司的使命雄心勃勃,并且致力打造通用人工智能。」
「尽管,在当时谈论AGI似乎有些疯狂,但我认为开始考虑它是合理的,我希望在一个地方谈论AGI是可以接受的。」
另外,据Schulman透露,OpenAI将人类反馈强化学习(RLHF)引入ChatGPT的想法可以追溯到2017年,当时Jan Leike和Dario Amodei等人发表的一篇论文提到了这个方法。
论文地址:https://arxiv.org/abs/1706.03741
此外,2017年,Schulman在OpenAI任职期间也和团队首次提出了近端策略优化(PPO)算法,其变体PPO-Clip成为了OpenAI使用的主要算法。
论文地址:https://arxiv.org/abs/1707.06347
OpenAI安全团队之所以致力于这项工作,是因为想让模型符合人类的偏好,真正倾听人类意见,并试图做人类想做的事情。
在GPT-3完成训练时,Schulman看到了整个研究方向的潜力并决定加入这股潮流。
在很多次采访中,Schulman都表达了对于人工智能下一前沿领域的看法:AI在更艰难的任务上不断进步的同时,人类应该做些什么?在哪些任务中,人类可以在大模型帮助下有更大影响力,做更多的工作。
此外,指路Schulman在个人博客上发布的机器学习研究指南,最初是在2017年为OpenAI 研究员计划 编写的。干货满满,值得一观。
文章地址:http://joschu.net/blog/opinionated-guide-ml-research.html
参考资料:
https://www.theinformation.com/briefings/ai-researcher-john-schulman-leaves-anthropic?rc=epv9gi