思维链之父跳槽Meta，不只因为1亿美元！离开OpenAI前泄天机

核心提示：编辑：KingHZ【新智元导读】离开OpenAI，只是为了Meta天价薪资？Jason Wei离职博客，泄露天机：未来AI更令人向往！硅谷人才争夺

编辑：KingHZ

硅谷人才争夺战，火热升级！

过去，是OpenAI从谷歌等公司吸引人才；现在，Meta直接砸钱抢人。

顶尖AI人才的薪酬包可谓天价，1亿美元还是扎克伯格给的起步价！

思维链之父、华人AI科学家Jason Wei，就是从谷歌跳槽到OpenAI，刚刚又跳槽到Meta。

在AI领域，Jason Wei非常高产。

根据谷歌学术统计，他有13篇被引次数超过1000的论文，合作者包括Jeff Dean、Quoc V. Le等知名AI研究员，参与了OpenAI的GPT-4、GPT-4o、o1、深度研究等项目。

离职消息被媒体爆出之前，他发表了两篇博客，或许能让我们看出他为何选择离开

意外的是，这些灵感都来自强化学习！

RL之人生启示

天生我材必有用

过去一年，他开始疯狂学习强化学习，几乎每时每刻都在思考强化学习。

RL里有个核心概念：永远尽量「on-policy」（同策略）：与其模仿他人的成功路径，不如采取行动，自己从环境中获取反馈，并不断学习。

当然，在一开始，模仿学习（imitation learning）非常必要，就像我们刚开始训练模型时，必须靠人类示范来获得基本的表现。但一旦模型能产生合理的行为，大家更倾向于放弃模仿，因为要最大化模型独特的优势，就只能依靠它自己的经验进行学习。

一个很典型的例子是：相比用人类写的思维链做监督微调，用RL训练语言模型解数学题效果更好。

人生也一样。

我们一开始靠「模仿」来成长，学校就是这个阶段，合情合理。

研究别人的成功之道，然后照抄。有时候确实有效，但时间一长就能意识到，模仿永远无法超越原版，因为每个人都有自己独特的优势。

强化学习告诉我们，如果想超越前人，必须走出自己的路，接受外部风险，也拥抱它可能给予的奖励。

他举两个他自己更享受、却相对小众的习惯：

有一次收集数据集时，他花了几天把每条数据读一遍，然后给每个标注员写个性化反馈；数据质量随后飙升，他也对任务有了独到见解。

今年年初，他还专门花了一个月，把过去研究中「瞎搞」的决策逐条消融。虽然费了不少时间，但因此弄清了哪种RL真正好用，也收获了很多别人教不会的独特经验。

更重要的是，顺着自己的兴趣去做研究不仅更快乐，我也感觉自己正在打造一个更有特色、更属于自己的研究方向。

所以总结一下：模仿确实重要，而且是起步的必经之路。但一旦你站稳脚跟，想要超越别人，就得像强化学习那样on-policy，走自己的节奏，发挥你独有的优势与短板

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0打赏 0评论 0

更多>同类最新资讯

0 条相关评论

相关文章

最新文章

推荐文章

推荐图文

关中风味齐聚渭南！五	南岸文旅十大精品旅游
2024年长篇小说创作综	2025年“博物馆奇妙夜

最新资讯

点击排行