分享好友 最新资讯首页 最新资讯分类 切换频道
思维链之父跳槽Meta,不只因为1亿美元!离开OpenAI前泄天机
2025-07-28 12:00
编辑:KingHZ
【新智元导读】离开OpenAI,只是为了Meta天价薪资?Jason Wei离职博客,泄露天机:未来AI更令人向往!

硅谷人才争夺战,火热升级!

过去,是OpenAI从谷歌等公司吸引人才;现在,Meta直接砸钱抢人。

顶尖AI人才的薪酬包可谓天价,1亿美元还是扎克伯格给的起步价!

思维链之父、华人AI科学家Jason Wei,就是从谷歌跳槽到OpenAI,刚刚又跳槽到Meta。

图片

在AI领域,Jason Wei非常高产。

根据谷歌学术统计,他有13篇被引次数超过1000的论文,合作者包括Jeff Dean、Quoc V. Le等知名AI研究员,参与了OpenAI的GPT-4、GPT-4o、o1、深度研究等项目。

图片

离职消息被媒体爆出之前,他发表了两篇博客,或许能让我们看出他为何选择离开

意外的是,这些灵感都来自强化学习!

图片
图片

RL之人生启示
天生我材必有用

过去一年,他开始疯狂学习强化学习,几乎每时每刻都在思考强化学习。

RL里有个核心概念:永远尽量「on-policy」(同策略):与其模仿他人的成功路径,不如采取行动,自己从环境中获取反馈,并不断学习。

当然,在一开始,模仿学习(imitation learning)非常必要,就像我们刚开始训练模型时,必须靠人类示范来获得基本的表现。但一旦模型能产生合理的行为,大家更倾向于放弃模仿,因为要最大化模型独特的优势,就只能依靠它自己的经验进行学习。

一个很典型的例子是:相比用人类写的思维链做监督微调,用RL训练语言模型解数学题效果更好。

人生也一样。

我们一开始靠「模仿」来成长,学校就是这个阶段,合情合理。

研究别人的成功之道,然后照抄。有时候确实有效,但时间一长就能意识到,模仿永远无法超越原版,因为每个人都有自己独特的优势。

强化学习告诉我们,如果想超越前人,必须走出自己的路,接受外部风险,也拥抱它可能给予的奖励。

他举两个他自己更享受、却相对小众的习惯:

有一次收集数据集时,他花了几天把每条数据读一遍,然后给每个标注员写个性化反馈;数据质量随后飙升,他也对任务有了独到见解。

今年年初,他还专门花了一个月,把过去研究中「瞎搞」的决策逐条消融。虽然费了不少时间,但因此弄清了哪种RL真正好用,也收获了很多别人教不会的独特经验。

更重要的是,顺着自己的兴趣去做研究不仅更快乐,我也感觉自己正在打造一个更有特色、更属于自己的研究方向。

所以总结一下:模仿确实重要,而且是起步的必经之路。但一旦你站稳脚跟,想要超越别人,就得像强化学习那样on-policy,走自己的节奏,发挥你独有的优势与短板

最新文章
霸王茶姬推出首款黄茶新品,麦当劳中国CEO称今年是“消费习惯重置”的一年... | 一周热闻
新产品1、蔬菜中的“维C宝库”,「维C速燃甜椒」新品上线2、让茶×盒马「饭后普洱」新品上市,开创无糖茶“饭后”消费新场景3、
骁龙8至尊版:AI智慧芯革新手机体验
在2025年的科技圈,AI 无疑是最热门的话题。从ChatGPT掀起的Gen AI热潮,到Deepseek R1的技术突破;从英伟达、AMD在云端芯片领域
新玩法带来新的快乐,体彩大乐透套餐票在湖南各地推广
湖南日报·新湖南客户端记者 陈普庄通讯员 陈辉 欧志文 周前吕 胡锋 刘雄 孙吉祥 符勇今年是体彩超级大乐透上市17周年,特别推
2025年“博物馆奇妙夜”来啦 超多活动等你解锁
为推动上海国际消费中心城市和国际文化大都市建设,进一步发挥博物馆赋能经济社会发展和美好生活的重要作用,让博物馆成为市民游
字节引导TikTok用户迁移至Lemon8;美国公布中国汽车软硬件禁令;Temu 2024年下载量环比增69%|一周「出海参考」(01.06-01.12)
1、答辩结束,TikTok 禁令危机仍未解除据彭博社报道,TikTok 在美国最高法院的口头答辩已结束。此次答辩于美国时间周五上午 10
张国华与中国工商银行党委书记、董事长廖林一行进行工作座谈
张国华首先代表雄安新区党工委、管委会对廖林一行的到来表示热烈欢迎,对中国工商银行长期以来的关心支持表示衷心感谢。他表示,
AWE观察 | 从“科技温饱”到AI盛宴 智慧家电能与消费者“双向奔赴”吗?
每经记者:陈鹏丽 彭斐 叶晓丹    每经编辑:陈俊杰每经记者 陈鹏丽 摄3月20日至23日,一年一度的中国家电盛会——中国家电
开发全域多元特色旅游产品,打响具有世界影响力的“上海旅游”品牌
今天举办的上海市旅游发展大会“出炉”三项新纪录——2024年,本市接待国内游客3.9亿人次,实现国内旅游收入4972.6亿元、国际旅
AI本地化部署,这家企业引领品牌管理智能化风暴
近日,虹口区企业若羽臣(003010.SZ)与广东奥飞数据科技股份有限公司达成战略合作,通过AI本地化部署,加速全链路品牌管理的智
奇点之前与奇点之后|书评
文|万维钢未来学家雷·库兹韦尔在2024年6月25日刚刚出版了新书《奇点更近》。你可能知道,库兹韦尔在2005年出了本书叫《奇点临