添加⭐️标 不再错过推送
点击上方【泉果视点】→ 点右上角【···】→ 点“设为星标”
“在通往人类级别AI的道路上,(ChatGPT这样的)大型语言模型就是一条邪路,因为它们既不能计划也不能推理。”
在ChatGPT掀起全球商业世界的狂欢之际,图灵奖得主、Meta(原名Facebook)的首席AI科学家Yann LeCun通过社交平台面向公众发出了这样的论断。
图1. 图灵奖得主Yann LeCun评论
来源:Twitter
LeCun于2018年与Yoshua Bengio、Geoffrey Hinton共同获得图灵奖,他们也被并称为深度学习领域的三大科学巨头。正因如此,LeCun的这句话在公众中又再次引发了巨大争议。
图2. 获得2018年图灵奖的深度学习三巨头
来源:网络
有人认为LeCun如此意难平是为自己公司的Galactica模型叫屈。去年11月中旬,LeCun所领导的Meta(原Facebook)“FAIR”实验室曾推出基于学术文献训练出的模型——Galactica人工智能模型。它可以生成论文、生成百科词条、回答问题、完成化学公式和蛋白质序列等多模态任务。但只上线短短三天,就因为被网友“喷”得太厉害,被Meta以“声誉风险”为由下架了。
但LeCun进一步解释说,他现在站出来旗帜鲜明地发表观点是要提醒公众,不要被“带有商业目的的片面宣传忽悠了”。
图3. 图灵奖得主Yann LeCun评论
来源:Twitter
他在几周前就说:“我不是在批评OpenAI的工作或他们的主张,而是想纠正一下公众和媒体的看法,大家说它是一个‘全新的突破’,这样评价真的太高了。虽然在公众眼中,它是革命性的,但是我们知道,它就是一个组合得很好的产品,仅此而已。”
LeCun这样说与他一直以来的学术观点有关。他是大脑“无监督式学习”理念的提出者,该理念简单说来就是——“能描述并不等于能思考”(Speaking is not Thinking),之所以会这样,根本问题不在于 AI 本身,而在于语言的有限性。
2022年,LeCun 与纽约大学的博士后研究员 Jacob Browning 在 《Noema 》杂志上共同发表了一篇文章,重点提出了三个论证:
1.语言只承载了人类全部知识的一小部分;
2.大部分人类知识和所有动物的知识都是非语言的(非象征性的);
3.因此大型语言模型无法接近人类水平的智能。
这种观点实际上从根本上否认了图灵测试的有效性。图灵测试的基础是,如果一台机器能说出它要说的一切,就意味着它知道自己在说什么,但事实并非如此。
LeCun则将思考上升到了哲学的角度,用语言哲学来阐释图灵测试的思想基础及其不合理之处。
在这一论证基础上,LeCun进一步提出,目前的大型语言模型主要基于大脑“强化学习”(Reinforcement Learning)和“监督学习”(Supervised Learning)的学习模式, 而AI变革的关键,其实在于他提出的“无监督式学习”(Unsupervised Learning)模式。
他曾经用“黑森林蛋糕”来描述三种学习模式的关系,这后来成为在深度学习领域广为流传的段子。
“强化学习”模型如同蛋糕上的樱桃;“监督式学习”模型是蛋糕表面的奶油和糖霜;而“无监督式学习”模型才是蛋糕胚,是蛋糕之所以成为蛋糕的核心与本质。而现在的人工智能研究方式,就如同“只知道如何制作糖霜和樱桃,却不知如何制作蛋糕胚。”
图4. 黑森林蛋糕
来源:网络
那么,究竟什么是“强化学习”,什么是 “监督式学习”,什么又是 “无监督式学习”呢?
机器的深度学习是传统神经网络(Neural Network)的延伸,为了更深入地了解AI学习的发展坐标和未来趋势,【泉果无限对话】在开年之际邀请到了麻省理工学院大脑与神经认知研究科学家张捷博士,分享人类大脑的认知地图与潜在学习模式对AI深度学习的启发,帮助大家破译学习的神经机制。
值得一提的是,张捷的研究是基于芯片研究和脑神经科学认知的交叉领域,他师从麻省理工学院的脑神经科学“大神”Matt Wilson,Wilson教授带领的许多实证研究,都建立在LeCun的“无监督式学习”的理论基础上。
以下是分享实录精选:
什么是“监督式学习”
和“强化学习”
大家好,我叫张捷,在麻省理工学院担任大脑与神经认知领域的研究科学家。Chat GPT现在国内外都很火。我们实验室是研究记忆与学习的,也做了一些跟AI相关的研究,我就结合AI跟神经科学分享下最新的研究成果。
先从现在AI的学习模式说起,主流的模型有两种:监督式学习(Supervise learning)和强化学习(Reinforcement Learning)
图5. 当今人工智能的学习模式
来源:张捷博士泉果基金内部分享资料
简单来讲,“监督式学习”就是你要给AI一个训练数据集,然后要告诉它训练数据的标注是什么。
比如我这儿有一个猫的图片,我就要告诉电脑:这是一个猫,我再给电脑一张狗的图片,告诉电脑这是狗。把大规模的训练数据给到电脑,通过重复训练,让电脑记住训练数据跟标注之间的关系,这就是监督式学习的过程。
“强化式学习”则是让人工智能面对特定问题拥有自主决策功能,比如:教AI下棋,或者进行一些游戏。
举个例子,走了一步棋,这步棋可以导致赢或输的结果。如果机器知道某个动作会产生特定的奖励或者惩罚,那通过这个循环就可以知道做这个动作是好还是坏,由此来优化算法:如果动作结果是好的,下次就多做;反之如果动作的结果不好,会得到惩罚,下次再行动时就避免。
很经典的一个例子就是AlphaGo。它先在网上去看围棋高手怎么下棋,通过这种方式先学习,之后它又通过“强化学习”的模式,自己做仿真对弈,自己跟自己下棋。通过这两种模式的结合,最后产生了一个非常强大的模型,足以击败人类的世界级高手。
像Alpha Fold是AlphaGo的另外一个延伸,用来分解蛋白质结构。
DALLE-2是最近OPEN AI推出的AI画图工具:你给它一个描述,它可以就给你生成对应的绘画作品。
最近很火的ChatGPT,是你可以问他任何问题,它模仿人类的方式来给你回答。
以上这些AI都是通过“监督式学习”跟“强化学习”的模式训练出来的。
这两种学习模式的优势大家都谈论很多了,我在这里重点讲一讲它的劣势,比如依赖大量训练数据和计算能耗。
比如,GPT-3模型的训练计算量大概是九亿瓦时(936MWh),相当于需要100个美国家庭一年的用电量去训练出来这样的一个AI模型。
这是因为“监督式学习”和“强化学习”所用到的训练数据集中,不光要包含常见的例子,也需要包含那些非常罕见的例子,只有这样计算机才能知道在这种罕见的情况下怎样去处理,所以就需要非常大的数据和计算量。
下面这张图可以看出,绿线是全球能量的供应,基本是比较稳定的水平线。而绿线下面的蓝线是半导体行业的能量消耗,其中包括AI训练的数据、数据中心等等。
自2010年AI兴起以来,这条蓝线增长非常迅猛。如果按照这样的趋势推测,它的用电量会从原来占全球能耗的1/3提升到1/2的水平。
图6. AI学习劣势:依赖大型训练数据集及计算能耗
来源:张捷博士泉果基金内部分享资料
什么是
“无监督式学习”
其实AI的学习模式并不难理解,它很大程度上借鉴了人类的学习机理。
比如前面说到的“监督式学习”其实就像学生时代的课堂学习。老师告诉我,1+1等于2,那1+1就是我们训练数据,2就是我们的标注。
“强化学习”就像放学回家做作业。做作业其实就是我们在自己练习、强化、巩固知识的过程。
图7. 人类的学习方法
来源:张捷博士泉果基金内部分享资料
但目前人和AI学习最大的区别其实是第三种学习模式——“无监督式学习”,也就是说,我们在生活中其实无时无刻不在学习。
比如我第一天去个新公司上班,走过一次之后,我就能记住大致的路线,哪里有超市,哪里有喜欢的餐厅。再比如我们看电视、交谈、甚至睡觉时,其实从神经科学的角度看,我们也是在学习和巩固记忆的。
其实上面提到的“监督式学习”和“强化学习”只占用了我们很少的时间,而绝大部分的时间里,我们是在进行“无监督式学习”。
值得注意的是,“监督式学习”和“强化学习”只是建立了训练数据与标注之间的联系,并没有让电脑真正建立一个理解世界的模型,而人脑却无时无刻不在理解周围的世界。
就像AI鼻祖LeCun提到的黑森林蛋糕的比喻。
“强化学习”是蛋糕上不可或缺的樱桃,所需要资料量可能大约只有几个Bits;“监督式学习”是蛋糕外部的糖衣,需要10到10,000个Bits的资料量;而“无监督式学习”则需要数百万个Bits,是真正主要的蛋糕坯。
“无监督式学习”之所以被他比喻为黑森林蛋糕,因为它的预测能力像拥有黑魔法一样神奇。不过,LeCun也强调就像黑森林蛋糕必须搭配樱桃,“无监督式学习”与“强化学习”相辅相成,缺一不可。
图8.LeCun关于AI学习的“黑森林蛋糕”理论
来源:Yann LeCun
潜在学习:
“无监督式学习”的理念起源
对于人类“无监督式学习”的研究早在50年代就开始了。当时UC Berkeley一个很有名的教授Edward Tolman提出了“潜在学习”(Latent Learning)的概念。就是说,我们生活在世界上的时候,有一种潜移默化的学习模式。
关于潜在学习,他有个非常经典的实验,他把老鼠放到迷宫里,在迷宫终点放一些食物,让老鼠去学习如何走出迷宫。老鼠被分了三组,下图是实验的天数跟老鼠走出迷宫所用的时间。
图9. 潜在学习与认知地图
来源:张捷博士泉果基金内部分享资料
如上图,最上方的曲线代表第一组老鼠,它们迷宫终点没有奖励,所以没有太多动力去学习,因此随着实验天数的增加,它们走出迷宫所用的时间虽然有所下降,但并没有明显的提速。
另外一组老鼠每次走出迷宫都会有奖励,所以有动力学习,所以随着天数的增加,它们走出迷宫所用的时间是有明显下降的。
更有意思的是第三组老鼠。前10天它们没有食物奖励,只是单纯在迷宫里“玩”,从第11天才在迷宫终点放置奖励。非常惊人的是,从第11天开始,老鼠马上就可以对迷宫变得非常熟悉,它们走出迷宫的时间从有奖励的这天起迅速下降,甚至比一直都有奖励的老鼠还快。
这是什么道理呢?
研究的假设是,强化学习一定是要有行为(Action)和奖励(Reward)才能形成的学习。但实际上,在没有任何奖励的情况下,老鼠在迷宫里走来走去也能学习迷宫,也能对迷宫的地图产生详细的了解。
Tolman教授因此提出了一个非常重要的理论:在单纯的走迷宫的过程中,大脑不知不觉已经形成了一个认知地图(Cognitive Map)来描述迷宫。
就像我第一次走进一个办公楼,开始会觉得非常陌生,但如果我每天都来,就会熟悉环境,可以很快找到出口和捷径。这样的学习过程尽管没有任何奖励,但你的大脑仍可以潜移默化地形成一个认知地图。
认知地图:
进一步破译大脑学习的
神经机制
在大脑中形成的认知地图在哪里呢?有没有什么证据?
为了进一步破译大脑学习的神经机制,我们需要稍微花一点时间了解认知地图的形成之地——海马体(Hippocampus)。
为什么叫海马体呢?因为它长得像海马,是哺乳动物共有的非常古老的一个脑区。
图10. 海马体——记忆和导航中心
来源:张捷博士泉果基金内部分享资料
海马体是记忆和导航的中心。
这是如何证明的呢?曾经有一个非常有名的人叫Henry Molaison。医生为了治疗他的癫痫把海马体摘除了。虽然癫痫治好了,但造成了一个后遗症——他无法形成新的记忆了。做手术之前的事情他记得很清楚,但是他记不住手术后的事情了。比如手术后,你今天见到他,他可能说很高兴认识你,但第二天他就把你完全忘掉了。这就说明海马体是一个很重要的记忆中心。
海马体跟我们所说的学习机制有什么关系呢?海马体中含有位置细胞(Place Cell),它可以根据空间的位置产生反应,位置细胞的发现者获得了2014年的诺贝尔奖。
诺奖评奖的原话是:“今年获奖者的研究成果展示了较高认知功能的细胞基础。他们发现了大脑的定位系统,位置细胞以及同样重要的网格细胞(Grid Cells)就相当于大脑的GPS信号。
下面这个视频是我们实验室对于位置细胞的研究。
我们在老鼠的大脑中放置了很多电极,我们听到的不是噪声,而是电极采集到的位置细胞中运动电位的反应。运动电位就是通过树突收集这些信号而产生的一个电位,会传导到下游的脑细胞。不同颜色代表不同的位置细胞。大家可以看到,小鼠在迷宫不同方位时,不同的位置细胞给出了反应。
这其中特别值得关注的一点是,在老鼠不动的时候,仍然会有位置细胞的反应。这就是破解学习机制中关键的一点:位置细胞的重放特性(Place Cell Replay)。
这种静止状态的重放也出现在老鼠睡觉的时候。比如老鼠经过了迷宫中的ABC三个点,它在睡觉时,我们会看到ABC三个点的位置细胞会产生的一个连续性的反应(Sequential Activity)。
这个是什么意思呢?老鼠在迷宫中经过了ABC三个点,在它睡觉的情况下,脑中会出现代表ABC三个点的位置细胞依次重放,而且它重放的先后的顺序是有一定规律的,是根据老鼠实际走迷宫的顺序,从前往后,或从后往前。
再比如,小鼠走到T型迷宫岔路口,它停下来的时候,我们会观察到位置细胞会先出现一个向左走的重放,再出现一个向右走的重放。其实这是大脑在思考,该向左还是向右。这就说明大脑不光是学习了认知地图,而且就像我们的导航软件一样,会时刻通过重放来进行决策。
同时,实验证明睡觉时记忆形成的重要过程。我们实验室也做了对比实验,让一组老鼠先跑一遍新的迷宫,然后睡一觉再跑。另外一组老鼠让它跑迷宫,然后放在其他地方但不睡觉,过一会儿再让它跑。下图中可以看到,很显然,睡觉后的老鼠认知地图和实际迷宫的相似度是有提高的。
图11.学习过程与睡眠有关
来源:张捷博士泉果基金内部分享资料
我们研究的最终目标是希望能应用在AI的算法上。但生物大脑的学习机制确实很复杂,光老鼠的海马体就有十万个不同种类的细胞。对这一机制,我们目前的猜想是这样的。
单个位置细胞会形成为方位的编码,而且随着时间的增长,位置细胞之间的空隙也会通过一些弱空间细胞连接,形成一个类似于迷宫形状的认知地图。也就是下图中显示的,一个无序的拓扑结构会慢慢演变。同时,海马体是个很复杂的神经网络,不光有激活性的神经元,还有抑制性的神经元,它会形成本地脑区神经网络的编码。
另外我们也观察到大脑皮层细胞和海马体的细胞反应有很强的关联性,也就是说,在记忆形成的过程中,海马体在跟其他脑区进行沟通和信息的交互。
图12. 破译学习的神经机制
来源:张捷博士泉果基金内部分享资料
无监督式学习:
AI变革的未来趋势
对脑神经的研究对AI学习有哪些启发?
因为AI的其他算法也是通过人的学习机制演变而来的,现在没有解决的就是AI的无监督式学习,这是AI学习变革的关键。
目前无监督式学习在机器学习领域非常火,大家都在研究如何让AI像人类一样自己潜移默化地去学习。
举一个简单的例子,下图的左上角有一个X跟Y轴的数据,这些点描绘了X Y的相关性。那怎么能让机器达到这些点呢?我们可以通过非监督式的学习算法,把这样的一个二维拓扑变形成一个三维的拓扑。
这样的话,比如在学习的过程中,只需要往坡度比较低的地方走,AI就可以很容易找到正确的XY的相关关系。怎么把这个拓扑变成一个三维的方法,其实就是非监督性学习要攻克的内容。
图13 未来AI:基于大脑学习原理的算法
来源:张捷博士泉果基金内部分享资料
而我们的大脑其实时时刻刻就是在进行“无监督式学习”。
就像实验中的那样,一开始老鼠被放在迷宫中,老鼠可能都不知道自己在哪儿,但慢慢的,它会知道自己在迷宫中的相对位置,脑中的位置细胞跟认知网络会变成和迷宫形状相似的一些拓扑,其实就是非监督学习在起作用。
生物神经学习机制的研究可以对机器学习的“无监督式学习”算法产生很大的启发。
法律声明
本资料不作为任何法律文件,不代表泉果基金的任何意见或建议,不构成泉果基金对未来的预测,所载信息仅供一般参考。前瞻性陈述具有不确定性风险,泉果基金不对任何依赖于本资料而采取的行为所导致的任何后果承担责任。
• END •