“行动”系统(subsystem of action),我们最终和环境做交互,达到人类想达到的目的。
任何体系,都是这三个体系的组合,数字化系统尤其如此。数字化和人分不开。人也一样,人要获得信息、表达信息、行动解决问题或满足需求。基于此,我们可以得出一个简单结论。今天大部分数字化产品和公司,包括Google、微软、阿里、字节,本质是信息搬运公司。一定要记住,我们所做的一切,一切的一切,包括在座的大部分企业都在搬运信息。Nothing more than that,You just move bytes(仅此而已,你只是移动字节)。但它已经足够好,改变了世界。早在1995-1996年,通过PC互联网迎来一个拐点。那时我刚从CMU(卡内基梅隆大学)毕业。大量公司层出不穷,其中诞生了一家伟大公司叫Google。为什么会有这个拐点?为什么会有爆炸式增长?把这个观点讲清楚,就能把今天的拐点讲清楚。原因是,获取信息的边际成本开始变成固定成本。一定要记住,任何改变社会、改变产业的,永远是结构性改变。这个结构性改变往往是一类大型成本,从边际成本变成固定成本。举个例子,我在CMU念书开车离开匹茨堡出去,一张地图3美元,获取信息很贵。今天我要地图,还是有价钱,但都变成固定价格。Google平均一年付10亿美元做一张地图,但每个用户要获得地图的信息,基本上代价是0。也就是说,获取信息成本变0的时候,它一定改变了所有产业。这就是过去20年发生的,今天基本是free information everywhere(免费的信息无处不在)。Google为什么伟大?它把边际成本变成固定成本。Google固定成本很高,但它有个简单商业模式叫广告,它是世界上高盈利、改变世界的公司,这是拐点关键。今天2022-2023年的拐点是什么?它不可阻挡、势不可挡,原因是什么?一模一样。模型的成本从边际走向固定,因为有件事叫大模型。模型的成本开始从边际走向固定,大模型是技术核心、产业化基础。OpenAI搭好了,发展速度爬升会很快。为什么模型这么重要、这个拐点这么重要,因为模型和人有内在关系。我们每个人都是模型的组合。人有三种模型:
下面我从技术角度讲OpenAI大事迹,它怎么把大模型时代带来的?为什么讲OpenAI,不讲Google、微软。讲真心话,因为我知道,微软好几千人也做这个,但不如OpenAI。一开始比尔·盖茨根本不相信OpenAI,大概6个月前他还不相信。4个月前看到GPT-4的demo(产品原型),目瞪口呆。他写了文章说:It’s a shock,this thing is amazing(这太令人震惊了,这东西太神奇了)。谷歌内部也目瞪口呆。OpenAI一路走下来的关键技术:
它势不可挡。Sam Altman自己都surprise,连他都没想到会那么快。如果大家对技术感兴趣,Ilya Sutskever(OpenAI联合创始人兼首席科学家)很重要,他坚信两件事。第一是模型架构。它要足够深,只要到了一定深度,bigness is betterness(大就是好)。只要有算力,只要有数据,越大越好。他们一开始是LSTN(long short term memory),后来看到Transformer就用Transformer。
第二个OpenAI相信的是,任何范式、改变一切的范式永远有个引擎,这个引擎能不断前进、不断产生价值。这个引擎基本是一个模型体系(model system),它的核心是模型架构Transformer,就是sequence model(序列模型):sequence in、sequence out、encode、decode后者decode only。但最终的核心是GPT,也就是预训练之后的Transformer,它可以把信息高度压缩。Ilya有个信念:如果你能高效压缩信息,你一定已经得到知识,不然你没法压缩信息。所以,你把信息高效压缩的话,you got to have some knowledge(你得有一些知识)。Ilya坚信GPT3、3. 5,当然GPT-4更是,它已经有一个世界模型在里面。虽然你做的事是predict next word(预测下一个关键词),这只不过是优化手段,它已经表达了世界的信息,而且它能持续地提高模型能力,尤其是目前研究比较多的在子概念空间当中做泛化。知识图谱真的不行。如果哪个同学做知识图谱,我认真跟你讲,你不要用知识图谱。我自己也做知识图谱20多年,just don’t do that。Just pretty bad。It does not work at all。You should use Transformer。(不要那样做。很糟糕。它根本不起作用。你应该使用Transformer。)更重要的是用增强学习,加上人的反馈,与人的价值对齐。因为GPT已经做了4年多,知识已经封装在里面了,过去真的是用不起来,也很难用。最大的是对齐(alignment engineering),尤其是instruction following和自然语言对齐。当然也可以跟代码、表格、图表对齐。做大模型是很难的,很大难度是infra(基础设施)。我在微软的时候,我们每个服务器都不用网卡,都放了FPGA。网络的IO的带宽速度都是无限带宽技术(Infiniband),服务器和服务器之间是直接访问内存。为什么?因为Transformer是密度模型,它不光是算力问题,对带宽要求极高,你就想GPT-4需要24000张到25000张卡训练,试想世界上多少人能做这种系统。所有数据、data center网络架构都不一样。它不是一个三层的架构,必须是东西向的网络架构。所以这里要做大量的工作。Token很重要。全世界可能有40-50个确定的token,就是语言的token和模态,现在有更多的token化。当然现在更多的模型的参数小型化、本地化,任务领域的专业知识可以融入这些大模型当中。它的可操纵性主要是靠提示和调试,尤其是根据指令来调,或者对齐来调试,或者in-context learning(上下文学习),这个已经贯彻比较清晰了。它的可操作性是越来越强。可拓展性基本上也足够。加在一起,这个引擎并不完美。足够好、足够强的引擎,我没从没有过。以上是引擎,拐点是怎么到的?ChatGPT能在历史上第一次两个月1亿活跃用户,挡都挡不住,为什么?
加在一起,范式的临界点到了。拐点已经到来。稍微啰嗦几句。我做自然语言20多年,原来的自然语言处理有14种任务,我能够把动词找出来、名词找出来、句子分析清楚。即使分析清楚,你知道这是形容词,这是动词,这是名词——那这个名词是包香烟?还是你的舅舅?还是一个坟墓?还是个电影?No idea(不知道)。你需要的是知识。自然语言处理没有知识永远没用。The only way to make natural language work is you have knowledge(让自然语言处理有效的唯一路径是你有知识)。正好Transformer把这么多知识压缩在一起了,这是它的最大突破。
我个人过去10个月,每天看东西是挺多的,但最近实在受不了。就真的是跟不上。发展速度非常非常快。最近我们开始发行“大模型日报”,是我实在不行了,论文实在是跟不上,代码实在是跟不上——just too much(太多了)——基本上,每周都会有一两个“HOLY SHIT” moment。Holy shit!You can do this now。世界在哗哗哗地变。我曾经说1995-1996年有这种感觉,但这个比1995-1996年还要强。为什么?模型的成本从边际转向固定,知识创造就是模型和知识的获取,它结构性做演变了。生产资本从两个层次全面提高。第一,所有动脑筋的工作,可以降低成本、提升产能。我们目前有一个基本假设,码农成本会降低,但对码农的需求会大量增加,码农不用担心。因为对软件的需求会大量增加,就是这个东西便宜了,都买嘛。软件永远可以解决更多问题,但有些行业未必。这是生产资本的广泛提高。第二,生产资本深层提升。有一些行业的生产资本本质是模型驱动,比如医疗就是一个模型行业,一个好医生是一个好模型,一个好护士是一种好模型。医疗这种产业,本质是强模型驱动。现在模型提高了,科学也随之提高。在游戏核心产业,我们的产能将本质性、深度提高。产业的发展速度会加快,因为科学的发展速度加快了,开发的速度加快了,每个行业的心跳都会加快。因此,我们认为下个拐点会加速。用大模型做机器人、自动化、自动驾驶,挡也挡不住。它对每个人都将产生深远和系统性影响。我们的假设是每个人很快将有副驾驶员,不光是1个,可能5个、6个。有些副驾驶员足够强,变成正驾驶员,他自动可以去帮你做事。更长期,我们每个人都有一个驾驶员团队服务。未来的人类组织是真人,加上他的副驾驶员和正驾驶员一起协同。毫无疑问,每个行业也会有结构性影响,会系统性重组。这里有一个简单公式(【$X小时(人工)-$Y(硬件和规模化)】X数量=降本增效)。比如,今天动脑筋的人一天平均工资多少美元每小时,减掉ChatGPT的价格(现在大概平均是15美元/小时,再过3年可能不到1美元,再过5年可能几十美分),然后就乘一下有多少数量。降本或者增效,让码农能变成super码农,医生变成super医生。大家可以按这个公式算一算。如果你是华尔街的对冲基金,你可以做空一大堆行业。举个简单例子,律师在美国平均1500美元/小时,我在网上已经看到每天有这种信息——如果你想离婚,不要找离婚律师,ChatGPT离婚很便宜啊!(全场笑)开发人员、设计师、码农、研究人员都一样,有些是更多需求,有些是成本下降。尤其是核心产业,科学、教育、医疗,这是OpenAI长期最关注的3个行业,也是整个社会最根本的。尤其是医疗。在中国,需求远远大于供给。而且,中国是大政府驱动的市场经济,政府可以扮演更大角色,因为固定成本政府可以承担。最为重要的是教育。如果你是大学,你第一担心的是,考试怎么考?没法考了。他一问ChatGPT,什么都知道。更重要的是,以后怎么定义是好的大学生呢?假定说有个大学生什么都不懂,物理也不懂、化学也不懂,但他懂怎么问ChatGPT,他算不算一个好的大学生?机会与挑战并存。总结一下,整个这个时代在高速地进行,速度越来越快。它是结构上决定的。势不可挡。 06 大模型的淘金时代对机会点进行结构性拆解
所以如果是这个创业项目,基础层机会就在这里。这是最好的生意。为什么?这个时代跟淘金时代很像。如果你那个时候去加州淘金,一大堆人会死掉,但是卖勺子的人、卖铲子的人永远可以赚钱。所谓的shove and pick business。大模型是平台型机会。按照我们几天的判断,以模型为先的平台,将比以信息为先的平台体量更大。平台有以下几个特征:
这是一场激烈的竞争平台之战,未来一个体量很大的公司。在这个领域竞争是无比激烈。The price is too big(代价实在太大),错过太可惜。再怎么也得试一试。今天的模型鲁棒性、脆弱性,还是问题。用这个模型,你一定要一开始稍微窄一点,限制要严一点,这样的话体验是稳定的,等到模型能力越来越强再把它放宽,找到适当的场景,循序渐进。质量和宽度之间的平衡很重要。另外发展路径上,你要考虑今天产品要不要在这个上基础上改,重启炉灶,还是齐头并进。把这个团队给改了、重做,还到外面去买公司?创新,尤其是创业公司落地,它永远是技术推动和需求拉动的组合。在落地的过程中,对需求理解的把控,掌握和满足需求的方法是一切当中最重要。长期一定是技术驱动为主,但在落地的时候对需求的拆解、分析、梳理,把控好需求,是一切的一切。有一个机密大家今天都知道了——OpenAI是用GPT-4做GPT-5,每个码农都是放大能力的码农。它规模效应不一样,马太效应不一样,从此壁垒和竞争格局不一样,知识产权结果不一样,国际化的格局也不一样。中国显然有机会。