机器之心报道

机器之心编辑部

「语言是人类的语言,而 3D 是自然的语言。」

「除了语言,我们还有另外一半智能,这部分非常深刻,就是我们做事的能力。」

「在 AI 之间加一个 G 以强调其通用性,我是尊重这个想法的。从制造能够思考和帮助人们做出决策的机器的角度来看,AI 或 AGI 对我来说是同样的事情。」

「《龙猫》是我最喜欢的电影之一,这部电影虽然简单却又如此深刻。」

最近,斯坦福大学教授李飞飞接受了硅谷著名投资人 Reid Hoffman 和 Aria Finger 的联合播客专访。

视频链接:https://www.youtube.com/watch?v=0jMgskLxw3s

在这场对话中,李飞飞主要探讨了以下主题:

ImageNet 的灵感源于难以避开模型的过拟合问题,李飞飞意识到与其苦心改进模型,不如用数据驱动。

探究智能的本质,李飞飞认为智能分为说话的能力和做事能力,与之对应的是语言智能和空间智能,语言是人类的语言,而 3D 是自然的语言。而拥有空间智能的 AI,将做到人类从未做到的事:真正地打破物理世界和数字世界的界限。

在 AI 发展中,需要尊重一些源自「旧石器时代」的核心原则:首先是人类的主体能动性,像「AI 将治愈癌症」这类把 AI 置于主语的表述,容易忽视人是使用技术的主体;二是重视人类的基本需求,包括对健康、生产力和社会认同的普遍追求。

对于人类和 AI 技术安全的关系,李飞飞认为首先要考虑的是,我们应该基于科学,而不是科幻。对于 AI 治理,精力应集中在应用层面设置护栏上,也就是人类受到影响的地方,而不是阻止上游开发。

李飞飞认为只有当拥有正面的生态系统时,才会有正面的 AI 未来,这需要服务于公众福祉的公共部门参与。其分为两种形式:一是推动基础研究和创新,从医疗到教育;二是人才,需要教育越来越多的年轻人和公众了解这项技术。

以下为访谈内容的文字记录:

ImageNet 的起源:人们都只关注模型,而不关注数据

主持人:是什么给了你 ImageNet 的想法?

李飞飞:很难确定具体的某一刻,但这个想法主要形成于 2006 年左右。当时我正在深入研究使用机器学习算法来理解图像中的物体。无论我怎么研究,都无法避开机器学习模型中过拟合这个数学概念。这种情况发生在模型复杂度与使用的数据不太匹配时,特别是当数据的复杂性和数量无法有效驱动模型时。

当然,并不是所有模型都是一样的。我们现在知道神经网络模型具有更高的容量和表示能力。撇开这些专业术语不谈,数据和模型之间确实存在相互作用。但我发现,人们都只关注模型,而不关注数据。这就是我产生洞见的时刻我们不能只关注模型,或者用错误的方式看待问题,我们需要关注数据,用数据来驱动模型。

当时我刚到普林斯顿担任教职,接触到了一个叫 WordNet 的项目。虽然 WordNet 与计算机视觉无关,但它提供了一种很好的组织世界概念的方式。我很喜欢这个名字,一件事接着一件事,ImageNet 就这样诞生了。因为我深信需要大数据和视觉世界的多样化表示,所以开始了这个项目。

解锁智能最重要的另一半:空间智能

主持人:从你 AI 职业生涯中期的 ImageNet 到现在的 World Labs,你能谈谈 World Labs 的理念是什么?你们正在构建什么?你正在建设的东西是我们要去哪里以及如何理解这一点的关键部分,无论是 World Labs 本身还是 AI 的趋势。

李飞飞:是的,这是我们喜欢讨论的话题技术将何去何从。在 ImageNet 之后,我一直在执着地思考一个问题:什么是智能?我们如何让机器产生智能?对我来说,这实际上可以归结为两个简单的方面。如果我们观察人类智能:

第一个方面是我们说话的能力 —— 我们使用语言交流作为工具来交谈、组织知识和沟通。但还有另外一半智能,这部分非常深刻,就是我们做事的能力。比如煎蛋卷、去远足、与朋友相处并享受彼此的陪伴这些都远远超出了我们所说的语言范畴。就像我们能够舒适地坐在对方面前,拿着啤酒罐聊天,这些都是智能的一部分。

这部分智能实际上植根于我们理解我们所生活的 3D 世界的能力感知它,并将其转化为一系列理解、推理和预测,使我们能够在其中行动。在我看来,这种能力被称为空间智能,这是像人类这样的智能生物所具有的基本能力,也就是处理 3D 空间的能力。

ImageNet 之所以诞生,是因为我在寻求为 2D 图像中的像素添加标签。对人类来说,2D 图像是 3D 世界的投影。所以你可以看到,这只是理解我们所生活的更完整的视觉世界的一小步,但这一小步很关键。因为无论是对人类、动物还是机器来说,理解和标记这些图像中的物体都是重要的第一步。

现在,过去了 15 年,我认为我们已经准备好迎接一个更大的挑战。这几乎是一个本垒打式的追求 —— 解锁智能最重要的另一半,也就是空间智能的问题。让空间智能特别有趣的是,它实际上有两个方面:一个是物理的 3D 世界,另一个是数字的 3D 世界。我们以前从未真正能够在两者之间生活,但现在空间智能可以成为一种统一的技术,既可以理解 3D 实体世界,也可以理解数字 3D 世界。

空间智能将如何改变物理世界和数字世界?

主持人:回想一下,如果回到 1880 年,马车和未铺砌的道路,那是一个完全不同的世界。但如果回到 1980 年,好吧,人们开的车不同了,但他们住在相同的建筑里,仍然在开车,现实世界的机制基本上是一样的。你认为这「另一半智能」会在未来几十年改变这一点吗?我们会看到实体世界发生像过去几年数字世界那样的巨大转变吗?

李飞飞:我认为会的。我认为现实和数字之间的界限将开始模糊。举个例子,我想象自己在高速公路上开车,如果爆胎了,尽管我是个技术专家,我可能还是会遇到困难。但如果我能戴上眼镜,或者只需要用手机对着爆胎的车,与潜在的应用程序协作,通过视觉引导或对话或两者的结合来指导我更换轮胎,这就是一个非常平凡的日常生活例子,真正打破了物理 3D 世界和数字 3D 世界的界限。这种技术赋能人类的景象,无论是更换轮胎还是进行心脏手术,对我来说都非常令人兴奋。

大语言模型和大世界模型有什么区别?

主持人:你说你经常使用大语言模型来学习,我觉得这很鼓舞人心。我的孩子们总是说「哦,我数学很好,不需要再学习了」,我可以告诉他们「看,李飞飞也在使用大语言模型学习」。我想你还有一些要说的。在谈到大世界模型与大语言模型时,你如何向人们解释这种区别?你认为这在未来会如何发展?

李飞飞:从根本上说,就像我说的,一个是关于说话,另一个是关于看和做事。所以它们是非常不同的模态。大语言模型的基本单位是字母或词,而在我们的世界模型中,基本单位是像素或体素。它们是非常不同的语言。我几乎觉得语言是人类的语言,而 3D 是自然的语言。我们真的想要达到这样一个点:AI 算法能让人们与像素世界互动,无论是虚拟的还是物理的。

旧石器时代的情感、中世纪的制度以及技术的作用

主持人:你的回答让我想起你引用过的社会生物学家爱德华・威尔逊的话:「我们有旧石器时代的情感,中世纪的制度,和神一样的技术,这非常危险。」考虑到你刚才谈到的关于推理、自然语言、人们的教育,你如何扭转这种局面?在 AI 时代,人类面临什么机遇?

李飞飞:我仍然相信这句话,正因如此,你和我还有我们的朋友才创立了以人为中心的 AI 研究所。如果要我反转这个局面,我会反过来说这句话:人类有能力创造上帝一样的技术,这样我们就能改善我们的中世纪制度,超越我们旧石器时代的情感,或者将这些情感引导到创造力、生产力和善意上来。

在 AI 的发展中,尊重人的主体能动性

主持人:在构建技术以帮助我们实现抱负方面,你认为关键是什么?是关注同理心?是以人为中心和互动的共生关系?在让技术和 AI 帮助我们实现更好的自我方面,你会把什么作为下一步?

李飞飞:我能理解为什么你同时主修人文科学,你身上体现了哲学和技术的结合。我同意,而且你知道,我们之前几乎把「旧石器时代」当作负面词使用,但它实际上不是负面词,它是一个很中性的词。人类的情感或者我们对自我的认识深深植根于进化,植根于我们的 DNA 中,我们无法改变这一点。世界之所以同时美丽又混乱,正是因为这个原因。

在思考技术与人类关系的未来时,我认为我们需要尊重这一点。我们需要尊重一些最基本的、真正的旧石器时代根源。技术发展需要尊重几个方面,我们越尊重这些,就会做得越好:

首先是尊重人类的主体能动性。我认为 AI 公共传播中的一个问题是,我们经常把 AI 作为句子的主语,好像我们在剥夺人类的主体能动性。比如说「AI 将治愈癌症」,我有时也会犯这个错误,但事实是人类将使用 AI 来治愈癌症,不是 AI 在治愈癌症,也不是 AI 将解决核聚变问题。事实是人类科学家和工程师将使用 AI 作为工具来解决核聚变。更危险的说法是「AI 将夺走你的工作」。我认为我们真的需要认识到,这项技术有更多机会创造机会和工作,赋能人类主体能动性,这是我关心的一个非常重要的第一性原理。

第二个重要的第一性原理是尊重每个人:每个人都想健康,都想有生产力,都想成为受人尊重的社会成员。无论我们如何发展或使用 AI,我们都不能忽视这一点。忽视这一点是危险的,是适得其反的。我认为仅这两点就对指导我们开发这项技术至关重要。

谈论这些深深植根于这样一个信念:任何技术、任何创新的意义都在于对人类有益。这就是人类文明的轨迹每次我们创造一个工具,我们都想用这个工具来做好事。当然,这是一把双刃剑,我们可能会误用工具,会有坏人使用工具。所以即使看到技术和工具的阴暗面,它也推动我们更加努力地让它变得更好,让它更以人为本。这确实是以人为本 AI 研究所的基本原则。在斯坦福,你和我还有我们的朋友都将 AI 视为如此强大的工具,它是一个文明性的工具,我们最好尽早围绕它建立一个框架,将人类和人类利益置于其中心。以人为中心的 AI 最关键的方面之一,也是我认为应该指导每个公司、每个开发者的,就是赋能人们的理念。

AI 治理应该集中在应用层面,而不是阻止上游开发

主持人:你在 AI 领域工作了这么长时间,担任过许多不同的职务。我感觉有些人现在才开始了解 AI。你如何看待当前的 AI 创新时刻,无论是就我们所处的位置,还是开发者面临的挑战来说?你认为要达到解决这些问题的下一个层次,我们需要做什么?

李飞飞:这确实是一个非凡的时刻。我认为这绝对是一场革命的转折点,原因在于应用 ——AI 现在可以被人们和企业日常使用,而且早期 AI 先驱在职业生涯早期阶段设想的许多梦想已经实现或即将实现。比如,公众熟知的图灵测试基本上是一个已解决的问题。图灵测试本身我不会说是智能的终极测试,但它曾是一个如此困难的标准,是一个合理的衡量标准,现在已经解决了。再比如自动驾驶汽车,虽然还没有完全解决,但比 2006 年时已经解决得多得多。

所以我认为,因为这些模型的力量已经产品化到人们和企业手中,这是 AI 革命的一个非凡阶段。但我也清楚地意识到,我们生活在硅谷泡沫中,因为我认为整个全球人口仍在逐步了解 AI 的现状,但我们确实看到了未来和未来的发展方向。

主持人:是的,AI 可能是一个巨型的人类能力放大器,可能带来巨大的积极影响,但我们也确实需要担心负面后果。我们需要引导它朝着正确的方向发展。从发展的视角来看,你认为我们需要做什么来确保 AI 的发展是积极的?

李飞飞:说实话,我认为我们可以做很多事,我认为我们应该昨天就开始做,现在还不晚,我们应该真正致力于此。

第一件事是我认为我们应该基于科学,而不是科幻。关于 AI 导致人类灭绝或 AI 带来世界和平的说法,都有太多炒作和言论,这两种观点都更像是科幻而不是科学。所以当我们思考如何处理 AI 政策、AI 治理时,基于数据、基于科学事实、基于科学方法是非常重要的。

其次,我真的相信,就像许多其他技术和工具一样,我们应该将治理精力集中在应用层面设置护栏上,也就是人类受到影响的地方,而不是阻止上游开发。想想汽车早期,它并不是很安全,没有安全带,一开始甚至没有车门,没有速度限制等等。然后我们确实有了教训,付出了人命的代价,但发生的事情不是让福特和通用汽车关闭工厂,而是为安全带、速度限制等创建了监管框架。

今天的 AI 类似,它是一个深具赋能性的技术,但也带来危害。所以我们应该关注的是,当 AI 应用于医疗时,我们如何更新 FDA 监管措施;当 AI 应用于金融时,我们如何设置监管护栏。应用是我们应该集中治理精力的地方。

最后但同样重要的是,我们需要理解,只有当拥有正面的生态系统时,才会有正面的 AI 未来。而这个生态系统需要私营部门。我认为私营部门(无论是大公司还是创业企业)很重要,但我们也需要公共部门。因为公共部门服务于公众福祉(public goods)。

在我看来,公共福祉有两种形式:一种是那些由好奇心驱动的创新和新知识 —— 无论是使用 AI 研究核聚变,还是使用 AI 治愈疾病,使用 AI 赋能我们的教师。所有这些不同的想法,很多都来自公共部门。ImageNet 就来自公共部门。

另一种形式的公共福祉是人才,我们需要教育越来越多的年轻人和公众了解这项技术,公共部门在 K12 到高等教育方面承担了社会教育责任的主要部分。这些是我非常关心的 AI 治理和政策的不同方面。

一些鼓舞人心的消息:有人在用 AI 评估农村社区的水质

主持人:我认为你也应该强调一下 AI for All,也就是要确保 AI 不是学术大佬们的专利,而是可以造福所有人。请谈谈 AI for All 以及它的使命和贡献是什么。

李飞飞:AI for All 是一个非营利组织,我与我的前学生和同事共同创立,其使命是为来自不同背景的 K12 学生提供机会,通过大学暑期项目和实习接触 AI。这个想法是试图实现 AI 的公共教育福祉 —— 我们知道 AI 将改变世界,但谁将改变 AI?我们希望更多样化的群体能来受到启发,使用这项技术,为各种伟大的事业开发这项技术。

我们一直专注于女性和来自农村、城市内或其他历史上代表性不足的社区和背景的学生,让他们参与这些暑期项目。看到这些年轻人使用 AI 或学习 AI,改进救护车调度算法、使用 AI 评估农村社区的水质,真是太鼓舞人心了!这个事情的规模依然很小,但我希望它能继续发展,因为让更多样化的人参与到 AI 中来这个目标非常重要。

AI 在革新医疗保健服务方面的潜力

主持人:你在医疗保健领域也做了研究。我觉得人们应该更多关注 AI 如何提升医疗水平。能谈谈你在这方面的工作和对未来的展望吗?

李飞飞:是的,正如我在书中所写,我对 AI 在医疗领域的应用充满热情。医疗保健是一个以人为本的领域,涵盖从基础生物科学、药物研发、临床诊断到公共卫生等多个方面。令人振奋的是,AI 在这个体系的每个环节都能发挥重要作用。

我特别关注医疗服务这个领域,因为这里最能体现人与人之间的互助。目前我们面临护士人力短缺的问题,他们工作繁重,流失率高。数据显示,护士每个班次要走四英里以上来取药和设备,在一个班次中,护士可能要完成多达 150 至 180 个不同的任务。同时,我们有病人从病床上摔下来,因为他们缺乏足够的照顾。对病情严重患者的分诊存在很多问题,更不用说独居老年人,面临痴呆恶化等诸多风险。

过去十多年,我一直在研究如何用智能摄像头技术帮助医护人员。这种非接触式的系统可以监测病床上病人的动作预防跌倒,追踪居家老人的行为和生活状况,甚至在手术室帮助护士清点器械避免遗留体内。我们将这种技术称为 NBA 智能,目标是协助医护人员提供更优质的照护服务。

AGI 到底是什么意思?

主持人:现在 AGI 这个词经常被提到,我记得你可能在某处说过你甚至不确定 AGI 是什么意思,因为显然很多人对它有自己的理解,就像是罗夏测试。请谈谈为什么会有这样的 AGI 讨论,它应该意味着什么,如何让这个讨论更理性,而不是一堆零散的呼喊 ——「它很棒」、「它很可怕」、「它会摧毁所有工作」、「它会帮助全人类」。

李飞飞:我知道,这既是一个最有趣但也令人沮丧的对话。我真的不知道 AGI 是什么意思。我想这个词来自大约 10 年前,那时候 AI 刚开始成熟,商业界对此开始产生兴趣。在 AI 之间加一个 G 以强调其通用性,我是尊重这个想法的。比如,现在的自动驾驶汽车就比仅能检测树木的相机要通用得多。这两者之间的差异是真实存在的。

如果回溯历史,回到 AI 的奠基者约翰・麦卡锡和马文・明斯基,回到他们从 1956 年夏天开始的梦想和希望,你会发现这其实就是他们的梦想 —— 制造能够思考和帮助人们做出决策的机器。而我们想的是解决检测树木这种极其狭窄的 AI 任务。

AI 这个领域就是为了创造思考机器。所以从这个角度来看,我们分享着同样的梦想、同样的科学好奇心、同样的追求 —— 让机器可以执行极其智能的任务。

所以从这个角度来看,AI 或 AGI 对我来说是同样的事情。

人际互动的价值:李飞飞与数学老师

主持人:我感觉最近的进步正在让我们更加接近这种 AI。我们可以通过日常对话让 AI 完成各种不同的任务。也就说所谓的智能体(Agent)。你认为这个发展方向如何?在未来几年里,智能体 AI 会像一些人说的那样改变一切吗?

李飞飞:自然语言能帮助人们搜索、构思、学习,是非常强大的工具。我自己也会使用 LLM 来帮助理解某些概念、阅读论文、探索我不知道的东西。最让我兴奋的是看到人们和孩子们将其用作提高自己学习的工具。

我确实想保持专注。保持人们的自我主动性很重要,这就需要为他们提供学习和赋能的好工具。我认为随着工具愈渐强大,我们将看到越来越多的协作能力,允许人类使用这些工具更精确地做事。我会很高兴看到这些发生。

主持人:我认为这不仅很重要,而且也是正确的事情。但也有人会担忧这些 AI 会取代人与人之间的互动,而我们知道社交很重要 —— 不管是对于教学,还是对于社区和同理心。您在自己的书《我看到的世界》中讲述了一个关于数学老师的故事,也涉及到了人际互动的重要性。你能多分享一些这方面的见解吗?

李飞飞:作为一个移民孩子,15 岁来到新泽西州,在不会说英语的情况下进入了一所公立高中。那是我旅程的开始。我非常幸运,很快就遇到了一个数学老师,萨贝拉先生。他以那种真正尊重和无条件的支持对待我。他不仅是我的数学老师,而且在我作为新移民的艰难青少年时期成为了我的朋友。我们的友谊一直持续。

他教育我的方式并不是通过言语。他从来没告诉我:飞飞,AI 要掌控世界了,听我的,去做以人为本的 AI(human-centered AI)。我想这个词从来没出现在我们的对话中。他是通过行动告诉我:我们社会和生活的意义在于我们为彼此所做的积极的事情,以及我们持有的信仰和我们追求的信标。通过他的行动,我开始认识到尊重和帮助他人是一件美好的事情,即使那是一个不会说英语、不知道自己在新国家做什么的迷茫孩子。我认为那种慷慨、善良和同情心是人类的核心。对我来说,从他那里学到的最重要的东西就是「以人为本」。

主持人:真是一个美好的故事。说到这里,有什么电影、歌曲或书籍能让你对未来充满希望吗?

李飞飞:《龙猫》是我最喜欢的电影之一。看到你的动作,仿佛已经能听到《龙猫》的主题曲了。但是我唱得不好,我就不唱了。这部电影虽然简单却又如此深刻。我还可以用陪孩子作为借口看这部电影,但说实话,我才不是因为孩子喜欢看呢!我就是喜欢看这部电影。

技术进步带来的红利必须共享

主持人:那么飞飞,你希望人们更经常问你什么问题呢?

李飞飞:我希望人们多问我如何用 AI 来帮助人类。关于这个话题我可以聊上几个小时,谈到这个我就能想到很多在斯坦福,或者遍布世界各地的优秀同事都为这方面做贡献。他们的具体研究我可能不太了解,但我很乐意通过他们的工作,来指明可供探索的方向。

主持人:没错。现在有很多人在做令人惊叹的事情,我们需要激励更多的人同行。在你的行业之外,有没有看到哪些让人激动的进展呢?

李飞飞:人文学科对能源的关注让我感到鼓舞。这好像再次证明,谈论其他话题,我的思维总会自然而然地回到 AI。就连 AI 的发展也面临着能源这个非常现实的问题,对吧?我认为环境的变化,以及为全球关系实现能源民主化都非常关键。而且我们不能永远依赖化石燃料。因此,许多能源领域的进展和全球性运动都令人兴奋。

主持人:最后一个问题,如果一切都对人类有利,你认为未来 15 年会朝着怎样的方式发展?实现那个目标的第一步是什么?

李飞飞:我希望未来 15 年能看到全球知识、福祉和生产力的整体提升,尤其是实现共同繁荣。之所以特别强调「共同」二字,是因为作为一个技术乐观主义者,我深信技术能帮助人类发现新知识、推动创新、提升福祉。历史一次又一次教会我们:技术进步带来的红利必须共享,我们要让这些技术福祉真正惠及每一个人。

参考链接:https://www.youtube.com/watch?v=0jMgskLxw3s

https://x.com/reidhoffman/status/1879531513752248565

ad1 webp
ad2 webp
ad1 webp
ad2 webp