CBA

未开始

新疆

04-29

广州

CBA

未开始

浙江

04-29

上海

CBA

未开始

广东

04-28

广厦

CBA

未开始

辽宁

04-28

深圳

CBA

未开始

上海

04-26

浙江

CBA

未开始

广州

04-26

新疆

CBA

未开始

深圳

04-25

辽宁

CBA

未开始

广厦

04-25

广东

CBA

未开始

广州

04-24

新疆

CBA

未开始

上海

04-24

浙江

CBA

未开始

深圳

04-23

辽宁

CBA

未开始

广厦

04-23

广东

西甲第32轮

未开始

皇马

04-22

巴萨

法甲第30轮

未开始

大巴黎

04-22

里昂

西甲第32轮

未开始

阿拉维斯

04-22

马竞

英超第34轮

未开始

富勒姆

04-21

利物浦

德甲第30轮

未开始

多特蒙德

04-21

勒沃库森

CBA

未开始

新疆

04-21

广州

中超第7轮

未开始

北京国安

04-21

青岛西海岸

CBA

未开始

浙江

04-21

上海

中超第7轮

未开始

梅州客家

04-21

上海海港

NBA

未开始

湖人

04-21

掘金

美职联第9轮

未开始

迈阿密国际

04-21

纳什维尔SC

NBA

未开始

太阳

04-21

森林狼

西甲第32轮

未开始

吉罗纳

04-21

加的斯

英超第34轮

未开始

狼队

04-21

阿森纳

沙特联第28轮

未开始

哈森姆

04-21

吉达联合

NBA

未开始

魔术

04-21

骑士

意甲第33轮

未开始

恩波利

04-21

那不勒斯

中超第7轮

未开始

南通支云

04-20

上海申花

CBA

未开始

辽宁

04-20

深圳

CBA

未开始

广东

04-20

广厦

中超第7轮

未开始

成都蓉城

04-20

深圳新鹏城

中超第7轮

未开始

山东泰山

04-20

沧州雄狮

意甲第33轮

未开始

卡利亚里

04-20

尤文

沙特联第28轮

未开始

利雅得胜利

04-19

费哈

CBA

未开始

新疆

04-19

广州

CBA

未开始

浙江

04-19

上海

欧联1/4决赛

未开始

罗马

04-19

米兰

欧联1/4决赛

未开始

西汉姆联

04-19

勒沃库森

欧联1/4决赛

未开始

马赛

04-19

本菲卡

欧联1/4决赛

未开始

亚特兰大

04-19

利物浦

CBA

未开始

广东

明日

广厦

CBA

未开始

辽宁

明日

深圳

NBA

未开始

老鹰

明日

公牛

NBA

未开始

热火

明日

76人

欧冠1/4决赛

未开始

曼城

明日

皇马

欧冠1/4决赛

未开始

拜仁

明日

阿森纳

NBA

已结束

勇士

94

国王

NBA

已结束

湖人

110

鹈鹕

欧冠1/4决赛

已结束

巴萨

1

大巴黎

欧冠1/4决赛

已结束

多特蒙德

4

马竞

U23亚洲杯第1轮

已结束

韩国U23

1

阿联酋U23

U23亚洲杯第1轮

已结束

日本U23

1

中国U23

CBA

已结束

上海

118

北京

英超第33轮

已结束

切尔西

6

埃弗顿

CBA

已结束

深圳

117

北控

CBA

已结束

广厦

109

山西

NBA

已结束

火箭

116

快船

NBA

已结束

掘金

126

灰熊

NBA

已结束

独行侠

86

雷霆

NBA

已结束

湖人

124

鹈鹕

NBA

已结束

爵士

116

勇士

NBA

已结束

活塞

95

马刺

NBA

已结束

太阳

125

森林狼

NBA

已结束

开拓者

82

国王

意甲第32轮

已结束

国米

2

卡利亚里

NBA

已结束

老鹰

115

步行者

NBA

已结束

公牛

119

尼克斯

NBA

已结束

奇才

122

凯尔特人

NBA

已结束

猛龙

103

热火

NBA

已结束

雄鹿

88

魔术

NBA

已结束

黄蜂

120

骑士

NBA

已结束

篮网

86

76人

意甲第32轮

腰斩

乌迪内斯

1

罗马

CBA

已结束

广州

92

青岛

CBA

已结束

北京

116

上海

CBA

已结束

山西

132

广厦

CBA

已结束

北控

99

深圳

CBA

已结束

青岛

96

广州

CBA

已结束

上海

110

北京

CBA

已结束

深圳

106

北控

CBA

已结束

广厦

107

山西

CBA

已结束

上海

95

浙江

CBA

已结束

广州

109

南京

CBA

已结束

山西

117

北控

CBA

已结束

山东

128

宁波

CBA

已结束

深圳

102

北京

CBA

已结束

新疆

121

江苏

CBA

已结束

吉林

107

福建

CBA

已结束

青岛

87

四川

CBA

已结束

天津

113

广东

CBA

已结束

辽宁

101

广厦

本想去谷歌捞一笔就跑，却成了改变AI历史的人

2025-02-13 13:51:17

谷歌两位大佬回应一切：从PageRank到AGI的25年。

现任首席科学家Jeff Dean、出走又回归的Transformer作者Noam Shazeer，与知名播客主持人Dwarkesh Patel展开对谈。

视频刚发几个小时，就有20万+网友在线围观。

两人都是谷歌远古员工，经历了从MapReduce到Transformer、MoE，他们发明了很多改变整个互联网和AI的关键技术。

Noam Shazeer却谈到当初入职谷歌只是为了捞一笔就跑，没想到成了改变世界的那个人。

在两个多小时的谈话中，他们透露了AI算力的现状：

单个数据中心已经不够了，Gemini已经在跨多个大城市的数据中心异步训练。

也对当下最流行的技术趋势做了探讨：

推理算力Scaling还有很大空间，因为与AI对话比读书仍然便宜100倍
未来的模型架构会比MoE更灵活，允许不同的团队独立开发不同的部分

网友们也在边听边po发现的亮点：

比如在内存中存储一个巨大的MoE模型的设想。

以及“代码中的bug可能有时会对AI模型有正面影响”。

随着规模的扩大，某些bug正是让研究人员发现新突破的契机。

推理算力Scaling的未来

很多人觉得AI算力很贵，Jeff Dean不这么认为，他用读书和与AI讨论一本书来对比：

当今最先进的语言模型每次运算的成本约为10-18美元，这意味着一美元可以处理一百万个token。

相比之下，买一本平装书的成本大约相当于每1美元买1万个token（单词数换算成token）。

那么，与大模型对话就比读书便宜约100倍。

这种成本优势，为通过增加推理算力来提升AI的智能提供了空间。

从基础设施角度来看，推理时间计算的重要性增加可能会影响数据中心规划。

可能需要专门为推理任务定制硬件，就像谷歌初代TPU一样，它最初是为推理的目的设计，后来才被改造为也支持训练。

对推理的依赖增加可能意味着不同的数据中心不需要持续通信，可能导致更分布式、异步的计算。

在训练层面，Gemini 1.5已经开始使用多个大城市的计算资源，通过高速的网络连接将不同数据中心中的计算结果同步，成功实现了超大规模的训练。

对于大模型来说，训练每一步的时间可能是几秒钟，因此即使网络延迟有50毫秒，也不会对训练产生显著影响。

到了推理层面，还需要考虑任务是否对延迟敏感。如果用户在等待即时响应，系统需要针对低延迟性能进行优化。然而，也有一些非紧急的推理任务，比如运行复杂的上下文分析，可以承受更长的处理时间。

更灵活和高效的系统可能能够异步处理多个任务，在提高整体性能的同时最大限度地减少用户等待时间。

此外，算法效率的提升，如使用较小的草稿（Draft）模型，可以帮助缓解推理过程中的瓶颈。在这种方法中，较小的模型生成潜在的token，然后传递给较大的模型进行验证。这种并行化可以显著加快推理过程，减少一次一个token的限制。

Noam Shazeer补充，在进行异步训练时，每个模型副本会独立进行计算，并将梯度更新发送到中央系统进行异步套用。虽然这种方式会使得模型参数略有波动，理论上会有影响，但实践证明它是成功的。

相比之下，使用同步训练模式能提供更加稳定和可重复的结果，这是许多研究者更加青睐的模式。

在谈到如何保证训练的可重复性时，Jeff Dean提到一种方法是记录操作日志，尤其是梯度更新和数据批次的同步记录。通过回放这些操作日志，即使在异步训练的情况下，也能够确保结果的可重复性。这种方法可以让调试变得更加可控，避免因为环境中的其他因素导致结果不一致。

Bug也有好处

顺着这个话题，Noam Shazeer提出一个有意思的观点：

训练模型时可能会遇到各种各样的bug，但由于噪音的容忍度，模型可能会自我调整，从而产生未知的效果。

甚至有的bug会产生正面影响，随着规模的扩大，因为某些bug在实验中可能会表现出异常，让研究人员发现新的改进机会。

当被问及如何在实际工作中调试bug时，Noam Shazeer介绍他们通常会在小规模下进行大量实验，这样可以快速验证不同的假设。在小规模实验中，代码库保持简单，实验周期在一到两个小时而不是几周，研究人员可以快速获得反馈并做出调整。

Jeff Dean补充说，很多实验的初期结果可能并不理想，因此一些“看似不成功”的实验可能在后期仍然能够为研究提供重要的见解。

与此同时，研究人员面临着代码复杂性的问题：虽然不断叠加新的改进和创新是必要的，但代码的复杂性也会带来性能和维护上的挑战，需要在系统的整洁性和创新的推进之间找到平衡。

未来模型的有机结构

他们认为，AI模型正在经历从单一结构向模块化架构的重要转变。

如Gemini 1.5Pro等模型已经采用了专家混合（Mixture of Expert）架构，允许模型根据不同任务激活不同的组件。例如在处理数学问题时会激活擅长数学的部分，而在处理图像时则会激活专门处理图像的模块。

然而，目前的模型结构仍然较为僵化，各个专家模块大小相同，且缺乏足够的灵活性。

Jeff Dean提出了一个更具前瞻性的设想：未来的模型应该采用更有机的结构，允许不同的团队独立开发或改进模型的不同部分。

例如，一个专注于东南亚语言的团队可以专门改进该领域的模块，而另一个团队则可以专注于提升代码理解能力。

这种模块化方法不仅能提高开发效率，还能让全球各地的团队都能为模型的进步做出贡献。

在技术实现方面，模型可以通过蒸馏（Distillation）技术来不断优化各个模块。这个过程包括将大型高性能模块蒸馏为小型高效版本，然后在此基础上继续学习新知识。

路由器可以根据任务的复杂程度，选择调用合适规模的模块版本，从而在性能和效率之间取得平衡，这正是谷歌Pathway架构的初衷。

这种新型架构对基础设施提出了更高要求。它需要强大的TPU集群和充足的高带宽内存（HBM）支持。尽管每个调用可能只使用模型的一小部分参数，但整个系统仍需要将完整模型保持在内存中，以服务于并行的不同请求。

现在的模型能将一个任务分解成10个子任务并有80%的成功率，未来的模型能够将一个任务分解成100或1000个子任务，成功率达到90%甚至更高。

“Holy Shit时刻”：准确识别猫

回过头看，2007年对于大模型（LLMs）来说算得上一个重要时刻。

当时谷歌使用2万亿个tokens训练了一个N-gram模型用于机器翻译。

但是，由于依赖磁盘存储N-gram数据，导致每次查询需大量磁盘I/O（如10万次搜索/单词），延迟非常高，翻译一个句子就要12小时。

于是后来他们想到了内存压缩、分布式架构以及批处理API优化等多种应对举措。

内存压缩：将N-gram数据完全加载到内存，避免磁盘I/O；
分布式架构：将数据分片存储到多台机器（如200台），实现并行查询；
批处理API优化：减少单次请求开销，提升吞吐量。

过程中，计算能力开始遵循摩尔定律在之后逐渐呈现爆发式增长。

从2008年末开始，多亏了摩尔定律，神经网络真正开始起作用了。

那么，有没有哪一个时刻属于“Holy shit”呢？（自己都不敢相信某项研究真的起作用了）

不出意外，Jeff谈到了在谷歌早期团队中，他们让模型从油管视频帧中自动学习高级特征（如识别猫、行人），通过分布式训练（2000台机器，16000核）实现了大规模无监督学习。

而在无监督预训练后，模型在监督任务（ImageNet）中性能提升了60%，证明了规模化训练和无监督学习的潜力。

接下来，当被问及如今谷歌是否仍只是一家信息检索公司的问题，Jeff用了一大段话表达了一个观点：

AI履行了谷歌的原始任务

简单说，AI不仅能检索信息，还能理解和生成复杂内容，而且未来想象力空间巨大。

至于谷歌未来去向何方，“我不知道”。

不过可以期待一下，未来将谷歌和一些开源源代码整合到每个开发者的上下文中。

换句话说，通过让模型处理更多tokens，在搜索中搜索，来进一步增强模型能力和实用性。

当然，这一想法已经在谷歌内部开始了实验。

实际上，我们已经在内部代码库上为内部开发人员进行了关于Gemini模型的进一步培训。

更确切的说法是，谷歌内部已经达成25%代码由AI完成的目标。

在谷歌最快乐的时光

有意思的是，这二位还在对话中透露了更多与谷歌相关的有趣经历。

对1999年的Noam来说，本来没打算去谷歌这样的大公司，因为凭直觉认为去了也可能无用武之地，但后来当他看到谷歌制作的每日搜索量指数图表后，立马转变了想法：

这些人一定会成功，看起来他们还有很多好问题需要解决

于是带着自己的“小心思”就去了（主动投了简历）：

挣一笔钱，然后另外开开心心去搞自己感兴趣的AI研究

而加入谷歌后，他就此结识了导师Jeff（新员工都会有一个导师），后来两人在多个项目中有过合作。

谈到这里，Jeff也插播了一条他对谷歌的认同点：

喜欢谷歌对RM愿景（响应式和多模态，Responsive and Multimodal）的广泛授权，即使是一个方向，也能做很多小项目。

而这也同样为Noam提供了自由空间，以至于当初打算“干一票就跑”的人长期留了下来。

与此同时，当话题转向当事人Jeff时，他的一篇关于平行反向传播的本科论文也被再次提及。

这篇论文只有8页，却成为1990年的最优等本科论文，被明尼苏达大学图书馆保存至今。

其中，Jeff探讨了两种基于反向传播来平行训练神经网络的方法。

模式分割法（pattern-partitioned approach）：将整个神经网络表示在每一个处理器上，把各种输入模式划分到可用的处理器上；
网络分割法（network-partitioned approach）流水线法（pipelined approach）：将神经网络的神经元分布到可用的处理器上，所有处理器构成一个相互通信的环。然后，特征通过这个pipeline传递的过程中，由每个处理器上的神经元来处理。

他还构建了不同大小的神经网络，用几种不同的输入数据，对这两种方法进行了测试。

结果表明，对于模式分割法，网络大、输入模式多的情况下加速效果比较好。

当然最值得关注的还是，我们能从这篇论文中看到1990年的“大”神经网络是什么样：

3层、每层分别10、21、10个神经元的神经网络，就算很大了。

论文地址：https://drive.google.com/file/d/1I1fs4sczbCaACzA9XwxR3DiuXVtqmejL/view

Jeff还回忆道，自己测试用的处理器，最多达到了32个。

（这时的他应该还想不到，12年后他会和吴恩达、Quoc Le等人一起，用16000个CPU核心，从海量数据中找出猫。）

不过Jeff坦言，如果要让这些研究成果真正发挥作用，“我们需要大约100万倍的计算能力”。

后来，他们又谈到了AI的潜在风险，尤其是当AI变得极其强大时可能出现的反馈循环问题。

换句话说，AI通过编写代码或改进自身算法，可能进入不可控的加速改进循环（即“智能爆炸”）。

这将导致AI迅速超越人类控制，甚至产生恶意版本。就像主持人打的比方，有100万个像Jeff这样的顶尖程序员，最终变成“100万个邪恶的Jeff”。

（网友）：新的噩梦解锁了哈哈哈！

最后，谈及在谷歌最快乐的时光，二人也分别陷入回忆。

对Jeff来说，在谷歌早期四五年的日子里，最快乐的莫过于见证谷歌搜索流量的爆炸式增长。

建造一个如今20亿人都在使用的东西，这非常不可思议。

至于最近，则很开心和Gemini团队构建一些，即使在5年前人们都不敢相信的东西，并且可以预见模型的影响力还将扩大。

而Noam也表达了类似经历和使命，甚至喜滋滋cue到了谷歌的“微型厨房区域”。

据介绍，这是一个大约有50张桌子的特别空间，提供咖啡小吃，人们可以在这里自由自在闲聊，碰撞想法。

一说到这个，连Jeff也手舞足蹈了（doge）：

Okk，以上为两位大佬分享的主要内容。

程序员的AI救赎时刻接入这个数据库业务提问自动解决

程序员的AI救赎时刻接入这个数据库业务提问自动解决

量子位 2024-12-20 18:25:44

人形机器人组队进厂打工！5只Figure 02在宝马工厂

人形机器人组队进厂打工！5只Figure 02在宝马工厂

量子位 2024-11-22 10:57:40

吴恩达押注Agent新成果出炉，推理新方法颠覆AI目标检测认知

吴恩达押注Agent新成果出炉，推理新方法颠覆AI目标检测认知

量子位 2025-02-11 17:02:35

放大招!文心一言「全面免费」,同时开启「深度搜索」,抢鲜实测！

放大招!文心一言「全面免费」,同时开启「深度搜索」,抢鲜实测！

机器之心Pro 2025-02-13 16:39:40

能买彩票能算命，Deepseek上演“赛博玄学”吸金

能买彩票能算命，Deepseek上演“赛博玄学”吸金

虎嗅APP 2025-02-13 23:02:06

商汤科技董事长兼CEO 徐立打脸时刻就是AI的超级时刻

商汤科技董事长兼CEO 徐立打脸时刻就是AI的超级时刻

量子位 2024-12-23 14:58:54

为了让DeepSeek-R1用起来更顺畅，火山引擎将TPM上调到了500万！

为了让DeepSeek-R1用起来更顺畅，火山引擎将TPM上调到了500万！

机器之心Pro 2025-02-13 16:35:32

数据揭露DeepSeek崛起的秘诀

数据揭露DeepSeek崛起的秘诀

虎嗅APP 2025-02-13 16:37:18

我用两年聊天记录，复刻出一个AI版的自己

我用两年聊天记录，复刻出一个AI版的自己

量子位 2024-11-28 17:30:14

AI如何改变社交娱乐新姿势？阿里云AI专家解读来了

AI如何改变社交娱乐新姿势？阿里云AI专家解读来了

量子位 2024-11-27 23:24:00

AI如何解锁企业办公新模式？阿里云AI专家解读来了

AI如何解锁企业办公新模式？阿里云AI专家解读来了

量子位 2024-11-26 22:24:00

“错过”DeepSeek的广东，应该向杭州借鉴些什么

“错过”DeepSeek的广东，应该向杭州借鉴些什么

澎湃新闻 2025-02-13 14:13:20

比尔盖茨曾是熊孩子：16岁徒步数百英里，边走脑中边写BASIC代码

比尔盖茨曾是熊孩子：16岁徒步数百英里，边走脑中边写BASIC代码

量子位 2025-02-13 14:31:27

吴恩达预言成真？AI运维专家横扫职场，精准解决80%运维难题

吴恩达预言成真？AI运维专家横扫职场，精准解决80%运维难题

量子位 2025-01-10 16:51:31

大模型如何让智能硬件有脑有脚、听话能干？

大模型如何让智能硬件有脑有脚、听话能干？

36氪 2025-01-26 10:30:50

谷歌、软银投2.3亿美元，这家公司要两年内打造万比特量子计算机

谷歌、软银投2.3亿美元，这家公司要两年内打造万比特量子计算机

DeepTech深科技 2025-02-13 17:37:58

谷歌全网扒1000亿图像文本对，ViT大佬坐镇：数据Scaling潜力依旧

谷歌全网扒1000亿图像文本对，ViT大佬坐镇：数据Scaling潜力依旧

量子位 2025-02-13 17:11:52

小小冰淇淋机，为何惊动美国总统？ 2017年，3个佛罗里达人因为麦当劳冰淇淋殴打店员；在2024年的

小小冰淇淋机，为何惊动美国总统？ 2017年，3个佛罗里达人因为麦当劳冰淇淋殴打店员；在2024年的

量子位 2025-01-31 10:53:29

谷歌印度公共政策负责人Sreenivasa Reddy辞职

谷歌印度公共政策负责人Sreenivasa Reddy辞职

财联社 2025-02-13 20:48:08

曾毓群：如果特朗普愿意开放电动汽车供应链投资宁德时代将考虑在美国建厂

曾毓群：如果特朗普愿意开放电动汽车供应链投资宁德时代将考虑在美国建厂

每日经济新闻 2024-11-13 18:35:50

谷歌、苹果地图真改了，将墨西哥湾改为美国湾

谷歌、苹果地图真改了，将墨西哥湾改为美国湾

河洛有话说 2025-02-12 20:20:21

美媒：特朗普获赔约1000万美元，钱来自马斯克

美媒：特朗普获赔约1000万美元，钱来自马斯克

环球网资讯 2025-02-13 17:29:25

美征台积电100%关税？美禁DeepSeek官员堪比清朝老爷

美征台积电100%关税？美禁DeepSeek官员堪比清朝老爷

人猿星球观察 2025-02-11 10:14:37

交融共生不仅是美学和文化概念，更是华为坚信的合作理念

交融共生不仅是美学和文化概念，更是华为坚信的合作理念

饭统戴老板 2024-12-01 12:20:43

周鸿祎探店小鹏汽车，现场下单20辆MONA M03

周鸿祎探店小鹏汽车，现场下单20辆MONA M03

财联社 2025-02-10 15:33:59

美俄元首通话后欧洲回过味儿了:到头来我们啥也不是

美俄元首通话后欧洲回过味儿了:到头来我们啥也不是

澎湃新闻 2025-02-13 14:13:48

特朗普一夜暴富！全球去美元化

大卫sir 2025-02-12 07:00:00

比亚迪版图大起底，实力超乎你的想象

比亚迪版图大起底，实力超乎你的想象

华商韬略 2025-02-11 17:11:11

川普要求台积电搬到美国，如果成真，影响将会是非常巨大的

川普要求台积电搬到美国，如果成真，影响将会是非常巨大的

全局观 2025-02-12 11:19:43

哪吒每个角色都被困在人生算法之中

哪吒每个角色都被困在人生算法之中

彭小瓜子儿 2025-02-12 13:16:15

微软AI模型MatterGen能根据需求生成新材料

微软AI模型MatterGen能根据需求生成新材料

量子位 2025-01-21 18:07:40

技术的百度：一场未完待续的冒险

技术的百度：一场未完待续的冒险

饭统戴老板 2024-11-15 17:00:40

后Transformer时代，AI将何去何从？（下）｜【十万字】深度研报

后Transformer时代，AI将何去何从？（下）｜【十万字】深度研报

钛媒体APP 2025-01-01 20:46:37

马斯克、蔡崇信亮相迪拜WGS大会接力发布AI大消息

马斯克、蔡崇信亮相迪拜WGS大会接力发布AI大消息

财联社 2025-02-13 17:16:52

MIT团队新系统30倍速提高AI模型构建效率

MIT团队新系统30倍速提高AI模型构建效率

DeepTech深科技 2025-02-11 17:46:50

百度李彦宏：自动驾驶比人类司机安全十倍

百度李彦宏：自动驾驶比人类司机安全十倍

财联社 2025-02-11 18:29:46

o3斩获IOI金牌冲榜全球TOP 18，自学碾压顶尖程序员！48页技术报告公布

o3斩获IOI金牌冲榜全球TOP 18，自学碾压顶尖程序员！48页技术报告公布

新智元 2025-02-13 13:01:55

多模态版DeepSeek来了，北大出品，可用于机器人控制

多模态版DeepSeek来了，北大出品，可用于机器人控制

智东西 2025-02-13 18:58:49

Kimi杨植麟该为“重投放”反思吗？

Kimi杨植麟该为“重投放”反思吗？

虎嗅APP 2025-02-13 22:50:44

AI时代，为什么「超级有用」比「超级应用」更重要？

AI时代，为什么「超级有用」比「超级应用」更重要？

36氪 2024-11-18 21:58:26