△点击上图查看详情
“正需要研究这方面的内容,真是瞌睡送枕头,爆赞!”
“老师讲得太棒了,刚看完书的第一章,马上就找到视频啦。”
“虽然近两年都在做和大模型相关的工作,但再看老师的课程,自己的知识会更全面立体,感谢老师”……
因为一本免费的电子书,浙江大学软件学院90后博导、浙江大学DAILY实验室研究员毛玉仁,以及学院里几位硕博研究生的名字,最近频繁出现在微博、小红书、知乎等各大社交平台上。
他们将大模型的基础知识,以及日常积累的、有用的最新技术,编写成《大模型基础》,发布在全球最大的代码托管平台GitHub上,供所有人免费下载学习。目前,这本书已经成为网上推荐最多的大模型学习书籍之一。
教大模型的“青椒”和学生们写了本书
这本《大模型基础》分为六大章节:语言模型基础、大语言模型架构、Prompt工程、参数高效微调、模型编辑和检索增强生成,共283页。软件学院副院长高云君教授为编撰总指导。截至目前,它在GitHub拥有7.8K Stars(星标),在这个开源社区里已是相当不错的评价。
“起初,这只是我和学生们每周一次的组内学习。”2022年,随着ChatGPT的横空出世,毛玉仁明显感受到,教材内容开始脱节。于是,他和学生们组成学习小组——他特地强调,要把参与的学生名字都写上:葛宇航、李佳晖、张超、董雪梅、宓禹、樊怡江、徐文溢、胡中豪。
这群AI狂热分子一头扎进最新的论文海洋里,试图从众多新技术、新思潮中筛选出那些有望成为经典范式的,“大概从2023年上半年开始,我们着手收集我们认为可以成为经典的技术。”
在技术快速迭代今天,这个目标并不容易。在开放的预印论文网站arXiv上,每周几乎都会更新三四百篇与大模型相关的论文,“每人每天至少要花2小时来阅读,一周一次小组讨论,选出5-7篇最有价值的。”
这个过程中,参与的同学们锻炼了筛选信息的能力和学术眼光,电子书《大模型基础》也渐渐有了雏形。
为了增加书籍的可读性,团队还想到了用动物园来举例子。比如第一章节是长颈鹿,第二和第三章节是水豚、小浣熊……
书稿完成后,有出版社找上门,毛玉仁想了想,最终选择开源。“如果想让这件事的意义最大化,让更多人了解、共同学习,开源无疑是最好的选择。”
今年初,他还将去年冬学期给软件学院研究生上的课程《大模型原理与技术》录屏后,上传到B站,并在小红书上也开通了免费学习账号。网络上,他为自己写的简介是:教大模型的“青椒”(高校青年教师)。
B站课程截图
难忘的玉泉北门炒米粉
早在10年前,人工智能这扇大门就已向毛玉仁敞开。
2014年,从重庆大学通信工程专业保研到浙大微电子学与固体电子学的他,在暑期科研活动中,和来自不同专业的同学有了更广泛的交流。“聊着聊着,我突然发现未来的世界好像是属于人工智能的。”这也是他对浙大的初印象:大家都很有想法,新颖又大胆。
研一那年,阿里云天池大数据竞赛(现改名阿里云天池大学生竞赛)刚好办到第二届,毛玉仁一通电话,就组好了三人队,参赛项目是“淘宝的穿衣搭配推荐”。
他们各自先在实验室里完成导师交代的任务,然后相约去玉泉校区北门外,点上几份烧烤、炒粉干,讨论参赛项目细节。肚子填饱后回到实验室继续下半场,写代码、处理数据、验证结果……为比赛熬个夜。
“在浙大,只要你想做一件事,且它是有意义的,就能找到同行者,就会有人为你鼓掌,不管是学生还是老师。”从那时起,毛玉仁不止一次体会到这种让人热血又心安的氛围,“干就完事了,谁也不会瞻前顾后。”
当时万塘路18号的支付宝大楼,是他走出实验室的另一个去处。“寝室在5舍,离北门近。从北门走出去,500多米就能到支付宝大楼,可以通过实习拓宽视野。”
此后,毛玉仁前往澳大利亚新南威尔士大学继续深造,主攻机器学习领域;其间,也在微软亚洲研究院等公司机构从事研发工作……兜兜转转,2022年那年,他选择回到浙大。
“浙大一直有这样的氛围,产学研深度融合,科研成果能上‘书架’也能上‘货架’。”毛玉仁所带的学生课业之余,有的在阿里通义实验室实习,有的在蚂蚁集团,也有的在华为。“我们一直和企业保持着良好的合作,像是共同完成一些课题,把产业需求和学术研究结合在一起。”
为什么是浙大?
从浙大玉泉校区正门进去,去往软件学院的一路,可以看到各个学院的指示标牌。
右手边大操场附近,是信息与电子工程学院,往前是航空航天学院;在竺可桢老校长立像前的大草坪前左拐,一大段上坡路通往曹光彪高科技大楼,这里除了软件学院,还有计算机科学与技术学院,中途会路过控制科学与工程学院……
眼下,这些学院及相关专业的名称,频繁出现在公众视野。
深度探索创始人梁文锋本硕就读于信息与电子工程学院;云深处科技创始人朱秋国是浙大校友,也是控制科学与工程学院副教授;研发出全球最快四足机器狗“黑豹2.0”的团队,带队人王宏涛教授则来自航空航天学院……
上周马斯克召开的最新推理模型发布会,因C位坐着杭州95后学霸而刷屏朋友圈。这家AI公司的初创团队成员之一张国栋,本科同样毕业于浙大信息工程专业。
(新闻回顾☞ )
有人笑称,全球的AI竞争变成了浙大人的“内战”。为什么在这一轮AI浪潮中,浙大师生和校友成为备受瞩目的焦点?
不久前,浙江大学公众号在推文《“杭州六小龙”,浙大基因密码是什么?》中,提及梁文锋15年前的硕士论文致谢。当时他写道:“导师项志宇老师领我进入机器视觉的大门,为我准备学习计划,对我进行科研训练”,“严谨的治学气氛,以及团结友爱、积极向上的科学精神”是他研究生期间的重要收获之一。
毛玉仁也总结道:身处浙大,总能找到志同道合的人;学校注重知识传授、能力培养和素质提升相结合,产学研深度融合……以及,他本人的经历也很有代表性:从浙大毕业,在微软、蚂蚁等科技大厂待过,还参与过“集五福”项目;前往国外求学,学成归来回到一方讲台,将“产学研”的经验融会贯通,传递给学生。
如果置于更久远的时空坐标中,这一切或许可以追溯到47年前。1978年,浙大招收第一批人工智能研究方向的硕士研究生;1982年,人工智能研究室成立,5年后升格为人工智能研究所;2019年成为35所首批设立人工智能本科专业高校之一。
今年初,2024年全球AI顶尖论文作者人数排名显示,浙大与北大并列第6,4年前它还排在第89位。
愿意分享的“浙大先生”
最近,浙大还有两件事出圈登上微博热搜榜。
2月14日,浙大发布深度融合智能体(AI Agent),本地化部署DeepSeek-V3、R1模型,覆盖教学、科研、生活等全场景。6天后,面向829所高校的CARSI联盟高校的登录入口开通,只需通过校园账号登录,就能免费用上“满血版”DeepSeek。
浙大给这个智能体取了个名字,叫“浙大先生”,传承文脉又面向未来。
另一件事是,继去年9月起,面向不同学科专业的本科生开设多层次“人工智能基础”通识课后,浙大人工智能科研团队推出DeepSeek系列专题线上公开课,自2月17日起每周一晚7点半在线直播分享。校园里的通识教育,成了面向全社会的公益课。
当被问及这阵子外界的喧嚣和躁动,是否会给自己和学生带来影响时,毛玉仁摆摆手:“一切如常。说实话,老师们每天忙于科研和教学,学生忙于学业和实习,没有过多时间思考其他东西。每个人专注于自己手头的事就好。”
他还透露,《大模型基础》目前正在申报新一代人工智能通识系列教材。鉴于这本名字里带有“基础”的书,其实对读者也有一定要求,比如理工专业、数学要好,他还有想法再写一本门槛更低、更适合普通大众的相关书籍。“大模型最重要的其实不是技术本身,而是人的思维方式和应用它的方法。”
“我发现课堂上有些学生的分享其实也非常有想法,如果有时间,希望可以邀请他们录制一些视频,分享到网上和大家交流探讨,共同进步。”毛玉仁表示,身为浙大老师,幸福感很大程度上正是来源于分享和帮助他人。
橙柿互动·都市快报记者 童蔚
编辑 潘俐
审核 张倩 陈欣文