浙江大学DeepSeek公开课第二季第一期: 解码DeepSeek“破圈”之力,深透与再生,大模型生态下AI+X产业新触角。
本期两位老师都来自都来自计算机学院,且师出同门,课程货很干、有营养,内容也相对更偏向技术性一些。尽管如此,各自都通过形象的比喻,把很多技术性的概念和术语,解释的深入浅出。此外,对于技术的演进和炒作,也相对冷静和客观。
1. 比如肖俊老师从发送邮件和写报告这两个最简单的应用场景出发,发现无论哪个大模型,只能解决其中的某个步骤,无法解决任务当中的一整套连贯动作,更何况更为复杂的工作任务。这也是为何AI智能体会出现,并获得如此火热关注的主要原因之一。
2. 而对待智能体方面,肖俊老师对当下火热的智能体,有相对客观的理解,因为无论学术界还是产业界,智能体这个概念从2021年就已经在进行中了,并非什么新概念。此外,浙大团队在结合Huggging Face已经发表了一些非常有影响力的文章,甚至在Gihub上的星星已经超过了阿里的Qwen,并对架构进行了梳理,比如LLM+知识图谱+智能体这一通用范式,然而,认为范式在未来仍旧存在很多不确定性。
3. 尽管如此,在产业应用上,已经通过当下的智能体范式,在宁波和浙江地区开展部署产业大脑,比如最简单常见的就是写产业分析报告,以及产业垂直GPT,比如将AI应用到产业网链的融合,调整产业链、创新链、人才链、资金链,从而优化产业结构,引导产业发展方向等相应国家战略的应用。
4. 朱强老师从最开始的计算机是如何理解人类语言开始,需要将文字编码成计算机所能理解的数字比如0和1,甚至探讨了one-hot和word embedding编码方式的优缺点,虽然很技术化,但一看便懂。
5. 在梳理技术演化时,三个关键阶段,从基于统计学的机器学习,到基于神经网络深度学习,再到基于Transformer架构的注意力机制(Attention is All You Need, 2017),这里特别赞扬了由Google 提出的Transformer架构,尤其是Nx,可以无限叠加,非常的优雅,而这才是大语言模型真正意义上的理论创新!
6. 而这也导致了机器学习里面范式的变化,科研上慢慢都在用这套统一的架构了。其中有两个方向,一个是BERT,一个是GPT,bert强调编码,gpt强调解码,我们经常谈论GPT,然而在学术贡献上,BERT做的更好,实际上,像OpenAI始终在这两条路线上持续迭代。
7. 朱强老师专门梳理了大语言模型,多模态模型,和科学计算模型,很多人都会混为一谈,并且从维度上分为了机理、技术和产品。比如LLM是机理,GPT是技术,ChatGPT是基于LLM机理和GPT技术的最终产品。
8. 其中通过一篇Survey文献,分析了当前中美在大模型的竞争态势,在DeepSeek出现之前,中国几乎一致落后美国6个月左右,而DeepSeek出现后,这个差距缩小到了3个月左右,实际上对于这个迭代飞快的领域,3个月已经是不小的差距,要注意一点,我们并没有追上或者说超越,还是需要理性看待。
9. 此外,Meta的LLaMA开源,对学术界意义重大,学术界和产业界才能共同基于LLaMA来推动大模型的快速发展。而DeepSeek中的几大模块,并非理论创新(Attention is all you need, 2017年的论文),而是工程协同创新,但是,同样非常重要!这一点和之前几位教授的观点不谋而合,好的工程创新才能更好地体现学术创新的意义。尤其是DeepSeek对于全栈带来了深刻的影响,包括基础层、中间层和应用层。
10. 最后朱强老师展示了他在国自然重大项目,其中的时空智能自主化服务,即时空型GPT,从架构图中看的出来,恰恰体现出了当前智能体的标准范式,即LLM规划分解+感知记忆+小AI模型,到最终执行,在智能体的理解上,和肖俊老师异曲同工,到底是师出同门。
总结下来,干货满满,非常适合具备计算机等理工科专业背景的同学,继续深挖。
从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例
报告嘉宾:肖俊
浙江大学计算机科学与技术学院教授,博导,人工智能研究所副所长、人工智能教育教学研究中心副主任。求是特聘教授,教育部“长江学者奖励计划”特聘教授。浙江省计算机学会副理事长/秘书长。
报告摘要
2024年下半年以来,以DeepSeek-R1和GPT-o系列为代表的新一代大模型能力得到大幅提升并有望进入大规模产业转化阶段,本次课程将首先探索新一代推理大模型之所以强大的原因,进一步结合当下受到广泛关注的智能体(AI Agent)工具讨论构建复杂AI应用系统的途径,最后分享四链融合产业大脑这一复杂AI应用系统案例并展望未来AI系统研发的范式。
DeepSeek技术溯源及前沿探索
报告嘉宾:朱强
浙江大学计算机科学与技术学院教授,博导,国家百千万人才工程入选者,浙江省特聘专家,浙江大学“求是工程岗”获得者,中国人工智能学会人机融合智能专委会副主任委员,人工智能省部共建协同创新中心(浙江大学)科研与校企合作主管。
报告摘要
本报告将从技术脉络出发,探讨DeepSeek的起源和演化。语言模型以理解和生成语言为核心,经历了从传统统计方法到以Transformer为基础的演变,后者通过自注意力机制革新了语言建模。而ChatGPT通过大规模预训练与人类反馈对齐,推动生成式AI走向实用。如今,DeepSeek引领了一波新热潮,通过大规模强化学习模拟类人推理和决策过程,极大地推动了从生成大模型【系统1】到推理大模型【系统2】的转变,为新一代智能体提供了技术支撑。这些技术演变不仅推动了未来产业的智能化升级,也将深刻影响人机交互、创新应用和社会结构。
智能体到底是不是新鲜的事物呢?实际上从2021年开始工业界和学术界就已经开始研究了。
智能体就是在大脑、感知和工具中间来帮助大模型感知周边世界,做出决策,采取行动,改造世界。
大语言模型负责规划和决策,划分任务,然后通过智能体,到开源区去找,比如HuggingFace里找小模型,比如物体检测模型和图生文模型。
分成两个任务,一个物体检测 object detection,第二个理解图像 understand the figure。
两件事情,大模型定义任务,智能体去hugging face找相应的模型,然后小模型去处理任务,再返回。这篇文章,github已经2万星星。
计算机上操作系统是个非常伟大的产品,那么进入智能时代,未来大语言模型正在起到信息入口界面的角色。
智能体是大模型的眼和手,而智能体可以最终实现复杂任务。
产业垂直大模型iChinaGPT,目前和华为的体系适配。
最后几个总结如下,未来的范式是否就是推理大模型+知识图谱+智能体的结合呢?留给时间来验证。
计算机编码,最经典的编码方式one-hot encoding,当然这样的编码方式比较低效。
大语言模型简史,Transformer才是真正意义上的理论创新。
这篇文章“attention is all you need”来自于google,影响力非常大!Nx 非常优雅的模型。
用什么特征来描述这个图,一种是通过画边缘捕捉,一种是捕捉灰度的变化。
训练就类似大学生在图书馆找书,通过这些数据,反过来优化图书馆检索系统。
机器学习里面范式的变化,科研上慢慢都在用统一的架构了。
实际上bert对学术的影响更大,而gpt是由openai推动的闭源方式。
自监督学习,机器学习算法是一定要目标的,所以目标答案非常重要。为什么能够把“缓慢”填上呢,因为看到了非常多的语料,所以能够填充上。
这里理一理大模型概念,大语言模型、多模态大模型和科学计算模型。
这是一篇survey中整理的大模型的竞争态势,deepseek缩小了与美国的差距。
摩尔定律,GPT每6个月更新一次,也导致英伟达已经从三流成为世界一流的公司。DeepSeek实际上更加推动了算力的需求!
ChatGPT的出现,标志着人工智能真正的iPhone时刻。
从此,阳春白雪到下里巴人,广大老百姓才真正的受益。
OpenAI的技术路线图,从GPT3 到 GPT3.5。
一种是通过大量的源代码来训练,比如从github上获取来学习。另一种是通过指令的方式来训练。
最后汇聚到一条路线,因为前两条并没有注入新的能力,而只是解锁了能力而已。
4o已经可以作为文科博士生了,基础能力提升了,主要是交互能力提升了。
DeepSeek中的几大模块,并非理论创新,而是工程协同创新,同样非常重要!
最后就是蒸馏小模型,实际上非常简单,概念上就是学生问老师,不停的问,然后将知识给偷走了。老师不但给你答案,还给你思路。
关注我,了解学术研究之路中关于AI的一切~
原创文章,作者:门童靖博士,如若转载,请注明出处:https://www.agent-universe.cn/2025/03/45250.html