浙江大学DeepSeek公开课第二季(一): 深透与再生，大模型生态下AI+X产业新触角 (附PPT)

浙江大学DeepSeek公开课第二季第一期: 解码DeepSeek“破圈”之力，深透与再生，大模型生态下AI+X产业新触角。

本期两位老师都来自都来自计算机学院，且师出同门，课程货很干、有营养，内容也相对更偏向技术性一些。尽管如此，各自都通过形象的比喻，把很多技术性的概念和术语，解释的深入浅出。此外，对于技术的演进和炒作，也相对冷静和客观。

以下内容稍多，但真心莫错过。

浙江大学DeepSeek公开课第二季(一): 深透与再生，大模型生态下AI+X产业新触角 (附PPT)

这里我大概总结十点让我印象深刻的环节：

1. 比如肖俊老师从发送邮件和写报告这两个最简单的应用场景出发，发现无论哪个大模型，只能解决其中的某个步骤，无法解决任务当中的一整套连贯动作，更何况更为复杂的工作任务。这也是为何AI智能体会出现，并获得如此火热关注的主要原因之一。

2. 而对待智能体方面，肖俊老师对当下火热的智能体，有相对客观的理解，因为无论学术界还是产业界，智能体这个概念从2021年就已经在进行中了，并非什么新概念。此外，浙大团队在结合Huggging Face已经发表了一些非常有影响力的文章，甚至在Gihub上的星星已经超过了阿里的Qwen，并对架构进行了梳理，比如LLM+知识图谱+智能体这一通用范式，然而，认为范式在未来仍旧存在很多不确定性。

3. 尽管如此，在产业应用上，已经通过当下的智能体范式，在宁波和浙江地区开展部署产业大脑，比如最简单常见的就是写产业分析报告，以及产业垂直GPT，比如将AI应用到产业网链的融合，调整产业链、创新链、人才链、资金链，从而优化产业结构，引导产业发展方向等相应国家战略的应用。

4. 朱强老师从最开始的计算机是如何理解人类语言开始，需要将文字编码成计算机所能理解的数字比如0和1，甚至探讨了one-hot和word embedding编码方式的优缺点，虽然很技术化，但一看便懂。

5. 在梳理技术演化时，三个关键阶段，从基于统计学的机器学习，到基于神经网络深度学习，再到基于Transformer架构的注意力机制(Attention is All You Need, 2017)，这里特别赞扬了由Google 提出的Transformer架构，尤其是Nx，可以无限叠加，非常的优雅，而这才是大语言模型真正意义上的理论创新！

6. 而这也导致了机器学习里面范式的变化，科研上慢慢都在用这套统一的架构了。其中有两个方向，一个是BERT，一个是GPT，bert强调编码，gpt强调解码，我们经常谈论GPT，然而在学术贡献上，BERT做的更好，实际上，像OpenAI始终在这两条路线上持续迭代。

7. 朱强老师专门梳理了大语言模型，多模态模型，和科学计算模型，很多人都会混为一谈，并且从维度上分为了机理、技术和产品。比如LLM是机理，GPT是技术，ChatGPT是基于LLM机理和GPT技术的最终产品。

8. 其中通过一篇Survey文献，分析了当前中美在大模型的竞争态势，在DeepSeek出现之前，中国几乎一致落后美国6个月左右，而DeepSeek出现后，这个差距缩小到了3个月左右，实际上对于这个迭代飞快的领域，3个月已经是不小的差距，要注意一点，我们并没有追上或者说超越，还是需要理性看待。

9. 此外，Meta的LLaMA开源，对学术界意义重大，学术界和产业界才能共同基于LLaMA来推动大模型的快速发展。而DeepSeek中的几大模块，并非理论创新（Attention is all you need, 2017年的论文），而是工程协同创新，但是，同样非常重要！这一点和之前几位教授的观点不谋而合，好的工程创新才能更好地体现学术创新的意义。尤其是DeepSeek对于全栈带来了深刻的影响，包括基础层、中间层和应用层。

10. 最后朱强老师展示了他在国自然重大项目，其中的时空智能自主化服务，即时空型GPT，从架构图中看的出来，恰恰体现出了当前智能体的标准范式，即LLM规划分解+感知记忆+小AI模型，到最终执行，在智能体的理解上，和肖俊老师异曲同工，到底是师出同门。

总结下来，干货满满，非常适合具备计算机等理工科专业背景的同学，继续深挖。

关注我，了解学术研究之路中关于AI的一切～

从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例

报告嘉宾：肖俊

浙江大学计算机科学与技术学院教授，博导，人工智能研究所副所长、人工智能教育教学研究中心副主任。求是特聘教授，教育部“长江学者奖励计划”特聘教授。浙江省计算机学会副理事长/秘书长。

报告摘要

2024年下半年以来，以DeepSeek-R1和GPT-o系列为代表的新一代大模型能力得到大幅提升并有望进入大规模产业转化阶段，本次课程将首先探索新一代推理大模型之所以强大的原因，进一步结合当下受到广泛关注的智能体（AI Agent）工具讨论构建复杂AI应用系统的途径，最后分享四链融合产业大脑这一复杂AI应用系统案例并展望未来AI系统研发的范式。

DeepSeek技术溯源及前沿探索

报告嘉宾：朱强

浙江大学计算机科学与技术学院教授，博导，国家百千万人才工程入选者，浙江省特聘专家，浙江大学“求是工程岗”获得者，中国人工智能学会人机融合智能专委会副主任委员，人工智能省部共建协同创新中心（浙江大学）科研与校企合作主管。

报告摘要

本报告将从技术脉络出发，探讨DeepSeek的起源和演化。语言模型以理解和生成语言为核心，经历了从传统统计方法到以Transformer为基础的演变，后者通过自注意力机制革新了语言建模。而ChatGPT通过大规模预训练与人类反馈对齐，推动生成式AI走向实用。如今，DeepSeek引领了一波新热潮，通过大规模强化学习模拟类人推理和决策过程，极大地推动了从生成大模型【系统1】到推理大模型【系统2】的转变，为新一代智能体提供了技术支撑。这些技术演变不仅推动了未来产业的智能化升级，也将深刻影响人机交互、创新应用和社会结构。