前言¶

机器于此理解语言。

我想了很久，才把这个项目的名称定好，一开始写的是《大模型：从入门到精通》。后感老土至极，遂弃之。再后来是《大模型：从零开始》，又感觉有硬蹭他人作品的嫌疑，复弃之。反反复复，最后中二人格启动，故冒充先贤给予后辈神神叨叨之寓言一般的口吻，写下了这句话。

中二归中二，但更重要的是我想赋予这份笔记使命感。仿佛界碑一般，从这里开始就进入到了大模型领域。我想表达的并不只是一个技术判断，而是一种很强烈的学习感受：大模型并不是突然从天而降的魔法，它是一整套由数据、表示、结构、训练、对齐和工程系统共同支撑起来的理解方式。语言在机器里被切分、编码、压缩、预测，再一点点长出我们今天看到的能力边界。

在刚进入大学的时候，我一腔热血，一头扎进计算机的海洋，但是很快我就发现我不知道该怎么走，各种领域五花八门，虽然我从小就决定学人工智能，但从机器学习开始，朴素的机器学习方法（SVD，Kmeans，Supporting machine等等），再到深度学习方法，再到CV，NLP，RL，GenAI，再到现在的LLM。我完全不知道从何处下手，当时受于资源限制，只能自己硬着头皮慢慢钻，直到今天，马上硕士毕业，回头看看好像也确实钻出一条路来。

所以我开始系统整理这份笔记，也是因为在真正往下学的时候，很快就会发现一件事：关于大模型的资料很多，但真正能把原理、代码、实验和工程实践连起来的内容并不算多。要么太偏概念，读完觉得“好像懂了”，却还是不知道怎么自己实现；要么太偏工具，上来就是调用框架和 API，做出了结果，却不知道每一层到底为什么这样设计。

所以这本笔记想做的，不是再重复一遍“怎么用大模型”，而是从更底层的位置往上搭一条主线。它会从机器学习与深度学习的必要基础出发，进入 NLP 与语言模型，再走到 Attention、Transformer、Tokenizer、预训练、微调、RAG、Agent 与部署，把一整条链路尽量讲到可以理解、可以运行、可以复现。

我希望这份笔记始终保持三种能力同时成立。

它能帮助你建立直觉，而不是只背结论。
它能落到代码和实验，而不是只停留在概念层。
它能连接真实项目，而不是学完之后无法表达、无法展示。

这也意味着，它不会把自己写成一本“速通指南”。如果你想要的是几小时内快速掌握某个框架的使用方法，这份笔记可能不够直接；但如果你想真正理解一个语言模型系统是怎样被搭起来、训练起来、调起来、部署起来的，那它大概会适合你。

我尤其希望它适合这样一类读者：已经有一点机器学习基础，但对大模型的理解还分散在课程、博客、视频和零散项目里；你能看到很多局部知识，却还没有把它们连成一条完整路径。对你来说，这份笔记不是答案大全，而是一张逐渐清晰起来的地图。

在阅读方式上，我更建议把它当成一本“要动手的书”来用。不要只看文字，遇到公式就自己推一遍，遇到代码就亲手跑一遍，遇到实验就改几个参数看看结果怎么变化。很多东西只有在你真的让它运行起来之后，才会从“知道”变成“理解”。

这本笔记也不会假装自己已经完成。它会持续生长，持续修正，持续吸收新的理解。随着我自己的学习深入，里面有些章节会被重写，有些判断会变得更稳，有些表达也会更清楚。我希望它保留一种诚实：它不是站在终点回头整理的权威教材，而是一份正在向更深处推进的长期写作。

不出意外，本笔记应该长期由我一个人更新维护，个人能力不足水平有限，对本笔记有新的建议和想法欢迎和我联系，也欢迎大家批评指正。谢谢各位！