前言¶
机器于此理解语言。
我想了很久,才把这个项目的名称定好,一开始写的是《大模型:从入门到精通》。后感老土至极,遂弃之。再后来是《大模型:从零开始》,又感觉有硬蹭他人作品的嫌疑,复弃之。反反复复,最后中二人格启动,故冒充先贤给予后辈神神叨叨之寓言一般的口吻,写下了这句话。
中二归中二,但更重要的是我想赋予这份笔记使命感。仿佛界碑一般,从这里开始就进入到了大模型领域。我想表达的并不只是一个技术判断,而是一种很强烈的学习感受:大模型并不是突然从天而降的魔法,它是一整套由数据、表示、结构、训练、对齐和工程系统共同支撑起来的理解方式。语言在机器里被切分、编码、压缩、预测,再一点点长出我们今天看到的能力边界。
在刚进入大学的时候,我一腔热血,一头扎进计算机的海洋,但是很快我就发现我不知道该怎么走,各种领域五花八门,虽然我从小就决定学人工智能,但从机器学习开始,朴素的机器学习方法(SVD,Kmeans,Supporting machine等等),再到深度学习方法,再到CV,NLP,RL,GenAI,再到现在的LLM。我完全不知道从何处下手,当时受于资源限制,只能自己硬着头皮慢慢钻,直到今天,马上硕士毕业,回头看看好像也确实钻出一条路来。
所以我开始系统整理这份笔记,也是因为在真正往下学的时候,很快就会发现一件事:关于大模型的资料很多,但真正能把原理、代码、实验和工程实践连起来的内容并不算多。要么太偏概念,读完觉得“好像懂了”,却还是不知道怎么自己实现;要么太偏工具,上来就是调用框架和 API,做出了结果,却不知道每一层到底为什么这样设计。
所以这本笔记想做的,不是再重复一遍“怎么用大模型”,而是从更底层的位置往上搭一条主线。它会从机器学习与深度学习的必要基础出发,进入 NLP 与语言模型,再走到 Attention、Transformer、Tokenizer、预训练、微调、RAG、Agent 与部署,把一整条链路尽量讲到可以理解、可以运行、可以复现。
我希望这份笔记始终保持三种能力同时成立。
- 它能帮助你建立直觉,而不是只背结论。
- 它能落到代码和实验,而不是只停留在概念层。
- 它能连接真实项目,而不是学完之后无法表达、无法展示。
这也意味着,它不会把自己写成一本“速通指南”。如果你想要的是几小时内快速掌握某个框架的使用方法,这份笔记可能不够直接;但如果你想真正理解一个语言模型系统是怎样被搭起来、训练起来、调起来、部署起来的,那它大概会适合你。
我尤其希望它适合这样一类读者:已经有一点机器学习基础,但对大模型的理解还分散在课程、博客、视频和零散项目里;你能看到很多局部知识,却还没有把它们连成一条完整路径。对你来说,这份笔记不是答案大全,而是一张逐渐清晰起来的地图。
在阅读方式上,我更建议把它当成一本“要动手的书”来用。不要只看文字,遇到公式就自己推一遍,遇到代码就亲手跑一遍,遇到实验就改几个参数看看结果怎么变化。很多东西只有在你真的让它运行起来之后,才会从“知道”变成“理解”。
这本笔记也不会假装自己已经完成。它会持续生长,持续修正,持续吸收新的理解。随着我自己的学习深入,里面有些章节会被重写,有些判断会变得更稳,有些表达也会更清楚。我希望它保留一种诚实:它不是站在终点回头整理的权威教材,而是一份正在向更深处推进的长期写作。
不出意外,本笔记应该长期由我一个人更新维护,个人能力不足水平有限,对本笔记有新的建议和想法欢迎和我联系,也欢迎大家批评指正。谢谢各位!