爆火!“大模型本质就是两个文件!”特斯拉前AI总监爆火LLM科普

特斯拉前AI总监Andrej Karpathy的新教程火了。他专门面向普通大众做了一个关于大语言模型的科普视频。时长1小时,全部为“非技术介绍”,涵盖模型推理、训练、微调和新兴大模型操作系统以及安全挑战,涉及的知识全部截止到本月(非常新)。
除了up"CC"在视频中所介绍的资源,在微信公粽.hao【AI小技巧】发送“666”即可获得
在该教学的前半部分,Andrej Karpathy 会从构建基本的语言模型开始讲起,随后引入 transformer 的核心「注意力」机制,作为有向图中节点之间的一种通信 / 消息传递。

- 在视频的后半部分,你将学会构建 Transformer 的更多细节,包括多头自注意力、MLP、残差连接、layernorm 等。然后将学会训练一个 GPT 模型并将其与 OpenAI 的 GPT-3(模型体量大约小 1 万 - 100 万倍,但神经网络相同)和 ChatGPT 进行比较。
