欢迎光临散文网会员登陆 & 注册

爆火！“大模型本质就是两个文件！”特斯拉前AI总监爆火LLM科普

2023-11-25 16:21 作者:AI码农CC 0人读过 | 我要投稿

特斯拉前AI总监Andrej Karpathy的新教程火了。他专门面向普通大众做了一个关于大语言模型的科普视频。时长1小时，全部为“非技术介绍”，涵盖模型推理、训练、微调和新兴大模型操作系统以及安全挑战，涉及的知识全部截止到本月（非常新）。

除了up"CC"在视频中所介绍的资源，在微信公粽.hao【AI小技巧】发送“666”即可获得

在该教学的前半部分，Andrej Karpathy 会从构建基本的语言模型开始讲起，随后引入 transformer 的核心「注意力」机制，作为有向图中节点之间的一种通信 / 消息传递。

在视频的后半部分，你将学会构建 Transformer 的更多细节，包括多头自注意力、MLP、残差连接、layernorm 等。然后将学会训练一个 GPT 模型并将其与 OpenAI 的 GPT-3（模型体量大约小 1 万 - 100 万倍，但神经网络相同）和 ChatGPT 进行比较。

标签：

爆火！“大模型本质就是两个文件！”特斯拉前AI总监爆火LLM科普的评论 (共条)