欢迎光临散文网会员登陆 & 注册

大模型底层原理与应用开发范式

2023-06-03 15:29 作者:彤蛹_Amy 0人读过 | 我要投稿

10:08

参数从小到大，模型的生成就从确定/重复到随机/新颖

top_p是前百分之p

top_k是排名前k

repetition_penalty是重复惩罚

max_length是指prompt长度+生成文本长度

max_new_tokens是指生成文本长度

13:55

小模型：参数几百万或几千万

17:42

对话方式完成

微调、零样本(zero-shot)、少样本(few-shot)

20:13

省略复杂过程，给出任务适配prompt

推荐用于头脑风暴类的任务

23:41

为什么需要embedding辅助？

长度限制；
相关信息不是所有信息；
效率；
费用

29:08

为什么要微调？

公开数据太少
有些知识不对
特定任务表现不佳
不具备某些能力

不同微调对比：

API微调的基本流程：

36:50

对开发者的能力需求：

工具选择：

43:38

标签：

大模型底层原理与应用开发范式的评论 (共条)