欢迎光临散文网 会员登陆 & 注册

大模型底层原理与应用开发范式

2023-06-03 15:29 作者:彤蛹_Amy  | 我要投稿


10:08


参数从小到大,模型的生成就从确定/重复到随机/新颖

top_p是前百分之p

top_k是排名前k

repetition_penalty是重复惩罚

max_length是指prompt长度+生成文本长度

max_new_tokens是指生成文本长度


13:55


小模型:参数几百万或几千万


17:42


对话方式完成

微调、零样本(zero-shot)、少样本(few-shot)


20:13


省略复杂过程,给出任务适配prompt

推荐用于头脑风暴类的任务


23:41


为什么需要embedding辅助?

  • 长度限制;
  • 相关信息不是所有信息;
  • 效率;
  • 费用


29:08


为什么要微调?

  • 公开数据太少
  • 有些知识不对
  • 特定任务表现不佳
  • 不具备某些能力

不同微调对比:

API微调的基本流程:



36:50


对开发者的能力需求:

工具选择:



43:38



大模型底层原理与应用开发范式的评论 (共 条)

分享到微博请遵守国家法律