新浪大佬张俊林最新演讲——大型语言模型的涌现能力:现象与解释

我的简单总结(个人理解,不一定对哈)
任务 VS. 量级
复杂任务: 100B量级大模型
部分复杂任务:10B量级中大模型
大量简单任务:<10B量级 中,小模型
模型 VS .人脑 VS. 计算机
记忆能力(内存)+逻辑能力(xpu)
我们如何做?How?
按任务来分:复杂任务\简单任务
1.大模型小型化(本身大模型参数并没有充分利用),然后解决复杂任务
- 一些类chatgpt的项目:colossal AI,Alpaca/ChatLLaMA,ChatGLM,ChatRWKV
2.中大模型解决部分复杂任务
3.小模型解决简单任务
4.面向大模型api编程?
- 优点:解决复杂问题,prompt engineering
- 缺点:
- 也有很多技术上的问题:幻觉,有毒,固有观念,一些复杂任务效果还有较大上升空间
- 非技术上的问题:收费、泄露信息、受制于人