欢迎光临散文网 会员登陆 & 注册

ChatGPT的信念与没走的捷径|对LLM的常见理解误区|垂类模型有前途吗?|大

2023-09-22 13:04 作者:东方孤思子  | 我要投稿

我从课代表的视频里学到很多,一直想充值,但是总感觉课代表的付费机制是 YouTube-First。我是想 May Bilibili Rise once more的。不过也不贵。至少付了钱了可以证明我不是个喷子,是真的来交流的。我分享下我的观点,课代表可以随时指正,这样我们彼此才能快速correct our bias。这也是课代表之前视频中的观点

  1. In-context learning一定不更新权重。但是要持久化模型的能力一定需要更新权重。这个不展开细聊了
  2. 课代表认为 ML 工程师分为 LLM 工程师和传统机器学习工程师。我觉得不存在这种东西。GPT 的 Paper 在传统机器学习者看来是 NLP 领域一脉相承非常正统的论文。
  3. 所有人都在找 shortcuts。我觉得不能因为 OpenAI 成功的发现了 GPT-3.5 的涌现能力,就说别人是走了 shortcut,只有OpenAI 有 conviction。因为《Greatness cannot be planned》,这本书的作者,OpenAI 的 Kenneth Stanley 来我司做过演讲,他大意说:科研就像寻宝,在你成功之前,没有人知道宝藏埋在哪。太过功利反而会一事无成。而且其他公司的探索也不是没有意义,他们之前的积累会让他们在找到方向之后追赶地很快。当然确实OpenAI在科研探索上更有定力,因为他们不是目标驱动,而是研究价值驱动,他们是为了探索 something interesting 而不是为了把准确率提升多少多少。如 Kenneth 所说,如果是后者可能 GPT2 的失败之后就不会有 GPT3。
  4. 但谁又能说 GPT 这条路就是终点呢?清华新推出的 RetNet 结构效果比 Transformer更好。也有研究者分析发现 Transformer 就是新时代的 SVM。我觉得 AI 领域正是勃勃生机,万物竞发的盛世。现在就说OpenAI赢了,为时过早。
  5. 而且 OpenAI 模型的那个规模是很难落地,真开源出来,在小参数量(20B以下)效果未必能比过开源模型,200B的模型谁用得起呢,能把这套东西跑起来的公司都不多。小模型在终端也是有很多机会的,毕竟效果不差太多但是成本低了非常多。除非有范式革命把大模型的推理成本降下来。而我觉得还是很有搞头的,现在的 LLM 浪费很严重。
  6. 还有就是很多企业是绝对不会用 OpenAI 的 API 来做基座模型的。哪怕自己做效果会差一点,也会自己做。如何保证企业数据隐私权的前提下搞 2B 业务?可以请课代表和卢易分享下你们在LLM商业化上的见解。
  7. OpenAI 的 GPT5 需要范式创新,而不是单纯堆参数。现在训大模型就像发火箭,要多大的模型,就需要多少燃料(数据和算力),都是可以计算出来的了。OpenAI和谷歌比财力殊为不智。
  8. 其实 ChatGPT 能力上并没有比 GPT3.5 高很多。真正厉害的是 RLHF 和 ChatBot 的这种形式比较直观的展现了 LLM 的威力。更多的是应用层的创新。但是我们期待中的杀手级应用还没有出现。大家都在探索,谁都有机会。手握模型的大公司肯定机会最大。小公司等着大公司卷模型,谁好,谁便宜就用谁也是个策略。模型的护城河是很薄弱的。

ChatGPT的信念与没走的捷径|对LLM的常见理解误区|垂类模型有前途吗?|大的评论 (共 条)

分享到微博请遵守国家法律