【OpenLLM Talk 006】本期提要:LLM加水印;softmax的bug;llama2汉化;OpenLLMAI
OpenLLM Talk 006
序章
背景介绍
【缘起】:OpenLLM Talk这个事情起源于20230603 OpenLLM交流群中大家的一场讨论,本着心动不如行动的想法,我们花了一点时间来将其落地,希望可以为大家提供一个LLM/NLP领域的交流平台。——我们或许不够AI,但尽量足够Open;我们也不知道能走多远,但尽量比自己想的更远。
【结构】:整体上分成本周新闻、本周推荐、本周经典(可选)、本周实践(可选)、free talk等版块,建议后续最好采用每个版块每期由1-2人认领+多人参与贡献+自由讨论的形式。
本期记录
【编号】:OpenLLM Talk 006 (三位数是希望LLM的热度+我们的热情+读者的热情可以支撑我们做到三位数)
【时间】:20230729晚上九点(每周六晚上九点,节假日顺延)
【本期提要】:ICML2023杰出论文;attention机制的bug;llama2的汉化;多轮对话;DPO论文阅读;LLM评估;text2vec;量化;NOPE;长度外推;OpenLLMAI与实践计划;
【本期贡献者】- 排名不分先后:
【主持人】:羡鱼(后续每期由大家自行认领)
【编辑】:羡鱼(最好由主持人兼任)
【版块负责人】: 多人(后续每期由大家自行认领)
【具体内容贡献者】:请查看具体内容后面的署名,比如问题、回答和观点的来源
【talk视频】:
注意事项
【talk模板】:;可参考模板进行贡献
【小要求】:主持人及版块负责人认领之后尽量准时参加,其余同学可自行选择是否参与;
本周新闻
【本周新闻】:LLM/AI news,包括但不限于学术、项目、工业界新闻和进展;多人认领或者直接在此添加,由1-2人认领并汇总;建议大家都参与进来,相互补充,尽量减少信息冗余和缺漏;共~10分钟;
【贡献者】:
【建议区】:可以考虑GitHub的讨论区,看个人习惯;论文可以写个摘要;
学术
注:论文+重点
ICML2023杰出论文出炉
Attention机制竟有bug,Softmax是罪魁祸首,影响所有Transformer
项目
chinese版llama2
ziya公开直播训练
工业界
Baby llama2
SMP 2023 ChatGLM金融大模型挑战赛
本周推荐
【本周推荐】:本周重点内容推荐和介绍,模型、开源项目、好的资料或课程,建议1-3项;共15分钟;
【贡献者】:
【提名区】:
【建议区】:
【本期主题】:
资料
一文看懂:如何充分高效训练多轮对话大模型
【LLM系列】对行业大模型的思考 - 黄文灏的文章 - 知乎
DPO——RLHF 的替代之《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》论文阅读
中文LLaMA&Alpaca大语言模型词表扩充+预训练+指令精调
模型
项目
Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca
杂项
refs:
本周经典-optional
【本周经典】:NLP/LLM领域的经典话题探讨;~15分钟;
【贡献者】:
【提名区】:量化
【本周主题】:
本周实践-optional
【本周实践】:NLP/LLM领域实践经验分享,可以分享自己的实践经验或者他人的实践经验,后面群里也会组织一些实践内容;~15分钟;
【贡献者】:
【提名区】:
【建议区】:coding搞起来;后续拉个read_code/paper分支,LLM精读、注释;专门建一个数据专题;
LLaMA2 框架
成员
初七, qwang, Sine, donny, 风吹草地见牛 ...
技术讨论
相关工具: HF/DeepSpeed/Megatron/Ray/RLHF/LLM
参考框架:DeepSpeed Chat;
Ray: qwang
RLHF: 初七、Yiran(周末)
SFT: Hope(可以写一些代码)、羡鱼(周末)
pretrain: 羡鱼(周末)
test datasets:
Debug machine: 用 300m 模型单卡测试, 后期用集群perf 测试
预期产出:
llama2架子
垂直领域的llama2、
第一次会议主要讨论技术方案,项目开发组织方式,分工
然后起一个好听的名字
Free Talk
【Free Talk】自由提问,自由讨论;在文档里提问或者在群里提问,建议尽量在此汇总;如果群里已经有比较好的讨论结果,也可以将讨论结果搬运过来;时间不限;
【贡献者】:羡鱼(编辑)+OpenLLM群友
1.Evaluation of LLM\MLLM
对大模型的评测是比较困难的事情,一般人工或者依靠GPT4来评价,都是比较费钱的。一些新的评测基准(MMBench)是否可以用llama2 chat这种 rlhf之后的模型来评测,是否可以起到完全相同的效果。
相关领域:模型评测,LLM
答:GPT4也不一定准确,特别,不建议在被评测的回答中有GPT4存在的情况下用GPT4评价(既当运动员又当裁判员);
张拳石老师:可解释评测;
质量好不好,哪里好,哪里差?
做一个通用的奖励模型?
感觉奖励模型往往是针对特定模型来训的;
LLM竞技场,几个LLM,人类打分;
一个想法:分层的RM,general-》domain-》task--羡鱼
迭代式的RM,目前OpenAI、athropic等都采用的是多轮迭代式的RLHF流程
llama2 70b rlhf 基本上是开源的最强的模型,在一些方面有接近GPT3.5的能力
中文方面是不是不一定?llama基本没做中文;
主观问题往往回答越长越好,直接len()都比较靠谱?:)
2. 关于垂直领域的text2vec,各位有没有相关的数据集构建或者其他的模型选择的经验?
答:OpenSE,有空我会放个repo出来,做一个SE/text2vec,大体的流程:基础模型--》无监督--》自监督——》细粒度监督训练;
3. FP8的软硬件支持现状?
答:
为什么FP16的值域这么窄?
BF16?
smoothquant
量化的效果:
FP16、FP8,还有8位、4位、甚至于3位、两位?
Qlora:int4量化;3090微调13B;
4. 想问下各位大佬,之前有讨论过NoPE这篇文章吗?
5. Claude100k是怎么搞的?
答:
llama训练时2k,微调1000步到32k;
微软有个十亿token的;
外推最近进展到什么地步?貌似NTK dynamic 效果超过16倍不太行;
6. 指令数据里面如果消解矛盾?尤其是GPT4这种传言上百万的指令数据集。另外,如果保持预训练、SFT、RLHF部分的一致性,至少像数据层面的一致性?
答:比如说,SFT部分如果有一些预训练的知识盲区,容易加剧胡说八道的情况。
7. 将linear transformer scale到175B?
8.
线上讨论:
1.
群里讨论:
有空会同步,取决于人力,希望大家积极认领~
参考资料
后续计划
我们正式升级为一个不太正式的组织了!叫做OpenLLMAI.
● 正式开启OpenLLM talk的运营,P1;
● ChatPiXiu项目:陆续有一些实践计划,P0;
● ,P0,doing
● ,P0,doing
● OpenSE:检索项目,字符检索+语义检索,P0;
● OpenLLM:LLM学习和实践项目,P0;
● OpenAIWiki:AI wiki for everyone;
● ChatLover:模拟恋人+爱情助手,P1;
加入/赞助我们
我们非常缺人,也非常缺时间和算力,希望能有越来越多的朋友参与进来,认领talk的组织者、主持人、版块的负责人;参与项目后续的开发和讨论等等。
微信群:(请优先加入微信群,如果失效则加入QQ群再私聊我进微信群)
(二维码过期了!)
QQ群:
往期精彩
【OpenLLM Talk 005】本期提要:llama2;FreeWilly;LLM推理与评估;LLM八股;RetNet;DPO;数据配比 - 羡鱼智能的文章 - 知乎
https://zhuanlan.zhihu.com/p/645679737
【OpenLLM Talk 004】本期提要:外挂知识;抱抱脸每日论文;MOSS-RLHF;GPT4细节;OpenAI代码解释器;百川13B;LLM面经;多轮对话;数学能力;反思;LLM中的知识 - 羡鱼智能的文章 - 知乎
https://zhuanlan.zhihu.com/p/643960837
【OpenLLM Talk 003】本期提要:SuperCLUE-Open;文心盘古;chatlaw;LLM综述;NTK-Aware Scaled RoPE;10亿上下文;InternLM;GLM讲座 - 羡鱼智能的文章 - 知乎
https://zhuanlan.zhihu.com/p/642376781
【【OpenLLM Talk 003】SuperCLUE-Open;文心盘古;chatlaw;LLM综述;NTK-Aware Scaled RoPE;GLM讲座】 【精准空降到 10:10】
【OpenLLM Talk 002】本期提要:chatgpt增速放缓;gorilla-cli;RoPE外推;vllm vs llama.cpp;lora融合;模型参数和数据之比;OpenSE计划 - 羡鱼智能的文章 - 知乎
https://zhuanlan.zhihu.com/p/641285737
【OpenLLM Talk 001】本期提要:长程记忆;OpenAI上新;百川智能7B模型;State of GPT;位置编码;deepspeed-rlhf;RLHF数据 - 羡鱼智能的文章 - 知乎
https://zhuanlan.zhihu.com/p/640275116
【OpenLLM Talk 000】我们做了一个LLM领域的交流平台 - 羡鱼智能的文章 - 知乎
https://zhuanlan.zhihu.com/p/636350755
【OpenLLM Talk 模版】兴趣和热爱胜过一切,OpenLLM就从这里开始吧!欢迎加入! - 羡鱼智能的文章 - 知乎
https://zhuanlan.zhihu.com/p/640522290