欢迎光临散文网 会员登陆 & 注册

【官方教程】VisualGLM技术讲解

2023-05-31 23:51 作者:層林尽染  | 我要投稿

省流:我用ChatGPT总结了本视频的要点:

1. VisualGLM 6B介绍及多模态域训练基本思路。

2. 多模态域训练模型思路包括CogView与VisualGLM。

3. 图像离散化存在的问题:损失底层信息、token利用效率低。

4. 人们只关注少量视觉语义信息,提升效率是重要的。

5. 利用语言模型进行无缝结合可提升多轮对话的能力。

6. 使用语言模型训练的能力可取得很好的VQA效果。

7. 提取图像语言特征的方法选择会造成底层信息的损失。

8. Bleep方法中Qformal步骤会损失模型判断为不重要的信息。

9. 基于上述因素,多模态域训练仍存在劣势。

10. 多模态的预训理解能够与任何预训语言模型相结合,实现好的效果。

11. VisualGLM和GPT-4都是基于多模态域训练思路的。

12. 使用ChatGLM 6B作为基础模型。

13. 目标是开发一个通用领域的中英双语语言模型。

14. 使用VIT和Qformer构建视觉和语言模型之间的桥梁。

15. 预训练过程中使用中英双语图文大规模数据。

16. 在微调过程中使用高质量的图文对进行训练。

17. 几乎冻结VIT和ChatGLM参数。

18. 学习Qforward的参数和VIT的Lora参数。

19. 固定VIT参数并训练Qforward和ChatGLM的Lora参数。

20. 训练目标是自回归的训练目标。

21. VisualGLM 6B使用ChatGLM 6B作为基本模型。

22. VisualGLM 6B旨在建立一种通用的多语言语言模型。

23. VIT和Qformer用于在视觉和语言模型之间建立桥梁。

24. 模型共分为两个阶段:预训练和微调。

25. 训练目标是自回归训练目标。

26. 对比损失被用于将视觉嵌入放入语义空间。

27. 对比损失只用于预训练阶段。

28. 训练数据来自多个来源,包括CoreView和英文训练数据。

29. 模型调用使用CSRMA纯formwork库。

30. VisualGLM 6B在图像字幕生成方面取得了一定的效果。

31. VisualGLM 6B使用ChatGLM 6B作为基本模型

32. 用VIT和Qformer在视觉和语言模型之间建立桥梁

33. 模型共有预训练和微调两个阶段

34. 训练数据来自多个来源,并使用CSRMA纯formwork库进行模型调用

35. 使用对比损失将视觉嵌入放入语义空间,只用于预训练阶段

36. 提供huggingface实现和三种环境的支持

37. 用fp16进行原生的推理需要16G的显存,4bit量化下只需要8.7G显存

38. 微调任务支持不同的小任务和Q-Laura

39. 提供微调的例子以增强模型回答背景问题的能力

40. 用过仓库的反听脚本可以提高背景回答的效果。

41. Laura是一个可以对每一层的tension都加入低质分支的系统。

42. 训练参数量太多会过拟合。

43. 增加限定某层的可调参数可以减弱过拟合。

44. QLaura是四比特量化的Laura系统。

45. 通过P-tuning方法,可以在连续空间内查找最佳Prompt。

46. P-tuning需要的显存比Laura少。

47. 使用SAT库可以对训练好的模型进行推理。

48. 本文介绍了VisualGLM 6B在图像字幕生成方面的效果。

49. 介绍了使用SAT库进行推理的方法。

50. 可以在CLI Demo和Web Demo中加载训练好的模型。

51. 安装DeepSpeed是训练中的要求,可能需要安装回来。

52. 可以使用P-tuning方法找到最佳Prompt。

53. 可以通过修改Gradient Accumulation Steps参数减小显存占用。

54. 建议尝试Merge LoRa方法来更容易地发布模型。

55. Stable Deformation LoRa是LoRa的一种用法。

56. LoRa的最初用途是语言类大模型。

57. Textual Deformation效果在LoRa中会更好。

58. 以上都是关于LoRa的一些细节和历史,本段内容主要讲述LoRa方法的应用和建议。

59. 多模态域训练模型开源项目正在寻找更多加入的开发人员。

60. 项目也关注于中文OCR和表格场景理解能力的开发。

61. 项目里还存在的问题包括高分辨率图像信息损失和缺乏grounding能力的幻觉现象。

62. 在使用BLEEP进行语言模型对齐时需要注意其幻觉现象的影响。

63. 容胜同学将会介绍更多关于微调实践的例子。

64. 今天的介绍主要涉及了VisualGLM相关内容。

65. BLEEP思路下如何达到更好的准确性是一个社区研究中的重要问题。

66. 希望能够在学术上解决这些问题。

67. 给听众带来VisualGLM相关介绍的同时表示感谢。

68. 会留给容胜同学更多实践相关的介绍。

【官方教程】VisualGLM技术讲解的评论 (共 条)

分享到微博请遵守国家法律