欢迎光临散文网 会员登陆 & 注册

深度学习深度学习工程认证(初级)

2023-02-22 13:41 作者:塞纳河边一张饼  | 我要投稿

输入:对齐的图文数据
模型:3个encoder组成

  1. Image encoder
    模型:12-layer visual transformer ViT-B/16,在ImageNet-1k上进行权重初始化;
    输入:Image I
    输出:开头添加[CLS]token的embedding 序列,

  1. Text encoder
    模型:6-layer transformer,BERTbase前6层初始化
    输入:序列T


深度学习深度学习工程认证(初级)的评论 (共 条)

分享到微博请遵守国家法律