欢迎光临散文网会员登陆 & 注册

深度学习深度学习工程认证（初级）

2023-02-22 13:41 作者:塞纳河边一张饼 0人读过 | 我要投稿

输入：对齐的图文数据
模型：3个encoder组成

Image encoder
模型：12-layer visual transformer ViT-B/16，在ImageNet-1k上进行权重初始化；
输入：Image I
输出：开头添加[CLS]token的embedding 序列，

Text encoder
模型：6-layer transformer，BERTbase前6层初始化
输入：序列T

标签：

深度学习深度学习工程认证（初级）的评论 (共条)