欢迎光临散文网 会员登陆 & 注册

【唐宇迪】CV不存在?Meta最新的计算机视觉Segment Anything

2023-04-09 22:22 作者:名字一定得长  | 我要投稿

视频1:08:49这里,聊到cross-attention和vise versa(我觉得就是英文语境和中文理解带来的问题),迪哥这里理解和我的理解有点出入。我看了看代码的说明:

这边我画一个示意图您看看是不是这个意思:

我的理解就是,point embed这块在第一个cross attention出Q,image embed出K,V;第二个cross attention反过来,point embed出K,V,image embed出Q。或许会带来特征维度上的变化(?)换句话说,本质上是研究point embed和image embed的“相关性”(?),这也是某种程度上的对称性设计诶,我感觉。

您看是不是这个道理?(图里省略了很多东西,残差连接没画全)

【唐宇迪】CV不存在?Meta最新的计算机视觉Segment Anything的评论 (共 条)

分享到微博请遵守国家法律