贪心Transformer与联邦学习高阶研修班

2023-03-18 20:15 作者:bili_zx6265745 0人读过 | 我要投稿

1000*0.04=40-->10

5000*0.04=200-->20

预训练--》NNLM--》word2Vec--》ELMo--》Attention

NLP 中预训练的目的，其实就是为了生成词向量

顺水推舟，transformer 其实就是 attention 的一个堆叠

从一个宏观的角度，去看 transformer 到底在干嘛，然后在细分，再作总结

总分总

seq2seq

一句话，一个视频

序列（编码器）到序列（解码器）

分成两部分，编码器和解码器

机器翻译流程（Transformer）

通过机器翻译来做解释

给一个输入，给出一个输出（输出是输入的翻译的结果）

“我是一个学生” --》（通过 Transformer） I am a student

标签：