Seq2Seq从理论到实战【理论篇】

2023-05-25 11:45 作者:深度之眼官方账号 0人读过 | 我要投稿

来源：投稿作者：175
编辑：学姐

引言

本着“凡我不能创造的，我就不能理解”的思想，本系列文章会基于纯Python以及NumPy从零创建自己的深度学习框架，该框架类似PyTorch能实现自动求导。

要深入理解深度学习，从零开始创建的经验非常重要，从自己可以理解的角度出发，尽量不使用外部完备的框架前提下，实现我们想要的模型。本系列文章的宗旨就是通过这样的过程，让大家切实掌握深度学习底层实现，而不是仅做一个调包侠。

本文介绍seq2seq模型，由论文Sequence to Sequence Learning with Neural Networks提出，能解决输入和输出序列长度不等的任务——机器翻译、自动摘要、自动问答等。

Seq2Seq网络即sequence to sequence，序列到序列网络，输入一个序列，输出另一个序列。这个架构重要之处在于，输入序列和输出序列的长度是可变的。

Seq2Seq使用的具体方法基本都属于编码器-解码器模型。

其核心思想是通过编码器(Encoder)将输入序列编码成一个定长的向量表示，也称为具有上下文信息的表示，简称为上下文(context)。然后将上下文向量喂给解码器(Decoder)，来生成任务相关的输出序列。

总结一下，编码器-解码器架构包含三个组件：

编码器接收一个输入序列， $x_1%5En$ ，然后生成对应的上下文表示， $h_1%5En$ 。常用于编码器的网络可以为RNN、CNN或Transformer等。
上下文向量c，由一个函数基于 $h_1%5En$ 生成，传递输入的核心信息到解码器。
解码器接收c作为输入，然后生成一个任意长度的隐藏状态序列 $h_1%5Em$ ，从中可以得到对应的输出 $y_1%5Em$ 。和编码器一样，也有多种实现方案。