要预测第二句话是否确实与第一句话相关,请执行以下步骤:
整个输入序列通过Transformer模型。
[CLS]标记的输出使用简单的分类层(权重和偏差的学习矩阵)转换为2×1形状的矢量。
用softmax计算IsNextSequence的概率。
在训练BERT模型时,将同时屏蔽Masked LM和Next Sentence Prediction,目的是最小化这两种策略的组合损失函数