Transformerppt

以下为《Transformerppt》的无排版文字预览，完整内容请下载

Transformer2021.5.13俞某某1Attention in RNN目录2Attention in Transformer/GNN3Multi-head4FFN & Positional EncodingAttention in RNNSimple RNN

采用Encoder-Decoder结构，将序列压缩成一个向量，再通过decoder恢复，面向机器翻译的一种产物。信息丢失？context information！

每个Decoder端的token用到的co 内容过长，仅展示头部和尾部部分文字预览，全文请查看图片预览。在参数总量不变的情况下，将同样的Q，K，V映射到不同子空间中进行运算。

通过随机初始化，可以使每个输出结果不同，即可以从不同角度分析input的关联程度。FFN & Positional EncodingFeed Forward Network

有时计算完Attention后，会将其输入一个FFN中，目的是引入ReLU激活函数，通过这种非线性变换，增加模型的表现力。

去掉FFN，模型也能用，不过表现能力会差很多。Positional Encoding

补充了Attention机制本身无法捕捉位置信息的缺陷，将位置信息编码后，加在embedding上，使每个token的positional information和semantic information相结合。THANK YOU2021.5.13[文章尾部最后300字内容到此结束,中间部分内容请查看底下的图片预览]请点击下方选择您需要的文档下载。

以上为《Transformerppt》的无排版文字预览，完整内容请下载

Transformerppt由用户“fyler”分享发布，转载请注明出处

XXXXX相关资讯

XXXXX猜你喜欢

回顶部 | 首页 | 电脑版 | 举报反馈更新时间2021-11-20 09:07:58