本資料は2021年04月13日に社内共有資料として展開していたものをWEBページ向けにリニューアルした内容になります。
■目次
●Transformerの概要
●Transformerの各構造解説
Positional Encoding
Attention
Multi-headed Scaled Dot-Product Self-Attetion
Shortcut Connection, Layer Normalization, Position-wise Feedforward Network
TransformerのDecoder
●Transformerの実験結果・考察
■[概要] Transformerって何?
2017年の論文Attention Is All You Need[1]で発表されたモデル

機械翻訳タスクにおいて既存SOTAよりも高いスコアを記録
Reference
[1] Vaswani, Ashish et al. “Attention is All you Need.” ArXiv abs/1706.03762 (2017)
■[概要] Transformerの他分野への応用

Reference
[2] Dosovitskiy, A. et al. “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale.” ArXiv abs/2010.11929 (2020) [3] Gulati, Anmol et al. “Conformer: Convolution-augmented Transformer for Speech Recognition.” ArXiv abs/2005.08100 (2020)