章立て参考
- ゼロから作るDeep Learning2
TODO
- 一言説明を書く
word2vec
正しくは、CBOWモデルとskip-gramモデルという2つのモデルがword2vecで使用されるNN。
CBOWモデル
skip-gramモデル
Embedding層
★言語モデル
RNN
LSTM
LSTMはRNNの一種。
GRU
LSTMの簡易版。
RNNによる文章生成
seq2seq
Attention
★Transformer
参考動画
一言説明
Positional Encoding
Multi-Head Attention
Layer Normalization
★Transformerの派生
それぞれYouTubeにAIcia Solid Projectの動画有り。
GPT = Generative Pre-trained Transformer
GPT
NLPにPre-training & Fine-tuningを確立した。
GPT-2
GPT進化形。15億パラメータ。
GPT-3
GPT-2進化形。1750億パラメータ。
BERT
BERT = Bidirectional Encoder Representations from Transformers
一般人にも使える大規模言語モデル
RoBERTa
BERTに対してハイパラチューンや学習データのサイズを変更して性能を引き出したもの。
Electra
BERTのMLMに対して、どの単語がMASKされたトークンだったか予測させることで性能大幅上昇。
ALBERT
DistilBERT
「蒸留」技術を用いてBERTを軽量高速にしたもの。
Longformer
BERTの8倍の4096トークンまで現実的な計算量で扱えるモデル。(BERTは512トークン)