【知識整理】NLPとRNN

この記事は約2分で読めます。

章立て参考

  • ゼロから作るDeep Learning2

TODO

  • 一言説明を書く

word2vec

正しくは、CBOWモデルとskip-gramモデルという2つのモデルがword2vecで使用されるNN。

CBOWモデル

skip-gramモデル

Embedding層

★言語モデル

RNN

LSTM

LSTMはRNNの一種。

GRU

LSTMの簡易版。

RNNによる文章生成

seq2seq

Attention

★Transformer

論文「Attention Is All You Need

参考動画

一言説明

Positional Encoding

Multi-Head Attention

Layer Normalization

★Transformerの派生

それぞれYouTubeにAIcia Solid Projectの動画有り。

GPT = Generative Pre-trained Transformer

GPT

NLPにPre-training & Fine-tuningを確立した。

GPT-2

GPT進化形。15億パラメータ。

GPT-3

GPT-2進化形。1750億パラメータ。

BERT

BERT = Bidirectional Encoder Representations from Transformers

一般人にも使える大規模言語モデル

RoBERTa

BERTに対してハイパラチューンや学習データのサイズを変更して性能を引き出したもの。

Electra

BERTのMLMに対して、どの単語がMASKされたトークンだったか予測させることで性能大幅上昇。

ALBERT

DistilBERT

「蒸留」技術を用いてBERTを軽量高速にしたもの。

Longformer

BERTの8倍の4096トークンまで現実的な計算量で扱えるモデル。(BERTは512トークン)

XLNet

T5