Cheatsheets

梯度爆炸梯度消失

模型架构：MLP、RNN、LSTM、Transformer、CNN

2014 年注意力机制 Attention 注意力权重划重点 2016 年 self-attention transformer 变形金刚沙泽尔为 transformer 引入多头注意力和位置编码

Transformer 模型架构图

两个向量的夹角越小，它们的内积（点积）就越大余旋相似度在机器学习里，“方向一致”=“意义相似”。

ChatGPT 的向量检索（RAG）也靠它找相关知识片段 -> RAG

K 我的身份是什么？ Q 我想知道什么？ -> Q = E @ W V -> V = Q @ K

多头：使用多个不同的视角来观察输入的句子

每个头会学习数据的不同特征

8 种关注方式，关注点不同，例如语法结构、代词、情绪色彩

512/8 = 64 每个头处理 64 维的信息

残差连接和层归一化 LayerNorm

前馈网络

掩码\因果 masked

理解 Q @ K.T 的含义，计算注意力分数

dropout 掩码