Appearance
20 分钟读懂 AI 神级论文《Attention Is All You Need》
梯度爆炸 梯度消失
模型架构:MLP、RNN、LSTM、Transformer、CNN
- RNN 处理序列任务
- 类比:一个逐字逐句读书的人
- 擅长处理序列数据
- 特点:循环结构
- CNN 处理图像任务
- 类比:一个拿着放大镜仔细观察图片的人
- 擅长处理具有空间局部特征的数据
- 特点:卷积结构
- Transformer
- 位置编码;Q K V
2014 年 注意力机制 Attention 注意力权重 划重点 2016 年 self-attention transformer 变形金刚 沙泽尔 为 transformer 引入 多头注意力和位置编码
Transformer 模型架构图
两个向量的夹角越小,它们的内积(点积)就越大 余旋相似度 在机器学习里,“方向一致”=“意义相似”。
ChatGPT 的向量检索(RAG)也靠它找相关知识片段 -> RAG
K 我的身份是什么? Q 我想知道什么? -> Q = E @ W V -> V = Q @ K
多头:使用多个不同的视角来观察输入的句子
每个头会学习数据的不同特征
8 种关注方式,关注点不同,例如语法结构、代词、情绪色彩
512/8 = 64 每个头处理 64 维的信息
残差连接和层归一化 LayerNorm
前馈网络
掩码\因果 masked
理解 Q @ K.T 的含义,计算注意力分数
dropout 掩码