Skip to content

20 分钟读懂 AI 神级论文《Attention Is All You Need》

梯度爆炸 梯度消失

模型架构:MLP、RNN、LSTM、Transformer、CNN

  • RNN 处理序列任务
    • 类比:一个逐字逐句读书的人
    • 擅长处理序列数据
    • 特点:循环结构
  • CNN 处理图像任务
    • 类比:一个拿着放大镜仔细观察图片的人
    • 擅长处理具有空间局部特征的数据
    • 特点:卷积结构
  • Transformer
    • 位置编码;Q K V

2014 年 注意力机制 Attention 注意力权重 划重点 2016 年 self-attention transformer 变形金刚 沙泽尔 为 transformer 引入 多头注意力和位置编码

Transformer 模型架构图

两个向量的夹角越小,它们的内积(点积)就越大 余旋相似度 在机器学习里,“方向一致”=“意义相似”。

ChatGPT 的向量检索(RAG)也靠它找相关知识片段 -> RAG

K 我的身份是什么? Q 我想知道什么? -> Q = E @ W V -> V = Q @ K

多头:使用多个不同的视角来观察输入的句子

每个头会学习数据的不同特征

8 种关注方式,关注点不同,例如语法结构、代词、情绪色彩

512/8 = 64 每个头处理 64 维的信息

残差连接和层归一化 LayerNorm

前馈网络

掩码\因果 masked

理解 Q @ K.T 的含义,计算注意力分数

dropout 掩码