Transformer 原理(三):多头注意力与位置编码 —— 从多角度理解到感知顺序
Transformer 系列第三篇。拆解多头注意力的设计哲学与参数量真相,并追溯位置编码从 Sinusoidal 到 RoPE 的进化史。
👋 你好,我是 HenYan
记录技术探索与生活思考,在代码与生活之间寻找平衡。
Transformer 系列第三篇。拆解多头注意力的设计哲学与参数量真相,并追溯位置编码从 Sinusoidal 到 RoPE 的进化史。
Transformer 系列第二篇。从"it 指代什么"的动机出发,逐步拆解 Self-Attention 的完整计算过程,深入理解 Q、K、V 的设计哲学与缩放因子的数学证明。
Transformer 系列第一篇。从 RNN 的困境出发,建立对 Transformer 架构的全局直觉:Encoder-Decoder 结构、数据流、Embedding 与 BPE 分词。
从零开始用 Astro 搭建一个现代化的个人博客,记录完整过程和踩过的坑。
为什么要写博客?记录、思考、分享——在信息爆炸的时代,写作是最好的学习方式。