AI 不会淘汰程序员,但会淘汰"不懂 AI 的程序员"
最近几周,便完成学校的任务,边开始系统的学习大模型,从神经网络基础到 Llama,算是有了个基础的框架。所以想写个总结记录一下。
首先是真正懂了Attention 。了解了 Q/K/V 矩阵、缩放、Softmax 加权求和,到 Multi-Head 怎么并行,一步步推导+代码实现,终于明白 Self-Attention 到底在算什么。算是对transformer架构有了系统全面的认知。
以及最流行的Llama,GQA 怎么省显存、RMSNorm 和 LayerNorm 啥区别、SwiGLU 为什么比 ReLU 更适合大模型、RoPE 旋转位置编码怎么优雅处理长文本——这些以前看博客总是一知半解,手撕代码之后清晰多了。还自己实现了一遍 KV Cache 的读写逻辑,
对于MOE 架构,专家网络+门控路由+Top-K 稀疏激活,暂时还没深入了解,现在只是动了基础概念,等以后也需要自己手撕一遍,不然不算真的学会。
接下来打算继续深入学习,直到简历上能写出一个像样的Agent开发项目。
Attention is all you need
发布于 26 天前 9 次阅读
Comments NOTHING