稀疏注意力
起源 稀疏注意力(Sparse Attention)是一种优化的注意力机制,它可以将一个查询向量和一组键值对映射到一个输出向量,但与单头注意力和多头注意力不同的是,它不会计算查询向量和所有键向量的相似度,而是只计算查询向量和部分键向量的相似度,从而减少计算量和内存消耗…
AMP混合精度训练
默认情况下,大多数深度学习框架都采用单精度(32 位浮点数)进行训练。 2017 年,nvidia 在训练网络时将单精度和半精度(16 位浮点数)结合在一起,使用相同的超参数实现了与单精度几乎相同的精度。
半精度:16bit,1 bit 符号位,5 bit 指数位,10 bit…
LLM演进史-重建GPT2 -(1)
本文基于 Andrej Karpathy 的 4 小时复现 GPT-2,个人看完后觉得是非常好的视频,这是 LLM 演进史的终结篇,本文基于此进行文字版本的补充。前面的内容请参考 https://blog.nagi.fun 主页的内容,该博主已经写得非常详尽了。 本系列准备一共分…