「从零开始学大模型」Flash Attention
Flash Attention针对的痛点是传统 Transformer 在 decode 阶段,计算 attention 时的巨大内存瓶颈。
因为 Attention Block 需要 MatMul -> Mask -> Softmax -> Dropout -> Matmul 这么多步骤,会反复的将大矩阵从 HBM 里搬入 SRAM,计算,再搬出,造成了内存瓶颈。
Flash Attention针对的痛点是传统 Transformer 在 decode 阶段,计算 attention 时的巨大内存瓶颈。
因为 Attention Block 需要 MatMul -> Mask -> Softmax -> Dropout -> Matmul 这么多步骤,会反复的将大矩阵从 HBM 里搬入 SRAM,计算,再搬出,造成了内存瓶颈。
最近 OpenClaw 在 Github 上的 star 数,成功打败了 linux 和 React,登上了 Github 的榜一。借此机会,想聊一聊关于 OpenClaw 的两种主流声音:一部分人觉得 OpenClaw 是 AGI 的初步形态,是 Web4.0,是 AI 革命的一次重要更新。另一部分人觉得 OpenClaw 狂欢是新一次的“气功热”,是大模型商家为了卖 token 做的局。
接着上一篇的 NanoGPT 博客内容,笔者继续学习了 不少模型推理的优化手段,会在接下来的几篇里逐一叙述。在上一篇《「从零开始学大模型」手搓GPT》中,我跟着 Andrej Karpathy 写了一个 NanoGPT,这一篇文章也将会是在这个 NanoGPT 的代码上实现优化。
主要参考:Andrej Karpathy - Let’s build GPT: from scratch, in code, spelled out.
为了能更加深入理解 Transformer 和 GPT,笔者选择了跟着教程搭一个 GPT 出来。当然只是跟着教程做还是不够,于是就打算写一篇 blog,从自己的角度讲一下到底是怎么个事儿。
腾出时间看了一下张小珺访谈季逸超Peak(Manus的首席科学家),感觉对自己有不少的启发,先前的许多观点得到了点拨,或是被反驳。
关于季逸超为什么选择Manus,他在其中引用了CPO张涛的一句话:
近日,Moltbot(Clawdbot)这个项目在Github上迅速走红,至落笔已有73k star。它在X、YouTube、小红书与B站等平台也是有无数的帖子和视频在宣传着这个Agent有多么好用与神奇,于是笔者也按耐不住试用了,并有感而发写了此文。
今天开车送学姐回家,路上我和她说,我希望我也是未来某一个行业独角兽的创始人,这样才能实现我“追名逐利”的目标。她反问了我一个很值得思考的问题:你觉得下一个会产生行业独角兽的行业是什么?让我陷入了短暂的沉思。
Context: unity上实现一个功能: 使用srp管线,实现一个功能,每10帧生成一张图,图的左边是整个屏幕内容;图的右边是也是屏幕里的内容,只不过是显示的overdraw现象,一个相素点每被多渲染一次,就RGB的值就加1。