极智一周 | MoE、FlashAttention、PTQ、MI300禁令、H100利润空间、戴口罩检测 And so on
欢迎关注我的公众号 [极智视界],获取我的更多技术分享
大家好,我是极智视界,带来本周的 [极智一周],关键词:MoE、FlashAttention、PTQ、MI300禁令、H100利润空间、戴口罩检测 And so on。
邀您加入我的知识星球「极智视界」,星球目前促销优惠内有超多好玩的项目实战源码和资源下载,链接:https://t.zsxq.com/0aiNxERDq
极智视界本周热点文章回顾
(1) MoE专家混合架构正成为主流
首先需要明确的是 MoE 肯定不是非常新的架构,因为早在 2017 年,谷歌就已经引入了 MoE。而最近 MoE 的火热主要源于 Mistral AI,它是由前 Google、Meta 和 OpenAI 的研究人员创立的一家新科大模型公司,被称为 "欧洲 OpenAI",而首个开源的 MoE 多专家混合模型 Mixtral 8x7B 就来自于 Mistral AI。大部分 MoE 的工作都是出自 Google 之手,但让 Google 尴尬的是这个技术由 OpenAI GPT 发扬光大。而其实你也可以看到,最近 Google 的号称 "最强大模型" 的 Gemini,也是一种 "分布式模型架构",大抵也是一种 MoE 的变体。这么看来,Transformer + FlashAttention (可参考我的上篇解读) + MoE 似乎已经成为目前大模型主流架构的标配了。那么,你还不赶紧学起来。
(2) 一图看懂大模型优化技术FlashAttention
所谓一图胜千言,一张好的图对于一个工作的表达很重要,通常能够让人更能直观理解这个工作在做什么。这里基于一张图,来解读大模型优化技术之 FlashAttention。先用一句话来总结 FlashAttention 的优化之道:算子融合,矩阵分块,分而治之。具体可见分析。
(3) PTQ 后量化系列
之前陆续输出过一些 PTQ 后量化算法的讲解分享,会涉及十余篇,这里进行一个系列汇总,方便系统地展现给同样对模型小型化感兴趣的朋友。
(4) MI300 禁令
说到美国的两轮芯片禁令,很自然就会想到英伟达 A100、H100、璧仞、寒武纪等,但是好像都不太容易联系到 AMD。我们在上次的解读中得出了一个结论:MI300X 相比于英伟达最强芯 H100,不管是显存还是算力,都是呈碾压之势的,这个话题的具体分析可以参考我的这篇解读《极智芯 | MI300X呈碾压之势 修正解读AMD MI300X vs NVIDIA H100 关于稀疏算力的解释》。按这样的结论,AMD MI300X 应是妥妥的禁令之中。因为禁令禁的并不是具体什么什么卡,不是说具体指明了就是要禁你 A100,还是要禁你 H100,而是提供了两个指标范围,在这个范围内的就要禁。对于具体的禁令指标解读可以参考我的这篇汇总篇《极智芯 | 解读美国芯片禁令及英伟达特供芯片系列》或者直接这篇《极智AI | 老美升级芯片禁令限制中的性能指标到底指什么》。那么到底 AMD Instinct MI300 系列,或者说 MI300X 芯片在不在芯片禁令范围之内呢。先给答案:肯定在。具体可见分析。
(5) H100 利润空间
在马克思关于 "利润" 的解读中,300% 基本就属上限。而外网路透社之前有过报道,英伟达 H100 成本约 3320 美元,售价则为 30000 美元,它的利润率甚至高达 1000%,这明显非常不符合市场规律。这里来剖析一下 H100 的成本,到底这个 "3320 美元" 的数字靠不靠谱。具体可见分析。回过头来,市场肯定是足够聪明的,既然能够维持这么久的 "供不应求",其实就是在说明大家还是认可它的 "价值",而这些 "价值" 应该就存在于那 "看不见的" 1000% 的 "利润空间" 之中。
(6) 实战戴口罩检测
带来两个实战戴口罩检测项目分享,分别是基于 OpenCV 和 Pytorch 的,也是承诺的提供 "基于 OpenCV、基于 pytorch、提供 tensorflow、基于 tensorflow、基于 paddle、基于 caffe、基于 mxnet、基于 keras 版本" 系列中的其中之二,其他版本敬请期待。项目提供完整的代码,包括推理代码、一键执行脚本、模型权重、三方依赖库、待检测的图片、检测后的效果图等。欢迎下载体验。
极智一周,祝大家周末愉快!
【极智视界】
《极智一周 | MoE、FlashAttention、PTQ、MI300禁令、H100利润空间、戴口罩检测 And so on》
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!