麦克雷 Mavom.cn

标题: 苹果的neural accelerator性能功耗 [打印本页]

作者: tewtew    时间: 昨天 12:56
标题: 苹果的neural accelerator性能功耗
苹果mlx项目开发者今天测试了一下nv的DGX Spark浮点性能
用的是pytorch测试bf16
我借此机会使用相同的pytorch代码(把cuda替换为苹果的mps)
m5是13.1TF,package功耗30w,整机减空载35w
m4max是12.7TF(没有matrix加速,gpu硬算),整机减空载功耗160w+
看开发者数据spark是大约60TF,100w package功耗
这个基本可以对比苹果,都是soc模式,都是arm cpu,都是n3e/n3p工艺,都是lpddr5内存
区别在于规模不一样,gpu面积我估算6144cuda应该是m5 2.5倍的大小,内存通道是m5两倍
按这个估算,如果苹果弄个类似大小的gpu,目前matrix加速性能应该是nv的一半,功耗是nv的7成,属于一般般吧
之后苹果恐怕会继续加ai算力密度,到时候看看n2时代的对比

(, 下载次数: 0)
(, 下载次数: 0)
作者: Dominicgok    时间: 昨天 12:57
其实fp16差不多够了,能否fp8翻倍
作者: 287896307    时间: 昨天 12:58
估计下一代或者下下一代还会翻倍,不可能一下子全部挤出来的
作者: tewtew    时间: 昨天 12:58
我拿4060锁定1.2ghz试了一下,也是13.1TF,gpu功耗29w左右,所以苹果目前再matrix性能(fp16/bf16)上是能做到类似steelnoamd light跑分,类似浮点性能,两者snl都是5400
(, 下载次数: 0)
作者: ujiuhyerk    时间: 昨天 12:59
错误的,NVIDIA DGX Spark的GB10和Jetson Thor一样都是TSMC 4NP,GB10和Thor在GPU规模差不多,bandwidth也差不多,区别就在于CPU,GB10用的MTK的N3E CPU,通过CoWoS-L的LSI把GPU和CPU两个die拼一起,不像Thor就是一整块SoC。
(, 下载次数: 0)
(, 下载次数: 0)
(, 下载次数: 0)
(, 下载次数: 0)
作者: tewtew    时间: 昨天 12:59
(, 下载次数: 0)
作者: AeshMopop    时间: 昨天 12:59
(, 下载次数: 0)

(, 下载次数: 0)

(, 下载次数: 0)




欢迎光临 麦克雷 Mavom.cn (http://www.mavom.cn/) Powered by Discuz! X3.5