麦克雷 Mavom.cn

标题: 苹果的neural accelerator性能功耗 [打印本页]

作者: tewtew 时间: 2025-11-1 12:56
标题: 苹果的neural accelerator性能功耗
苹果mlx项目开发者今天测试了一下nv的DGX Spark浮点性能
用的是pytorch测试bf16
我借此机会使用相同的pytorch代码（把cuda替换为苹果的mps）
m5是13.1TF，package功耗30w，整机减空载35w
m4max是12.7TF（没有matrix加速，gpu硬算），整机减空载功耗160w+
看开发者数据spark是大约60TF，100w package功耗
这个基本可以对比苹果，都是soc模式，都是arm cpu，都是n3e/n3p工艺，都是lpddr5内存
区别在于规模不一样，gpu面积我估算6144cuda应该是m5 2.5倍的大小，内存通道是m5两倍
按这个估算，如果苹果弄个类似大小的gpu，目前matrix加速性能应该是nv的一半，功耗是nv的7成，属于一般般吧
之后苹果恐怕会继续加ai算力密度，到时候看看n2时代的对比

(, 下载次数: 16)
(, 下载次数: 17)

作者: Dominicgok 时间: 2025-11-1 12:57
其实fp16差不多够了，能否fp8翻倍

作者: 287896307 时间: 2025-11-1 12:58
估计下一代或者下下一代还会翻倍，不可能一下子全部挤出来的

作者: tewtew 时间: 2025-11-1 12:58
我拿4060锁定1.2ghz试了一下，也是13.1TF，gpu功耗29w左右，所以苹果目前再matrix性能（fp16/bf16）上是能做到类似steelnoamd light跑分，类似浮点性能，两者snl都是5400
(, 下载次数: 21)

作者: ujiuhyerk 时间: 2025-11-1 12:59
错误的，NVIDIA DGX Spark的GB10和Jetson Thor一样都是TSMC 4NP，GB10和Thor在GPU规模差不多，bandwidth也差不多，区别就在于CPU，GB10用的MTK的N3E CPU，通过CoWoS-L的LSI把GPU和CPU两个die拼一起，不像Thor就是一整块SoC。
(, 下载次数: 19)
(, 下载次数: 16)
(, 下载次数: 15)
(, 下载次数: 19)

作者: tewtew 时间: 2025-11-1 12:59
(, 下载次数: 16)

作者: AeshMopop 时间: 2025-11-1 12:59
(, 下载次数: 18)

(, 下载次数: 17)

(, 下载次数: 20)

欢迎光临麦克雷 Mavom.cn (http://www.mavom.cn/)