找回密码
 立即注册
  • QQ空间
  • 回复
  • 收藏

GPU的高频设计需要怎样改呢

很好奇这个,除了制程因素,GPU本身的设计似乎对能否高能效实现高频也很重要
尤其对于面积已经见顶的Apple Silicon GPU能否突破高频是决定未来发展的关键性因素
回看当年RDNA2的PPT

GPU的高频设计需要怎样改呢-1.jpg
都是7nm的情况下RDNA2实现每CU功率不变频率+30%,同频率下功耗相较RDNA1降低50%
回复

使用道具 举报

大神点评(14)

思念的永远11 楼主 2024-6-2 22:11:28 显示全部楼层
然后RDNA3在5nm加持下又来一次

GPU的高频设计需要怎样改呢-1.jpg
又是一个相较RDNA2每CU相同功率下频率+30%,同频率下功耗-50%
回复 支持 反对

使用道具 举报

思念的永远11 楼主 2024-6-2 22:12:19 显示全部楼层
两次搞下来频率遥遥遥遥领先Apple Silicon,果子从M1的1.27G艰难到M4的1.47G,还伴随着制程进步的情况下功率爆炸的问题
回复 支持 反对

使用道具 举报

思念的永远11 楼主 2024-6-2 22:12:43 显示全部楼层
皮衣就不说了,这代已经奔3G去,50系应该3G+没得跑
回复 支持 反对

使用道具 举报

思念的永远11 楼主 2024-6-2 22:13:14 显示全部楼层
IAN这三家的GPU跑高频似乎都是洒洒水....没难度的感觉
而且也不是说跑高频功耗就爆炸了,Ultra7 155H 1024SP跑2.25G核心功率仅20W出头(N5),M3在系统更新前1280SP跑1.38G就16W,M4估计18W(N3E)了
回复 支持 反对

使用道具 举报

艾的民 2024-6-2 22:14:09 显示全部楼层
老黄中低端显卡频率是上去了,但是规模下来了,最终呈现的迭代性能提升反而不高
回复 支持 反对

使用道具 举报

艾的民 2024-6-2 22:14:54 显示全部楼层
intel不是当年搞了个ppt说明?
回复 支持 反对

使用道具 举报

Charleshuch 2024-6-2 22:15:06 显示全部楼层
2200的单个cu面积只有pc上的一半,频率也就1.3g,上不去多少
回复 支持 反对

使用道具 举报

Ronniemn 2024-6-2 22:15:57 显示全部楼层
是时候改变思维了,高密度轻量的固态电池延长续航,加大码的堆料核心设计才是未来。工艺提升已经开始失去意义
回复 支持 反对

使用道具 举报

Ken_HFSxl 2024-6-2 22:16:54 显示全部楼层
首先,放弃低频能耗,用大量uevt 冲击高频,其次,换用更大的晶体管单元,最后,共用结构做得更小,用更多的电压阈去调整
回复 支持 反对

使用道具 举报

xujrqnjn02 2024-6-2 22:17:28 显示全部楼层
除了工藝的庫
最重要還是知道瓶頸在哪裡 怎麼設計這些架構的 怎麼去實現這些特性的
說實在的你很難知道 又沒有代碼 又沒有製程庫 沒有一堆工具 根本沒辦法做模擬 誰知道哪裡timing壓力大?
就算是乘法器,需求也許都不同,如果大家指標都相同那估計設計相近,不然設計個並行進位你還得考慮一堆扇出扇入問題,光這些工具就得處理好 不然得具體處理太細節的電路特性問題。
一般而言透過觀察指令的Throughput和latency可以知道 或大概猜測成本有多大 需要花費多少資源
再結合觀察die shot
再做profile
更高端直接寫論文找出一種新方法 結合專門的供電和軟件及高精度熱採樣分析寄存器和緩存功耗
要做的事情太多了 絕不只是一件說把工藝換了就能解決,如果完全自動設計還跑的好那叫白日做夢
認真而言目前30系列到40系列除了工藝外 也把L2加大分頻了,以前是memory的控制器是跟GPU分頻的,現在更加大到這個L2跟控制器交互的更加分頻了
所以剩下的GPU部分就能更容易超頻了 只是收益更小
除此之外AMD也有簡化前端如thread調度派發 和很多沒講的地方 如把單位位寬綁定的緩存帶寬加大了 從而優化整體表現
更別提現在移動端還有什麼奇奇怪怪改變執行的渲染流程 給tile做強化 這些東西也需要搞什麼cache
誰都不清楚實現這些邏輯有沒有需要同步跑什麼 是不是指令週期短 延遲長 是不是會影響到其他單元共用 是不是會因為給路徑上增加額外的timing而難以拉高頻率
就像寫軟件給調用函數進入 輸入東西需要做判斷寫個異常 你還要想這是無額外成本異常 或低成本異常 高成本異常 會不會我要搞個容錯處理反而在常用的路徑產生太多開銷 這些
說實在的你很難猜出來,頂多你能用廠商的profile工具分析出跑這個demo或你所需的場景,這個GPU是不是哪裡有瓶頸,需不需要換個方法改進效率。
至於需要使用動態時序分析 做運行時是否能穩定跑到最高頻率不出bug,已經遠超過正常人能知道的事情了,誰有辦法拿到內部龐大的代碼庫甚至配套EDA和編譯後的網表那些的??
你在這裡問根本不可能問出正確答案 這些又不肯定公開寫論文的 頂多三方進行分析功耗是否異常,是否可以模擬改善優化,是不是可以利用一些方法避免電平翻轉節省SRAM上各類功耗。
其他的想都想不出來 除非幹這個的架構師 清楚知道問題 這全球都不知道能有幾位的
回复 支持 反对

使用道具 举报

不管那些工程师的事
GPU的高频设计需要怎样改呢-1.png 看实际表现就行,怎么改这是咱们能知道的事吗

回复 支持 反对

使用道具 举报

Gregyfix 2024-6-2 22:18:38 显示全部楼层
RDNA3频率翻车了,全系列除了7600都降了一档性能,发布会材料各种exceeds 3GHz,结果就跑点低压力计算能上
回复 支持 反对

使用道具 举报

e29021221 2024-6-2 22:19:03 显示全部楼层
用手机厂商话术就是全链路优化,单一电路跑3000mhz很简单,时钟门控,布线,单元库采用都要为发烧而生
GPU的高频设计需要怎样改呢-1.png
回复 支持 反对

使用道具 举报

艾的民 2024-6-2 22:19:28 显示全部楼层
GPU的高频设计需要怎样改呢-1.jpg Intel说了一个全方位优化
回复 支持 反对

使用道具 举报

说点什么

您需要登录后才可以回帖 登录 | 立即注册
HOT • 推荐