麦克雷 Mavom.cn

标题: 华为开源全新技术显存占用削减70% 5060当5090用 [打印本页]

作者: 话说身龙2014 时间: 2025-10-23 12:53
标题: 华为开源全新技术显存占用削减70% 5060当5090用
华为开源SINQ AI技术：显存占用削减70%, 5060能当5090用，RTX4090能顶A100
10 月 6 日消息，华为苏黎世计算系统实验室于 9 月 26 日发布全新开源量化（Quantization）技术 SINQ（Sinkhorn 归一化量化），旨在大幅降低大语言模型（LLM）的显存需求与运行成本。
>
这项技术无需复杂的校准过程，可直接集成至现有工作流，并且其代码已通过 Apache 2.0 许可证在 GitHub 和 Hugging Face 上开放，允许任何组织免费使用、修改和商业化部署。
>
SINQ 的核心优势在于其卓越的压缩性能。根据测试，该技术能将不同规模模型的显存占用普遍削减 60% 至 70%。这意味着，过去需要超过 60GB 显存才能运行的大型模型，现在仅需约 20GB 的环境即可部署。
>
此前需要企业级 GPU（如英伟达 A100 80GB 或 H100）计算的任务，现在仅用一张售价约 1600 美元的消费级显卡（如英伟达 RTX 4090）便可胜任。对于云端用户而言，每小时的算力成本也随之锐减。
>
该技术通过两大创新实现了性能突破。首先，SINQ 采用“双轴采样”策略，替代了传统的单尺度因子量化，通过分别为矩阵的行和列设置独立的缩放向量，更灵活地分散量化误差，有效抑制了异常值的影响。
>
在性能评估中，SINQ 的表现全面超越了多种主流的免校准量化方法（如 RTN、HQQ）。在处理 Qwen3、LLaMA 等多种主流模型时，SINQ 在 WikiText2 等标准测试集上显著降低了模型的困惑度（Perplexity），其性能表现接近甚至达到了需要数据校准的方案水平。
>
此外，SINQ 的量化速度极快，比 HQQ 快约 2 倍，更是比 AWQ 快 30 倍以上，充分满足了研究与生产环境中对效率的严苛要求。
>
注：量化一种模型压缩技术，通过降低模型内部数据的精度来减小其体积和显存占用。好比将一张高精度的照片（如浮点数）转换为一张文件更小、但肉眼看差别不大的普通照片（如整数），从而让模型运行得更快、更省资源。
>
困惑度（Perplexity）示评估语言模型性能的常用指标。它衡量的是模型对于一段新文本的“惊讶”或“不确定”程度。困惑度越低，表示模型对文本的预测越准确，语言能力越强。

作者: dgcjhnyrccqe 时间: 2025-10-23 12:53
(, 下载次数: 0)

作者: yao_pink 时间: 2025-10-23 12:54
华为就不要吹了，不管啥东西华为的就没有性价比可言

作者: baenwrhb65 时间: 2025-10-23 12:55
省流：与普通人无关

作者: CCouQPvx 时间: 2025-10-23 12:55
臭狗屎

作者: Kennethpet 时间: 2025-10-23 12:55
以前知乎都还有长文分析gpu turbo的，搞得好像真的一样，原来是偷降分辨率而已

作者: polit-sovet_hon 时间: 2025-10-23 12:56
太长但是看完了，总结就是对臭打游戏的而言，跟当年4g大狂牛原理不同但性质相同
(, 下载次数: 36)

作者: 艾的民 时间: 2025-10-23 12:57
感谢楼主分享垃圾新闻，先进小黑屋冷静冷静

作者: 幼乐善馁rg 时间: 2025-10-23 12:57
内裤当外裤穿吗？冬天不冻死你

作者: 艾的民 时间: 2025-10-23 12:57
也就是说可以砍掉一部分内存然后还是原价卖

作者: 艾的民 时间: 2025-10-23 12:58
这下喷华为的脸都抽肿了

作者: susannamh4 时间: 2025-10-23 12:58
要是真的，5060这会应该涨到一万五了

作者: 艾的民 时间: 2025-10-23 12:59
评论区这么多罕见

作者: Witwovietelve 时间: 2025-10-23 12:59
“大幅降低大语言模型（LLM）的显存需求与运行成本”这和5060有什么关系

作者: Antoniobugh 时间: 2025-10-23 13:00
(, 下载次数: 36)

欢迎光临麦克雷 Mavom.cn (http://www.mavom.cn/)