麦克雷 Mavom.cn

标题: 非官方部署的deepseek完整版可能会在性能上略差 [打印本页]

作者: 艾的民 时间: 2025-5-26 16:00
标题: 非官方部署的deepseek完整版可能会在性能上略差
根据我查到的资料来看，deepseek属于MoE混合专家模型。会根据每个token的匹配程度选择在几十个领域专家中前Top8个专家来处理。减少使用的专家数可以降低电费和GPU成本。而且最近B站up主痕继痕迹也发现了部分部署的deepseek模型出现了回答与其他的deepseek回答更短质量更差的问题，而且稳定复现。可能是缺失某个关键专家导致的
(, 下载次数: 0)

作者: 我是小白 时间: 2025-5-26 16:00
我也这样觉得，我一直都在用Deepseek玩跑团游戏，明显官方API比较聪明而且很会把细节连动在一起。明显官方模型有微调过。

作者: 艾的民 时间: 2025-5-26 16:01
给大家看一下，这是本地部署的混合专家模型。专家数量是可以随便调的。

(, 下载次数: 0)

作者: 艾的民 时间: 2025-5-26 16:02
而且哼唧痕迹发现，某些问题所有部署版本的deepseek模型的回答都是相同的，某些问题就是不同，这很明显符合专家数减少的特征

作者: 艾的民 时间: 2025-5-26 16:02
至于本地部署的deepseek，由于他们都是llama和qwen蒸馏后的模型，所以并不是MoE模型。基于v3的完整版r1才是

作者: SCR888 时间: 2025-5-26 16:03
惊了

作者: Donalldkl 时间: 2025-5-26 16:03
太高端看不懂

作者: a64685713 时间: 2025-5-26 16:04
同感，官方比其他平台部署的智商高

作者: nciqjlpEs 时间: 2025-5-26 16:04
别人都复现不了的也配叫开源。

欢迎光临麦克雷 Mavom.cn (http://www.mavom.cn/)