非官方部署的deepseek完整版可能会在性能上略差

艾的民 · 2025-5-26 16:00:07

根据我查到的资料来看，deepseek属于MoE混合专家模型。会根据每个token的匹配程度选择在几十个领域专家中前Top8个专家来处理。减少使用的专家数可以降低电费和GPU成本。而且最近B站up主痕继痕迹也发现了部分部署的deepseek模型出现了回答与其他的deepseek回答更短质量更差的问题，而且稳定复现。可能是缺失某个关键专家导致的
非官方部署的deepseek完整版可能会在性能上略差-1.png

我是小白 · 2025-5-26 16:00:56

我也这样觉得，我一直都在用Deepseek玩跑团游戏，明显官方API比较聪明而且很会把细节连动在一起。明显官方模型有微调过。

艾的民 · 2025-5-26 16:01:30

给大家看一下，这是本地部署的混合专家模型。专家数量是可以随便调的。

非官方部署的deepseek完整版可能会在性能上略差-1.jpg

艾的民 · 2025-5-26 16:02:11

而且哼唧痕迹发现，某些问题所有部署版本的deepseek模型的回答都是相同的，某些问题就是不同，这很明显符合专家数减少的特征

艾的民 · 2025-5-26 16:02:35

至于本地部署的deepseek，由于他们都是llama和qwen蒸馏后的模型，所以并不是MoE模型。基于v3的完整版r1才是

SCR888 · 2025-5-26 16:03:08

惊了

Donalldkl · 2025-5-26 16:03:51

太高端看不懂

a64685713 · 2025-5-26 16:04:38

同感，官方比其他平台部署的智商高

nciqjlpEs · 2025-5-26 16:04:50

别人都复现不了的也配叫开源。

		自动登录	找回密码
密码			立即注册

非官方部署的deepseek完整版可能会在性能上略差

大神点评（8）

说点什么

神回复