找回密码
 立即注册
  • QQ空间
  • 回复
  • 收藏

非官方部署的deepseek完整版可能会在性能上略差

根据我查到的资料来看,deepseek属于MoE混合专家模型。会根据每个token的匹配程度选择在几十个领域专家中前Top8个专家来处理。减少使用的专家数可以降低电费和GPU成本。而且最近B站up主痕继痕迹也发现了部分部署的deepseek模型出现了回答与其他的deepseek回答更短质量更差的问题,而且稳定复现。可能是缺失某个关键专家导致的
非官方部署的deepseek完整版可能会在性能上略差-1.png
回复

使用道具 举报

大神点评(8)

我也这样觉得,我一直都在用Deepseek玩跑团游戏,明显官方API比较聪明而且很会把细节连动在一起。明显官方模型有微调过。
回复 支持 反对

使用道具 举报

艾的民 楼主 3 天前 显示全部楼层
给大家看一下,这是本地部署的混合专家模型。专家数量是可以随便调的。

非官方部署的deepseek完整版可能会在性能上略差-1.jpg
回复 支持 反对

使用道具 举报

艾的民 楼主 3 天前 显示全部楼层
而且哼唧痕迹发现,某些问题所有部署版本的deepseek模型的回答都是相同的,某些问题就是不同,这很明显符合专家数减少的特征
回复 支持 反对

使用道具 举报

艾的民 楼主 3 天前 显示全部楼层
至于本地部署的deepseek,由于他们都是llama和qwen蒸馏后的模型,所以并不是MoE模型。基于v3的完整版r1才是
回复 支持 反对

使用道具 举报

惊了
回复 支持 反对

使用道具 举报

太高端看不懂
回复 支持 反对

使用道具 举报

同感,官方比其他平台部署的智商高
回复 支持 反对

使用道具 举报

别人都复现不了的也配叫开源。
回复 支持 反对

使用道具 举报

说点什么

您需要登录后才可以回帖 登录 | 立即注册
HOT • 推荐