麦克雷 Mavom.cn
标题:
非官方部署的deepseek完整版可能会在性能上略差
[打印本页]
作者:
艾的民
时间:
3 天前
标题:
非官方部署的deepseek完整版可能会在性能上略差
根据我查到的资料来看,deepseek属于MoE混合专家模型。会根据每个token的匹配程度选择在几十个领域专家中前Top8个专家来处理。减少使用的专家数可以降低电费和GPU成本。而且最近B站up主痕继痕迹也发现了部分部署的deepseek模型出现了回答与其他的deepseek回答更短质量更差的问题,而且稳定复现。可能是缺失某个关键专家导致的
(, 下载次数: 0)
上传
点击文件名下载附件
作者:
我是小白
时间:
3 天前
我也这样觉得,我一直都在用Deepseek玩跑团游戏,明显官方API比较聪明而且很会把细节连动在一起。明显官方模型有微调过。
作者:
艾的民
时间:
3 天前
给大家看一下,这是本地部署的混合专家模型。专家数量是可以随便调的。
(, 下载次数: 0)
上传
点击文件名下载附件
作者:
艾的民
时间:
3 天前
而且哼唧痕迹发现,某些问题所有部署版本的deepseek模型的回答都是相同的,某些问题就是不同,这很明显符合专家数减少的特征
作者:
艾的民
时间:
3 天前
至于本地部署的deepseek,由于他们都是llama和qwen蒸馏后的模型,所以并不是MoE模型。基于v3的完整版r1才是
作者:
SCR888
时间:
3 天前
惊了
作者:
Donalldkl
时间:
3 天前
太高端看不懂
作者:
a64685713
时间:
3 天前
同感,官方比其他平台部署的智商高
作者:
nciqjlpEs
时间:
3 天前
别人都复现不了的也配叫开源。
欢迎光临 麦克雷 Mavom.cn (http://www.mavom.cn/)
Powered by Discuz! X3.5