麦克雷 Mavom.cn

标题: 非官方部署的deepseek完整版可能会在性能上略差 [打印本页]

作者: 艾的民    时间: 3 天前
标题: 非官方部署的deepseek完整版可能会在性能上略差
根据我查到的资料来看,deepseek属于MoE混合专家模型。会根据每个token的匹配程度选择在几十个领域专家中前Top8个专家来处理。减少使用的专家数可以降低电费和GPU成本。而且最近B站up主痕继痕迹也发现了部分部署的deepseek模型出现了回答与其他的deepseek回答更短质量更差的问题,而且稳定复现。可能是缺失某个关键专家导致的
(, 下载次数: 0)
作者: 我是小白    时间: 3 天前
我也这样觉得,我一直都在用Deepseek玩跑团游戏,明显官方API比较聪明而且很会把细节连动在一起。明显官方模型有微调过。
作者: 艾的民    时间: 3 天前
给大家看一下,这是本地部署的混合专家模型。专家数量是可以随便调的。

(, 下载次数: 0)
作者: 艾的民    时间: 3 天前
而且哼唧痕迹发现,某些问题所有部署版本的deepseek模型的回答都是相同的,某些问题就是不同,这很明显符合专家数减少的特征
作者: 艾的民    时间: 3 天前
至于本地部署的deepseek,由于他们都是llama和qwen蒸馏后的模型,所以并不是MoE模型。基于v3的完整版r1才是
作者: SCR888    时间: 3 天前
惊了
作者: Donalldkl    时间: 3 天前
太高端看不懂
作者: a64685713    时间: 3 天前
同感,官方比其他平台部署的智商高
作者: nciqjlpEs    时间: 3 天前
别人都复现不了的也配叫开源。




欢迎光临 麦克雷 Mavom.cn (http://www.mavom.cn/) Powered by Discuz! X3.5