您正在访问的位置:首页>资讯 > 银行黄金

英博数科观察:DeepSeek V3.1 发布,AI 工程化的关键一跃

编辑:民品导购网 发布于2025-10-14 12:44
导读: 近日 DeepSeek正式推出V3 1版本 完成了一次以 工程实用主义 为核心的全面升级 作为AI算力与智算解决方案的提供者 英博数科持续关注此次迭代对工具调用 思维链条与系统集成的优化 在不牺牲原有...

近日,DeepSeek 正式推出 V3.1 版本,完成了一次以"工程实用主义"为核心的全面升级。作为AI算力与智算解决方案的提供者,英博数科持续关注此次迭代对工具调用、思维链条与系统集成的优化,在不牺牲原有性能的前提下,实现更稳健、高效、低成本的落地表现。

  

  

在经历数轮大规模预训练与强化优化后,DeepSeek 于本次迭代推出V3.1,定位非常明确:在不牺牲主流任务质量的前提下,把工具调用、思维组织与系统集成做得更稳、更快、更“省”。

  

概览:一次“以用为先”的增量跃迁

  

与以往强调纯粹大模型能力不同,DeepSeek V3.1 更像一次“工程化特性”驱动的版本:

  

·思维模式支持更完整:tokenizer 增加了 4 个与推理/检索相关的特殊 token,配合后训练的策略约束,使“思考—检索—工具—回答”的链条更可控。

  

·工具与代理能力更稳:在函数调用、检索增强、智能代理等场景中,调用意图更明确、参数更规整、失败重试更克制。

  

·“Think” 变体效率提升:DeepSeek-V3.1-Think 的整体回答质量大体对齐DeepSeek-R1-0528,但响应更快,吞吐与时延表现更友好。

  

·更贴近硬件的训练格式:采用UE8M0 FP8 缩放数据格式 进行训练,兼顾可移植性与微尺度(microscaling)数据流的兼容。需要注意的是:为了与DeepSeek-V3系列已有模型格式兼容,在用于推理时仍采用FP32格式。

  

·生态接入更顺滑:新增Anthropic API 协议层 的兼容与适配,便于在现有中台与工具链中快速替换/并行评估。

  

·长上下文训练数据扩充:  32K扩充阶段的数据增长10倍到630B tokens, 128K扩充阶段的数据增长3.3倍到209B tokens。

  

兼容Microscaling数据格式

  

DeepSeek-V3.1在训练阶段开始兼容Microscaling格式,可能是为了兼容国产硬件,提供更好的量化性能的需要。Microscaling数据格式是由Open Compute Project提出的低比特微尺度量化格式。每个张量在使用Microscaling格式量化时,按照指定的块大小进行切分并量化,每个块维持统一的尺度。

  

近日,DeepSeek 正式推出 V3.1 版本,完成了一次以"工程实用主义"为核心的全面升级。作为AI算力与智算解决方案的提供者,英博数科持续关注此次迭代对工具调用、思维链条与系统集成的优化,在不牺牲原有性能的前提下,实现更稳健、高效、低成本的落地表现。

  

  

在经历数轮大规模预训练与强化优化后,DeepSeek 于本次迭代推出V3.1,定位非常明确:在不牺牲主流任务质量的前提下,把工具调用、思维组织与系统集成做得更稳、更快、更“省”。

  

概览:一次“以用为先”的增量跃迁

  

与以往强调纯粹大模型能力不同,DeepSeek V3.1 更像一次“工程化特性”驱动的版本:

  

·思维模式支持更完整:tokenizer 增加了 4 个与推理/检索相关的特殊 token,配合后训练的策略约束,使“思考—检索—工具—回答”的链条更可控。

  

·工具与代理能力更稳:在函数调用、检索增强、智能代理等场景中,调用意图更明确、参数更规整、失败重试更克制。

  

·“Think” 变体效率提升:DeepSeek-V3.1-Think 的整体回答质量大体对齐DeepSeek-R1-0528,但响应更快,吞吐与时延表现更友好。

  

·更贴近硬件的训练格式:采用UE8M0 FP8 缩放数据格式 进行训练,兼顾可移植性与微尺度(microscaling)数据流的兼容。需要注意的是:为了与DeepSeek-V3系列已有模型格式兼容,在用于推理时仍采用FP32格式。

  

·生态接入更顺滑:新增Anthropic API 协议层 的兼容与适配,便于在现有中台与工具链中快速替换/并行评估。

  

·长上下文训练数据扩充:  32K扩充阶段的数据增长10倍到630B tokens, 128K扩充阶段的数据增长3.3倍到209B tokens。

  

兼容Microscaling数据格式

  

DeepSeek-V3.1在训练阶段开始兼容Microscaling格式,可能是为了兼容国产硬件,提供更好的量化性能的需要。Microscaling数据格式是由Open Compute Project提出的低比特微尺度量化格式。每个张量在使用Microscaling格式量化时,按照指定的块大小进行切分并量化,每个块维持统一的尺度。

  

浮点数格式的ExMy是指按照2进制表示时指数(Exponent)为x位,尾数(Mantissa)为y位。尺度数据(Scale Data Type)默认类型是E8M0。也即每个尺度数据按照2进制表示时,指数有8位,尾数为0位。这说明Microscaling所有尺度数据都是2的整数次幂,幂指数在-128到127之间。DeepSeek-V3的元素数据类型(Element Data Type)一直采用FP8(E4M3)的格式,在训练阶段采用UE8M0的FP8尺度格式后,已经完全兼容了MXFP8格式。DeepSeek-V3.1的缩放块大小为128*128, 能被Microscaling格式的块大小整除,因此也是兼容MXFP8格式的。 

  

DeepSeek-V3.1模型中的后缀为weight_scale_inv的层就是上述的尺度数据(Scale data),其提供的权重虽然仍保存为FP32格式,但读取其中的值后发现,所有的值都是2的整数幂或与必要的系数相乘后为2的整数幂(如attention层计算output时,权重需要乘以1/sqrt(hidden_dim),所以是保证了在乘上该系数后为2的整数幂),因此可以表达为E8M0格式。我们同时对比了DeepSeek-V3-0324的scale_inv层的数据,发现其中的数据是无法精确表达为E8M0格式的。

  

模型效果对比

  

24点问题

  

我们测试了一个典型的24点问题:"用1,9,9,13完成24点。可以用加减乘除和阶乘运算,可以用括号。每个数必须用一次且只能用一次。"

  

从不同模型运行结果来看,DeepSeek-V3.1在非思考模式时减少了运行长度,在思考模式中运行了非常多的token,也出现了一些中英混杂的情况。与之对比,DeepSeek-R1能够以较快速度得到正确结果。

  

使用AIME评测思考效率的优化

  

我们使用AIME2025 的部分题目,对 DeepSeek-V3.1 提到的“思考效率提升”进行了评估。观察到的现象是:

  

·在DeepSeek-R1 需思考少于 8k tokens 时,对应的六个题目,使用 DeepSeek-V3.1(think) 往往可以在更少的思考量完成题目,平均而言节省约 15% 的 token;

  

·在DeepSeek-R1 需思考 9k~13k 的三个题目上,DeepSeek-V3.1(think) 均额外思考了 50%+ 的长度,才完成题目;

  

·在DeepSeek-R1 未能于 16k tokens 的限制做出的 5 个题目中,有一个题目 DeepSeek-V3.1(think)  在 15k tokens 完成;

  

我们使用了AIME2025-I 的 15 个题目,数据集样本量较少,结论存在一定的随机性的影响。

  

受限于测试时间和资源,题目数量较少,回答长度也较短(16k)。

  

由此我们猜测在较短(8k)的思维长度上,DeepSeek-V3.1 具有更普遍的思维效率提升,但是在较长(8k~16k)的思维长度上,可能反而存在一些思维效率的下降。更完善的结论还需要在更多的样本上进行评估确认。

  

模型合并的优势

  

本次更新将R1 的思维能力合并到了 V3.1 中,一个模型通过模版的开关,来同时提供 no-think 和 think 模式。这使得在模型部署时,工程上更简化了。不再需要分别为 no-think 模式部署一套 V3 服务、为 think 模式部署一套 R1 服务。

  

在V3/R1 时代,为了同时提供 think 和 no-think 模式,在当前的主流部署模式下:

  

·小吞吐下的使用场景,需要两个一体机分别部署一套V3 和一套 R1;

  

·大吞吐下的使用场景,需要分别给V3 和 R1 的模型服务各部署一个集群,例如各部署一个数十节点的 PD 集群;

  

分两套部署会带来显而易见的工程问题:

  

·需要分别维护两套设施;

  

·当流量变化时,需要对两套设施分别做扩缩容;

  

·为了保持服务的可用性,每个集群往往都保留了部分buffer 资源;

  

现在,我们只需部署一套V3.1 模型,这在工程和成本的角度,都可以带来直接的改善:

  

·对于小吞吐一体机方案,现在可以切换为一套一体机部署,缩减50% 的成本。

  

·对于大吞吐下的使用场景,只需运维一套集群,也只需要保留一份buffer 资源,运行成本小幅下降,运维成本也有所降低。

  

DeepSeek-V3.1 标志着大模型发展进入新阶段:从拼参数走向拼工程,从追求能力走向追求可用性。

  

作为一家聚焦智能算力的公司,英博数科始终关注先进模型的落地进展。我们相信,DeepSeek V3.1 所带来的工程化突破,将为企业提供更稳定、高效、经济的模型选择,推动 AI 在真实场景中发挥更大价值。

加载全文

名品导购网(www.mpdaogou.com)陕ICP备2026003937号-1

CopyRight 2005-2026 版权所有,未经授权,禁止复制转载。邮箱:mpdaogou@163.com