英博数科观察：DeepSeek V3.1 发布，AI 工程化的关键一跃-名品导购网

近日，DeepSeek 正式推出 V3.1 版本，完成了一次以"工程实用主义"为核心的全面升级。作为AI算力与智算解决方案的提供者，英博数科持续关注此次迭代对工具调用、思维链条与系统集成的优化，在不牺牲原有性能的前提下，实现更稳健、高效、低成本的落地表现。

在经历数轮大规模预训练与强化优化后，DeepSeek 于本次迭代推出V3.1，定位非常明确：在不牺牲主流任务质量的前提下，把工具调用、思维组织与系统集成做得更稳、更快、更“省”。

概览：一次“以用为先”的增量跃迁

与以往强调纯粹大模型能力不同，DeepSeek V3.1 更像一次“工程化特性”驱动的版本：

·思维模式支持更完整：tokenizer 增加了 4 个与推理/检索相关的特殊 token，配合后训练的策略约束，使“思考—检索—工具—回答”的链条更可控。

·工具与代理能力更稳：在函数调用、检索增强、智能代理等场景中，调用意图更明确、参数更规整、失败重试更克制。

·“Think” 变体效率提升：DeepSeek-V3.1-Think 的整体回答质量大体对齐DeepSeek-R1-0528，但响应更快，吞吐与时延表现更友好。

·更贴近硬件的训练格式：采用UE8M0 FP8 缩放数据格式进行训练，兼顾可移植性与微尺度(microscaling)数据流的兼容。需要注意的是：为了与DeepSeek-V3系列已有模型格式兼容，在用于推理时仍采用FP32格式。

·生态接入更顺滑：新增Anthropic API 协议层的兼容与适配，便于在现有中台与工具链中快速替换/并行评估。

·长上下文训练数据扩充: 32K扩充阶段的数据增长10倍到630B tokens, 128K扩充阶段的数据增长3.3倍到209B tokens。

兼容Microscaling数据格式

DeepSeek-V3.1在训练阶段开始兼容Microscaling格式，可能是为了兼容国产硬件，提供更好的量化性能的需要。Microscaling数据格式是由Open Compute Project提出的低比特微尺度量化格式。每个张量在使用Microscaling格式量化时，按照指定的块大小进行切分并量化，每个块维持统一的尺度。

概览：一次“以用为先”的增量跃迁

与以往强调纯粹大模型能力不同，DeepSeek V3.1 更像一次“工程化特性”驱动的版本：

·思维模式支持更完整：tokenizer 增加了 4 个与推理/检索相关的特殊 token，配合后训练的策略约束，使“思考—检索—工具—回答”的链条更可控。

·工具与代理能力更稳：在函数调用、检索增强、智能代理等场景中，调用意图更明确、参数更规整、失败重试更克制。

·“Think” 变体效率提升：DeepSeek-V3.1-Think 的整体回答质量大体对齐DeepSeek-R1-0528，但响应更快，吞吐与时延表现更友好。

·生态接入更顺滑：新增Anthropic API 协议层的兼容与适配，便于在现有中台与工具链中快速替换/并行评估。

·长上下文训练数据扩充: 32K扩充阶段的数据增长10倍到630B tokens, 128K扩充阶段的数据增长3.3倍到209B tokens。

兼容Microscaling数据格式

浮点数格式的ExMy是指按照2进制表示时指数(Exponent)为x位，尾数(Mantissa)为y位。尺度数据(Scale Data Type)默认类型是E8M0。也即每个尺度数据按照2进制表示时，指数有8位，尾数为0位。这说明Microscaling所有尺度数据都是2的整数次幂，幂指数在-128到127之间。DeepSeek-V3的元素数据类型(Element Data Type)一直采用FP8(E4M3)的格式，在训练阶段采用UE8M0的FP8尺度格式后，已经完全兼容了MXFP8格式。DeepSeek-V3.1的缩放块大小为128*128, 能被Microscaling格式的块大小整除，因此也是兼容MXFP8格式的。

DeepSeek-V3.1模型中的后缀为weight_scale_inv的层就是上述的尺度数据(Scale data)，其提供的权重虽然仍保存为FP32格式，但读取其中的值后发现，所有的值都是2的整数幂或与必要的系数相乘后为2的整数幂(如attention层计算output时，权重需要乘以1/sqrt(hidden_dim)，所以是保证了在乘上该系数后为2的整数幂)，因此可以表达为E8M0格式。我们同时对比了DeepSeek-V3-0324的scale_inv层的数据，发现其中的数据是无法精确表达为E8M0格式的。

模型效果对比

24点问题

我们测试了一个典型的24点问题："用1，9，9，13完成24点。可以用加减乘除和阶乘运算，可以用括号。每个数必须用一次且只能用一次。"

从不同模型运行结果来看，DeepSeek-V3.1在非思考模式时减少了运行长度，在思考模式中运行了非常多的token，也出现了一些中英混杂的情况。与之对比，DeepSeek-R1能够以较快速度得到正确结果。

使用AIME评测思考效率的优化

我们使用AIME2025 的部分题目，对 DeepSeek-V3.1 提到的“思考效率提升”进行了评估。观察到的现象是：

·在DeepSeek-R1 需思考少于 8k tokens 时，对应的六个题目，使用 DeepSeek-V3.1(think) 往往可以在更少的思考量完成题目，平均而言节省约 15% 的 token；

·在DeepSeek-R1 需思考 9k~13k 的三个题目上，DeepSeek-V3.1(think) 均额外思考了 50%+ 的长度，才完成题目；

·在DeepSeek-R1 未能于 16k tokens 的限制做出的 5 个题目中，有一个题目 DeepSeek-V3.1(think) 在 15k tokens 完成；

我们使用了AIME2025-I 的 15 个题目，数据集样本量较少，结论存在一定的随机性的影响。

受限于测试时间和资源，题目数量较少，回答长度也较短(16k)。

由此我们猜测在较短(8k)的思维长度上，DeepSeek-V3.1 具有更普遍的思维效率提升，但是在较长(8k~16k)的思维长度上，可能反而存在一些思维效率的下降。更完善的结论还需要在更多的样本上进行评估确认。

模型合并的优势

本次更新将R1 的思维能力合并到了 V3.1 中，一个模型通过模版的开关，来同时提供 no-think 和 think 模式。这使得在模型部署时，工程上更简化了。不再需要分别为 no-think 模式部署一套 V3 服务、为 think 模式部署一套 R1 服务。

在V3/R1 时代，为了同时提供 think 和 no-think 模式，在当前的主流部署模式下：

·小吞吐下的使用场景，需要两个一体机分别部署一套V3 和一套 R1；

·大吞吐下的使用场景，需要分别给V3 和 R1 的模型服务各部署一个集群，例如各部署一个数十节点的 PD 集群；

分两套部署会带来显而易见的工程问题：

·需要分别维护两套设施；

·当流量变化时，需要对两套设施分别做扩缩容；

·为了保持服务的可用性，每个集群往往都保留了部分buffer 资源；

现在，我们只需部署一套V3.1 模型，这在工程和成本的角度，都可以带来直接的改善：

·对于小吞吐一体机方案，现在可以切换为一套一体机部署，缩减50% 的成本。

·对于大吞吐下的使用场景，只需运维一套集群，也只需要保留一份buffer 资源，运行成本小幅下降，运维成本也有所降低。

DeepSeek-V3.1 标志着大模型发展进入新阶段：从拼参数走向拼工程，从追求能力走向追求可用性。

作为一家聚焦智能算力的公司，英博数科始终关注先进模型的落地进展。我们相信，DeepSeek V3.1 所带来的工程化突破，将为企业提供更稳定、高效、经济的模型选择，推动 AI 在真实场景中发挥更大价值。

加载全文

英博数科观察：DeepSeek V3.1 发布，AI 工程化的关键一跃

热门

山东菲斯特汽车零部件有限公司荣获“2022聊城先锋跨境网商”奖

古驰在北京国贸商城店盛大开幕

钻石什么颜色级别最好(钻石哪个颜色最贵)

5J火腿携手凯悦带来“自然之宠，更宠自然”慈善捐赠鸡尾酒会，号召更多人关注环保

咕咚获国家体育总局群众体育司肯定与感谢

卡萨帝的成长故事

SHOES

BAGS

WATCH