符号与记号约定

符号	含义	取值范围 / 单位	备注
$B$	Batch size（当前解码轮参与的请求数）	正整数	原义是指 Global BS；这里指每个 DP 实例拿到的 B
$Q$	本轮每个请求新增 token 数（q_len）	正整数
$D$	数据并行（DP）实例数	正整数
$K$	MoE gating 的 Top-K	1…$E$
$E$	总专家数（per 模型）	正整数
num_groups	本卡 GroupGEMM 中被激活专家组数	0…本卡专家数	取 $\min(\text{本卡专家数}, \text{本轮有效子批次数})$
$m[i]$	第 $i$ 个激活专家的子 batch 大小	非负整数	GroupGEMM 每组的 M 维
$T_{\text{total}}$	本轮产生的新 token 总数	$B \times Q$

0. 引言

在多节点的 Prefill-Decode（PD）分离部署中，开启 DP_MoE 选项后，专家会分布到多个数据并行（Data Parallel, DP）实例上。于是每个专家拿到的 token 数量，会随这几个变量变化：批处理大小 $B$、数据并行数 $D$、单轮新增 token 数 $Q$、以及 Top-K $K$。我们聚焦 GroupGEMM 算子，它的两个关键入参 num_groups 与 $m[i]$ 同时受上述因素影响。为了最大化解码阶段效率，需要一套“可计算、可验证”的跨层映射与经验指引。

1. 理论计算

为避免符号混杂，按三层语义展开：引擎配置层 → MoE 路由层 → GroupGEMM 算子层；随后给出跨层映射与推论。

1.1 配置层（DP/EP 等）

节点与并行：
- 数据并行数：$D = \text{dp_size}$
批处理与步长：
- 批处理大小：$B = \text{batch_size}$
- 本轮每请求新增 token 数：$Q = \text{q_len}$
- 单轮新 token 总数：$T_{\text{total}} = B \times Q$（见式 (1)）
MoE 结构与调度：
- 总专家数（模型级）：$E = 256$（DeepSeek-V3）
- 每 token 选路 Top-K：$K$（$1 \le K \le E$）
- 每个 DP 实例上的本地专家数：$E_{\text{node}}$
- 可选多步解码：MTP（若开启，会影响 $Q$）

1.2 MoE 路由层（token → expert）

单 DP 节点承接的新 token 数（假设在 $D$ 上均匀切分）：

$$ T_{\text{node}} = B \times Q \tag{1} $$

Top-K 路由复制使每个 token 分配到 $K$ 个专家；忽略倾斜且假设均匀或已负载均衡，则本节点本地专家合计样本数近似：

$$ T_{\text{expert,node}} \approx T_{\text{node}} \cdot K = B \times Q \times K \tag{2} $$

若考虑不均衡或容量门控，设倾斜系数 $\alpha \ge 1$，则最繁忙本地专家的子批量上界近似：

$$ m_{\max} \lesssim \alpha \frac{T_{\text{expert,node}}}{E_{\text{node}}} = \alpha \frac{B \times Q \times K}{E_{\text{node}}} \tag{3} $$

1.3 GroupGEMM 算子层（num_groups, m, n, k）

记本卡被激活的专家集合大小为 num_groups，记第 $i$ 个被激活专家的子批为 $m[i]$，各组 GEMM 形状：
- $M_i = m[i]$
- $N$ 为输出特征维，$K_{\text{gemm}}$ 为输入特征维