LLM 训练 FLOPs + 显存估算器
同时估算参数量、单 step 训练 FLOPs、和每卡显存占用(GB)。支持调节 `heads / hidden / seqlen / batch size`,并包含混合精度、TP、DP、ZeRO。
Heads
Hidden
SeqLen
Batch Size (micro)
Layers
FFN Ratio
Vocab Size
Precision
FP32
Mixed (BF16/FP16)
Tensor Parallel (t)
Data Parallel (d)
ZeRO Stage (0-3)
Optimizer Bytes/Param
Recompute
None
Selective
Full
Sequence Parallel
Off
On
计算
模型参数量
-
每层 Forward FLOPs
-
单 Step 总 FLOPs (Train)
-
Forward / Backward / Optimizer 分解
-
Forward / Backward / Optimizer 占比
-
混合精度等效 FLOPs
-
每卡显存总占用
-
显存分解 (Params / Grads / Opt / Act)
-