LLM 训练 FLOPs + 显存估算器

同时估算参数量、单 step 训练 FLOPs、和每卡显存占用(GB)。支持调节 `heads / hidden / seqlen / batch size`,并包含混合精度、TP、DP、ZeRO。

模型参数量
-
每层 Forward FLOPs
-
单 Step 总 FLOPs (Train)
-
Forward / Backward / Optimizer 分解
-
Forward / Backward / Optimizer 占比
-
混合精度等效 FLOPs
-
每卡显存总占用
-
显存分解 (Params / Grads / Opt / Act)
-