(7)LLM分布式训练面面观 - 飞书文档https://docs.feishu.cn/article/wiki/IKrdwdaFSizOSTk1iracN234nrg2023年7月8日 ... GPT2显存占用分析. 在具体介绍ZeRO的显存优化方案之前,我们先仔细分析一下如果用naive的训练策略,GPT2模型是如何在32G ... Paramater Server(PS),参数服务器 ...打开文档复制链接