8月AGI技术月报下篇https://docs.feishu.cn/article/wiki/SvZXw63OmiJSvfkuyHtcPhzFnY5Sparse Upcycling通过将密集模型的部分层替换为MoE层,实现了在相同计算资源下更高效的模型训练。 增强大模型智能:数学推理能力的提升策略与实践. https://zhuanlan.zhihu.打开文档复制链接