9月AGI技术月报上篇 - 飞书文档https://docs.feishu.cn/article/wiki/Y7uKwcJngil85Zkuhuhcyp96nDd它在处理数学的“纽结理论”和凝聚态物理中的Anderson局域化问题上,都比MLP表现更优。 ... 例如,在64卡A100上训练GPT-175B模型时,MFU可估算为50%,与精确公式计算结果接近。打开文档复制链接