大模型因其在计算机视觉、自然语言处理等领域的出色表现而备受瞩目。然而,这类模型的训练受到GPU显存容量的严重限制。为解决这一问题,国防科技大学唐宇、李东升等人在论文中系统探讨了有限GPU显存条件下大语言模型的训练技术,梳理了一系列优化技术体系。