微软与Nvidia发布全球最大含5，300亿个参数的AI语言模型 - 安防知识网

微软和Nvidia合作研究语言模型，发布了目前最大的单体Transformer语言模型MT-NLG（Turing Natural Language Generation Model），具有5,300亿个参数，作为Turing NLG 17B和Megatron-LM的后继者，MT-NLG的规模是目前这类最大模型的3倍，能在完成预测、阅读理解、常识推理、自然语言推理和词义消歧等自然语言任务，提供极高的准确性。

　　近年来自然语言处理领域，得利于Transformer语言模型的大规模运算、大资料集，和高端的训练算法，使得语言模型能够具有大量参数，进行更丰富、细致的语言理解，因此语言模型也能更有效地作为零样本或是少样本学习器，应用在更广泛的自然语言任务中。

　　现在训练大型语言模型，仍具有不小的挑战性，研究人员解释，即便是最大的GPU内存，也难以放下这么大量的参数，而且如果不对算法、软件和硬件堆栈进行优化，过长的运算时间将会使得训练模型变得不切实际。

　　微软和Nvidia密切合作，应用GPU和分布式学习软件堆栈，实现超高效率模型训练，并且使用数千亿的令牌，构建高品质自然语言训练语料库，共同开发训练配置，以优化效率和稳定性。

　　模型训练使用基于NvidiaDGX SuperPOD的Selene超级计算机，以混合精度训练完成，该超级计算机搭载560台DGX A100服务器，这些服务器使用HDR InfiniBand以全胖树拓扑连接，每台DGX A100拥有8颗A100 80GB Tensor Core GPU，之间以NVLink和NVSwitch相互联接。

　　研究人员解释，只有这种能够在数千个GPU间实现平行性的架构，才能在合理的时间，训练具有数千亿个参数的模型。但就现有的平行策略，包括资料、工作管线和张量切片，还是无法用于训练这种模型。

　　因此研究人员结合Megatron-LM和PyTorch深度学习优化函数库DeepSpeed，创建了高效且可扩展的3D平行系统，将资料、工作管线和基于张量切片的平行性结合在一起，来克服训练大型语言模型所遭遇的困难。

　　Megatron-LM的张量切片能够扩展节点内的模型，并借由DeepSpeed工作管线的平行性，来跨节点扩展模型。就5,300亿个参数的MT-NLG来说，每个模型副本需横跨280个A100 GPU，具有8路张量切片和跨节点的35路工作管线并行性，并且通过DeepSpeed的资料平行性，扩展模型至数千个GPU。

　　MT-NLG在多种类型的自然语言任务，都达到了目前最佳的结果，以少样本预测来说，比较或是寻找两句子间的关系，通常是对语言模型较具有挑战性的任务，但是MT-NLG能够使用更少的令牌训练，也就是说，更大型的模型训练速度更快。

　　除了一般自然语言任务都已经难不倒MT-NLG，MT-NLG还具有基本的数学运算能力，研究人员提到，虽然离真正具有算术能力还有一段距离，但该模型展现了超过记忆算数的能力。

　　另外，研究人员还在HANS资料集测试MT-NLG，借由向模型提供包含简单句法结构的句子作为问题，并且提示模型给予答案，过去这样的用例，即便结构相当简单，但是自然语言推理模型仍会对于这类输入感到苦手，但是MT-NLG在不需要微调的情况下，就能表现良好。