a&s专业的自动化&安全生态服务平台
公众号
安全自动化

安全自动化

安防知识网

安防知识网

手机站
手机站

手机站

大安防供需平台
大安防供需平台

大安防供需平台

资讯频道横幅A1
首页 > 资讯 > 正文

微软与Nvidia发布全球最大含5,300亿个参数的AI语言模型

微软和Nvidia合作研究语言模型,发布了目前最大的单体Transformer语言模型MT-NLG(Turing Natural Language Generation Model),具有5,300亿个参数,作为Turing NLG 17B和Megatron-LM的后继者,MT-NLG的规模是目前这类最大模型的3倍,能在完成预测、阅读理解、常识推理、自然语言推理和词义消歧等自然语言任务,提供极高的准确性。
资讯频道文章B

      微软和Nvidia合作研究语言模型,发布了目前最大的单体Transformer语言模型MT-NLG(Turing Natural Language Generation Model),具有5,300亿个参数,作为Turing NLG 17B和Megatron-LM的后继者,MT-NLG的规模是目前这类最大模型的3倍,能在完成预测、阅读理解、常识推理、自然语言推理和词义消歧等自然语言任务,提供极高的准确性。

  近年来自然语言处理领域,得利于Transformer语言模型的大规模运算、大资料集,和高端的训练算法,使得语言模型能够具有大量参数,进行更丰富、细致的语言理解,因此语言模型也能更有效地作为零样本或是少样本学习器,应用在更广泛的自然语言任务中。

  现在训练大型语言模型,仍具有不小的挑战性,研究人员解释,即便是最大的GPU内存,也难以放下这么大量的参数,而且如果不对算法、软件和硬件堆栈进行优化,过长的运算时间将会使得训练模型变得不切实际。

  微软和Nvidia密切合作,应用GPU和分布式学习软件堆栈,实现超高效率模型训练,并且使用数千亿的令牌,构建高品质自然语言训练语料库,共同开发训练配置,以优化效率和稳定性。

  模型训练使用基于NvidiaDGX SuperPOD的Selene超级计算机,以混合精度训练完成,该超级计算机搭载560台DGX A100服务器,这些服务器使用HDR InfiniBand以全胖树拓扑连接,每台DGX A100拥有8颗A100 80GB Tensor Core GPU,之间以NVLink和NVSwitch相互联接。

  研究人员解释,只有这种能够在数千个GPU间实现平行性的架构,才能在合理的时间,训练具有数千亿个参数的模型。但就现有的平行策略,包括资料、工作管线和张量切片,还是无法用于训练这种模型。

  因此研究人员结合Megatron-LM和PyTorch深度学习优化函数库DeepSpeed,创建了高效且可扩展的3D平行系统,将资料、工作管线和基于张量切片的平行性结合在一起,来克服训练大型语言模型所遭遇的困难。

  Megatron-LM的张量切片能够扩展节点内的模型,并借由DeepSpeed工作管线的平行性,来跨节点扩展模型。就5,300亿个参数的MT-NLG来说,每个模型副本需横跨280个A100 GPU,具有8路张量切片和跨节点的35路工作管线并行性,并且通过DeepSpeed的资料平行性,扩展模型至数千个GPU。

  MT-NLG在多种类型的自然语言任务,都达到了目前最佳的结果,以少样本预测来说,比较或是寻找两句子间的关系,通常是对语言模型较具有挑战性的任务,但是MT-NLG能够使用更少的令牌训练,也就是说,更大型的模型训练速度更快。

  除了一般自然语言任务都已经难不倒MT-NLG,MT-NLG还具有基本的数学运算能力,研究人员提到,虽然离真正具有算术能力还有一段距离,但该模型展现了超过记忆算数的能力。

  另外,研究人员还在HANS资料集测试MT-NLG,借由向模型提供包含简单句法结构的句子作为问题,并且提示模型给予答案,过去这样的用例,即便结构相当简单,但是自然语言推理模型仍会对于这类输入感到苦手,但是MT-NLG在不需要微调的情况下,就能表现良好。


点赞0
参与评论
回复:
0/300
文明上网理性发言,评论区仅供其表达个人看法,并不表明a&s观点。
0
关于我们

a&s是国际知名展览公司——德国法兰克福展览集团旗下专业的自动化&安全生态服务平台,为智慧安防、智慧生活、智能交通、智能建筑、IT通讯&网络等从业者提供市场分析、技术资讯、方案评估、行业预测等,为读者搭建专业的行业交流平台。

© 2020 Messe Frankfurt (Shenzhen) Co., Ltd, All rights reserved.
法兰克福展览(深圳)有限公司版权所有 粤ICP备 12072668号 粤公网安备 44030402000264号
用户
反馈