发布史上最大语言模型,名为Turing-NLG。170亿参数量,是此前最大的语言模型 “威震天”(Megatron)的两倍,是OpenAI模型GPT-2的10多倍。
Turing-NLG,简称T-NLG,是一个基于Transformer的生成语言模型,可以生成单词来完成开放式的文本任务,比如回答问题,提取文档摘要等等。
去年8月,英伟达曾宣布已训练世界上最大的基于Transformer的语言模型,当时该模型使用了83亿个参数,比BERT大24倍,比OpenAI的GPT-2大5倍。
而此次微软所分享的模型,T-NLG的参数为170亿个,是英伟达的Megatron(现在是第二大Transformer模型)的两倍,其参数是OpenAI的GPT-2的十倍。微软表示,T-NLG在各种语言建模基准上均优于最新技术,并在应用于许多实际任务(包括总结和问题解答)时表现出色。