微软发布史上最大基于Transformer架构的语言生成模型

发布史上最大语言模型,名为Turing-NLG。170亿参数量,是此前最大的语言模型 “威震天”(Megatron)的两倍,是OpenAI模型GPT-2的10多倍。

Turing-NLG,简称T-NLG,是一个基于Transformer的生成语言模型,可以生成单词来完成开放式的文本任务,比如回答问题,提取文档摘要等等。

去年8月,英伟达曾宣布已训练世界上最大的基于Transformer的语言模型,当时该模型使用了83亿个参数,比BERT大24倍,比OpenAI的GPT-2大5倍。

而此次微软所分享的模型,T-NLG的参数为170亿个,是英伟达的Megatron(现在是第二大Transformer模型)的两倍,其参数是OpenAI的GPT-2的十倍。微软表示,T-NLG在各种语言建模基准上均优于最新技术,并在应用于许多实际任务(包括总结和问题解答)时表现出色。

标签: nlg、transformer、openai、gpt、turing、面试
  • 回复
隐藏