bert预训练过程包含哪两个任务

任务一:

模型会从数据集抽取两句话,其中 B 句有 50% 的概率是 A 句的下一句,然后将这两句话转化前面所示的输入表征,

预测 B 句是 A 句下一句的概率。

任务二:

随机遮掩(Mask 掉)输入序列中 15% 的词,并要求 Transformer 预测这些被遮掩的词


参考:

谷歌终于开源BERT代码:3 亿参数量,机器之心全面解读



标签: 遮掩、两句话、bert、亿参、一句、面试
  • 回复
隐藏