任务一:
模型会从数据集抽取两句话,其中 B 句有 50% 的概率是 A 句的下一句,然后将这两句话转化前面所示的输入表征,
预测 B 句是 A 句下一句的概率。
任务二:
随机遮掩(Mask 掉)输入序列中 15% 的词,并要求 Transformer 预测这些被遮掩的词
参考:
谷歌终于开源BERT代码:3 亿参数量,机器之心全面解读
浙公网安备 33010602006230号
浙ICP备14015892号