预训练

本章介绍预训练任务的工作范式。

基本概念¶

TODO

Peters et al. Deep contextualized word representations. NAACL. 2018. arxiv

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. 2019. arxiv

2019，参数量和 BERT 齐平。基于 Bert 进行了如下修改：

更大的 batch size ，训练数据更多，训练时间更长；
动态掩码机制 (未用于中文版本)。将数据输入时才 masking，并将训练数据复制多份，一条数据可以进行不同的 masking，划分进不同的 epoch，充分利用数据；
删除下一句预测(NSP)任务，认为太简单，对模型序列无益；
文本编码采用一种在 word-level 和 character-level 之间的表示

Yinhan Liu et al. Roberta: A robustly optimized BERT pretraining approach, 2019. arxiv

ALBERT = A Lite BERT，轻量版 BERT，2019 年提出。有以下特点：

Lan et al. ALBERT: A Lite BERT for Self-supervised Learning of Language Representations, 2019. arxiv

Objective: replaced token detection (RTD)：判断 token 是替换过的还是原来的。模型会从所有输入标记中学习，而不仅仅是 mask 部分，使计算更有效率。生成器和判别器共同训练，但判别器的梯度不会回流到生成器。

Clark et al. ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators. 2019. arxiv

Bidirectional and Auto-Regressive Transformers，由 Meta 于 2019.10 提出：

Lewis et al. BART: Denoising sequence-to-sequence pretraining for natural language generation, translation, and comprehension. 2020. arxiv

Text-to-Text Transfer Transformer，由 Google 于 2019.10 提出：

Raffel et al. Exploring the limits of transfer learning with a unified text-to-text transformer. 2020. arxiv

GPT