Paper1: Long-term Control for Dialogue Generation: Methods and Evaluation
(1). 作者提出了新的问题:constrained long-term dialogue genreation. 所谓long-tem的控制,希望控制词汇能够自然地出现在后续对话中。如下图所示
(2). 作者提出了衡量long-term控制的指标。既衡量控制词的占比,也衡量控制词是否出现在对话中正确的位置。 (3). 作者提出了解决上述问题的基线模型。
Paper2: Prompt Tuning for Discriminative Pre-trained Language Models (ACL 2022 Finding)
当前prompt-tuning的工作主要关注generative PLMs,如BERT,GPT等,却忽视了discriminative PLMs,如ELECTRA. 作者提出了DPT,第一个用于discriminative PLMs的prompt tuning框架。作者在文本分类和QA问题上测试了方法的效果,DPT在全样本和小样本上的表现甚至超越了finetuning的结果。
Preliminary
所谓的discriminative PLMs,如上图(a)所示,在预训练的过程中,先使用generator来对文本进行token级别的替换,再使用discriminator来检测被替换的token。训练完成后丢弃generator,而针对下游任务finetune discriminator.
在finetune的过程中,如进行文本分类的任务,会引入新的classification head,重新学习参数,这会与预训练过程产生gap. 如图(b)所示。
Methodology
作者通过DPT,将文本分类与QA规范为dscriminative任务。如文本分类任务中,对于给定的文本$x$, 将其规范化为模版。
通过discriminative PLMs决定哪些class候选token是合适的。其中模型判断为original的token即为正确,判断为replaced即为错误。如上图(c)所示。
Experiment
可以看到,方法虽然简单。但是效果显著 DPT方法相比较finetune在全样本和少样本上都有较大提升。
从下图可以看出,DPT的方法相比较finetune有更好的稳定性。
Paper3: Learning a Better Initialization for Soft Prompts via Meta-Learning
1. Introduction
传统的Prompt-Tuning方法在没有比较好的初始化时很难在小样本设置上表现良好。本文在PPT的基础上利用Meta Learning通过考虑预训练数据的latent structure来提升PPT的初始化。
PPT使用自监督预训练任务预训练soft prompts,将这些预训练好的prompts运用到小样本的下游任务上。作者认为,PPT的限制是将所有的预训练数据混合在一起,而将所有的样本平等对待。因此,PPT保持了仅与预训练任务相关的冗余信息,会影响模型在下游任务的表现。
作者提出的MetaPT,希望能够将预训练数据和下游任务共享的特征编码进prompt的初始化中,从而使得模型可以更快迁移到下游任务中。
2. Meta-learned Prompt Tuning
2.1 Pretraining Tasks Data
构造完成预训练数据后,通过聚类算将样本分为K类
2.2 Prompt-MAML Algorithm
使用MAML学习meta任务中的通用特征。随机初始化soft prompts的参数$P$, 对于meta task $T_{i}$, 采样m个样本,计算平均损失$L_{T_{i}}(f_{P})$,暂时梯度更新soft prompts:
更新完prompts后,再采样m个样本,计算损失$L_{T_{i}}(f_{P_{i}^{‘}})$, 将上述过程运用于其他meta tasks,更新prompts:
上式为prompts一次完整更新过程。
3. Experiments
可以看到MetaPT在7个任务上相比较PPT都有了较大的提升。
同时在小样本上,MetaPT也比之前的方法稳定
Paper4: CoNT:Contrastive Neural Text Generation
1. Intro
作者对于将对比学习运用于文本生成方法存在的瓶颈把握的很准,与我在实验中观察到的现象一致:
- 对比样本的构造
通过在离散空间或者连续空间中给ground truth增加扰动来构造对比样本的方法直接用在文本生成中表现不佳。
- 对比损失的选择
按照simCLR的设置简单实用from-batch 正负样本,并且采用InfoNCE损失而忽视负样本之间的区别,这种方法收效甚微。
- 解码策略的选择
作者针对上述瓶颈进行了优化,提出了CoNT.
2. Method
CoNT在三个方法领先于Naive CL:
-
CoNT使用自身的预测结果来作为负样本从而构造对比学习样本集合。
-
CoNT使用N-pairs对比损失替换InfoNCE损失。N-pairs对比损失能够对所有的样本对有在句子级别更细粒度的监督学习。
-
CoNT将学习得到的相似度函数加入到推理过程。
3. Experiments
从实验结果,本文提出的框架相比于传统的对比学习方法有了较大的方法。
作者同时展示了对Hard Negative Samples的区分。
可以看到navie CL能够将batch tokens以及其他tokens清晰地区分开,但是没有办法将低质量的预测结果与ground truth区分开,这与其对比学习训练目标有关。而CoNT能够将低质量的生成结果与ground truth推开,说明CoNT能够保证获得sequence generation的更好的表示。