使用预训练语言模型进行文本生成的常用微调策略

更新时间:2023-07-14 15:04:28 阅读: 评论:0

使⽤预训练语⾔模型进⾏⽂本⽣成的常⽤微调策略
译⾃Pretrained Language Models for Text Generation: A Survey 第六节
数据⾓度
⼩样本学习:在许多任务中,获取⾜够标记数据既困难⼜昂贵。预训练模型可以编码⼤量的语⾔和现实知识,这为数据稀缺提供了有效的解决⽅案。通常采⽤的⽅法是使⽤预训练参数插⼊现有模块。然后⽤⼏个、⼀个甚⾄没有研究任务的ca对它进⾏微调。⽐如将⼩样本学习应⽤于数据到⽂本的任务,如表到⽂本的⽣成[1,2]和KG到⽂本的⽣成[3]。Chen[1]直接向 GPT-2 提供少量序列化的属性值对,Gong[2]进⼀步应⽤多个任务以更好地利⽤表的结构信息。此外,Li[3]提出了表征对齐,以弥合 KG 编码和预训练模型之间的语义差距,以增强 KG 与⽂本之间的对应关系。
域迁移:预训练模型有⼤量的参数,并在⼤规模语料库上进⾏了预训练。然⽽,它们仍然不能直接适应与预训练域具有较⼤分布差异的新域。⼀个有效的解决⽅案是,在对⽬标任务进⾏微调之前,使⽤⽬标领域的数据对预训练模型进⾏训练。遮盖(mask)预测是⼀种⼴泛使⽤的⽅法,尝试使⽤剩余的token来预测被遮挡的token。域迁移中有⼏种不同的遮盖⽅式。Zeng和Nie[13]提出了基于TF-IDF的mask,以遮盖更多与条件相关的token,以便专注于域特征。⽂档遮盖通常⽤于摘要任务,以捕获长⽂档的⽂档级特征[4]。
任务⾓度
热气球英文除了新域的特征外,在微调预训练模型时考虑特定⽣成任务中的语⾔连贯性和⽂本保真度等特殊问题也很有意义。
服务宗旨口号大全增强连贯性:为了增强语⾔连贯性,⼀个重要的⽅法是在微调期间更好地建模语⾔上下⽂。通过对⽐学习,微调的模型擅长区分句⼦对是否相似。通过这种⽅法,预训练模型被迫理解两个句⼦之间的位置或语义关系,从⽽得到更好的表征。下⼀句预测(NSP)是判断两个输⼊句句是否为连续句段的常⽤⽅法,可应⽤于摘要[5]和对话系统[6]。Zeng和Lapata[14]建议根据其语义相似性重新排列句⼦顺序。CBT[7]提出了跨模态训练中的噪声对⽐估计(NCE),以⿎励模型与⼀组负⼲扰因素相⽐识别正确的视频⽂本对。去噪⾃编码 (DAE) 将损坏的⽂本作为输⼊,旨在恢复原始⽂本。使⽤ DAE 进⾏微调的模型具有很强的理解整体句⼦和捕获更远距离相关性的能⼒。例如,TED[8]利⽤DAE 来优化基本语义信息,以便进⾏抽象汇总。XGPT[9]尝试使⽤图像条件去噪⾃编码(IDA)对底层⽂本 - 图像对齐进⾏建模,以迫使模型重建整个句⼦。
保持保真度:⽂本保真度是指⽣成的⽂本如何与原始输⼊信息保持⼀致,这是许多⽂本⽣成任务中需要考虑的重要⽅⾯。预训练模型的通⽤结构⽆法在特定⽂本⽣成任务中保持⽂本保真度。⽐如对于表到⽂本⽣成任务,需要对表的结构信息进⾏编码。Gong[2]提出了利⽤多任务学习,从表嵌⼊中重建
并强制表嵌⼊与内容嵌⼊之间的匹配。此外,pointer⽣成器[10]可应⽤于KG转⽂本⽣成,复制KG中的实体和关系信息。
模型⾓度
为了提⾼⽣成⽂本的质量,关键是基于特定任务的数据有效训练预训练模型的参数,以便预训练模型可以捕获针对任务的语义特征。然⽽,如上所述,特定任务的数据不⾜,因此在对有限数据进⾏微调时很可能会出现过拟合的情况。对于针对模型的微调⽅法,Gu[15]使⽤了固定的教师 GPT 来保存在另⼀个微调 GPT 中编码的知识。Chen等[16]使⽤BERT 模型(教师)作为监督来指导 Seq2Seq 模型(学⽣)以获得更好的⽣成性能。此外,Liu和Lapata[17]利⽤两个优化器分别更新预训练模型和初始模块的参数,以解决两个模块之间的差异。
还有其他⽅法可以指导微调过程。例如,强化学习可以应⽤于通过不可微度量直接指导模型[11],如ROUGE。Zhao[18]利⽤课程学习(curriculum learning)让模型从简单的⽂档学习到困难的⽂档。此外DIALOGPT[12]实现了最⼤互信息(MMI)评分功能,以减轻产⽣乏味,⽆信息的对话系统回复的产⽣。
引⽤
1. Zhiyu Chen, Harini Eavani, Wenhu Chen, Yinyin Liu, and William Yang Wang. Few-shot NLG with pre-trained language
model. In ACL, 2020.
2. Heng Gong, Yawei Sun, Xiaocheng Feng, Bing Qin, Wei Bi, Xiaojiang Liu, and Ting Liu. Tablegpt: Few-shot table-to-text
病毒特点generation with table structure reconstruction and content matching. In COLING, 2020.
3. Junyi Li, Tianyi Tang, Wayne Xin Zhao, Zhicheng Wei, Nicholas Jing Yuan, and Ji-Rong Wen. Few-shot knowledge graph-
to-text generation with pretrained language models. In Findings of ACL, 2021.
4. Xingxing Zhang, Furu Wei, and Ming Zhou. HIBERT: document level pre-training of hierarchical bidirectional
男生化妆教程transformers for document summarization. In ACL, 2019.
个体户交哪些税
5. Ziyi Yang, Chenguang Zhu, Robert Gmyr, Michael Zeng, Xuedong Huang, and Eric Darve. TED: A pretrained
马蹄的作用
unsupervid summarization model with theme modeling and denoising. In EMNLP , 2020.
6. Thomas Wolf, Victor Sanh, Julien Chaumond, and Clement Delangue. Transfertransfo: A transfer learning approach for
neural network bad conversational agents. arXiv preprint arXiv:1901.08149, 2019.
7. Chen Sun, Fabien Baradel, Kevin Murphy, and Cordelia Schmid. Contrastive bidirectional transformer for temporal
reprentation learning. arXiv preprint arXiv:1906.05743, 2019.
8. Ziyi Yang, Chenguang Zhu, Robert Gmyr, Michael Zeng, Xuedong Huang, and Eric Darve. TED: A pretrained
百端unsupervid summarization model with theme modeling and denoising. In EMNLP , 2020.
9. Qiaolin Xia, Haoyang Huang, Nan Duan, Dongdong Zhang, Lei Ji, Zhifang Sui, Edward Cui, Taroon Bharti, Xin Liu, and
Ming Zhou. XGPT: cross-modal generative pre-training for image captioning. arXiv preprint arXiv:2003.01473, 2020.
10. Abigail See, Peter J. Liu, and Christopher D. Manning. Get to the point: Summarization with pointer-generator networks.
In ACL, 2017.
11. Haoyu Zhang, Jingjing Cai, Jianjun Xu, and Ji Wang. Pretraining-bad natural language generation for text
summarization. In CoNLL, 2019.
天天加班
12. Yizhe Zhang, Siqi Sun, Michel Galley, Yen-Chun Chen, Chris Brockett, Xiang Gao, Jianfeng Gao, Jingjing Liu, and Bill
Dolan. DIALOGPT : Large-scale generative pre-training for conversational respon generation. In ACL, 2020.
13. Yan Zeng and Jian-Yun Nie. Generalized conditioned dialogue generation bad on pre-trained language model. arXiv
preprint arXiv:2010.11140, 2020.
14. Hao Zheng and Mirella Lapata. Sentence centrality revisited for unsupervid summarization. In ACL, 2019.
15. Jing Gu, Qingyang Wu, Chongruo Wu, Weiyan Shi, and Zhou Yu. A tailored pre-training
model for task-oriented dialog generation. arXiv preprint arXiv:2004.13835, 2020.
16. Yen-Chun Chen, Zhe Gan, Yu Cheng, Jingzhou Liu, and Jingjing Liu. Distilling knowledge learned in BERT for text
generation. In ACL, 2020.
17. Yang Liu and Mirella Lapata. Text summarization with pretrained encoders. In EMNLP, 2019.
18. Xueliang Zhao, Wei Wu, Can Xu, Chongyang Tao, Dongyan Zhao, and Rui Yan. Knowledge-grounded dialogue
generation with pretrained language models. In EMNLP, 2020.
扩展阅读:关于预训练语⾔模型各⽅向论⽂⽬录

本文发布于:2023-07-14 15:04:28,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/89/1081283.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:模型   训练   任务   微调   信息
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图