样本获取方法、装置、设备和存储介质与流程

更新时间:2025-01-11 14:00:38 0条评论

默认

样本获取方法、装置、设备和存储介质与流程

1.本发明涉及模型训练技术领域，尤其涉及一种样本获取方法、装置、设备和存储介质。

背景技术：

2.相关技术中，用户会在样本库中选择合适的样本作为用于训练语言模型的负样本进行使用。样本库中存储有多个样本，这些样本可以是从网络中抓取获得的，也可以是用户手动编写的。无论采用什么样的方式获得样本库中的样本，样本库中的样本数量是非常有限的、且难以得到有效扩充。另外，样本库中描绘样本的语言表达方式是较为局限的，导致样本的质量不高。样本库中的样本的数量以及质量决定了使用它训练所得的语言模型的性能优劣，而实际应用中用户难以从数量有限且质量不能得到保证的样本库中选择到数量足够且优质的负样本，这会直接导致语言模型的训练效果。

技术实现要素：

3.本发明实施例提供一种样本获取方法、装置、设备和存储介质，用以实现获得数量足够且质量较优的负样本。
4.第一方面，本发明实施例提供一种样本获取方法，该方法包括：
5.获取目标任务领域对应的样本语料集合；
6.通过所述样本语料集合，对目标预训练语言模型进行微调训练；
7.通过训练后的目标预训练语言模型，生成所述目标任务领域对应的目标语料集合，以供用户在所述目标语料集合中选择负样本，所述负样本用于训练待训练的语言模型。
8.可选地，所述目标预训练语言模型为gpt2模型。
9.可选地，所述目标预训练语言模型为多种尺寸的gpt2模型中的一种；
10.在对目标预训练语言模型进行微调训练之前，所述方法还包括：
11.确定设备中的处理器的处理性能，所述设备为用于对所述目标预训练语言模型进行微调训练的设备；
12.在所述多种尺寸的gpt2模型中，选择与所述处理性能相匹配的目标尺寸的gpt2模型。
13.可选地，所述通过训练后的目标预训练语言模型，生成所述目标任务领域对应的目标语料集合，包括：
14.通过训练后的gpt2模型，采用无条件文本生成的方式，生成所述目标任务领域对应的目标语料集合。
15.可选地，所述负样本包括困难样本。
16.可选地，所述通过所述样本语料集合，对目标预训练语言模型进行微调训练，包括：
17.通过所述样本语料集合，采用自回归的方式，对目标预训练语言模型进行微调训
练。
18.第二方面，本发明实施例提供一种样本获取装置，包括：
19.获取模块，用于获取目标任务领域对应的样本语料集合；
20.训练模块，用于通过所述样本语料集合，对目标预训练语言模型进行微调训练；
21.生成模块，用于通过训练后的目标预训练语言模型，生成所述目标任务领域对应的目标语料集合，以供用户在所述目标语料集合中选择负样本，所述负样本用于训练待训练的语言模型。
22.可选地，所述目标预训练语言模型为gpt2模型。
23.可选地，所述目标预训练语言模型为多种尺寸的gpt2模型中的一种；
24.所述装置还包括选择模块，所述选择模块，用于：
25.确定设备中的处理器的处理性能，所述设备为用于对所述目标预训练语言模型进行微调训练的设备；
26.在所述多种尺寸的gpt2模型中，选择与所述处理性能相匹配的目标尺寸的gpt2模型。
27.可选地，所述生成模块，用于：
28.通过训练后的gpt2模型，采用无条件文本生成的方式，生成所述目标任务领域对应的目标语料集合。
29.可选地，所述负样本包括困难样本。
30.可选地，所述训练模块，用于：
31.通过所述样本语料集合，采用自回归的方式，对目标预训练语言模型进行微调训练。
32.第三方面，本发明实施例提供一种电子设备，其中包括处理器和存储器，其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器至少可以实现第一方面中的样本获取方法。
33.第四方面，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现第一方面中的样本获取方法。
34.采用本发明，可以通过训练后的目标预训练语言模型自动生成目标任务领域对应的目标语料集合。由于目标语料集合中的语料是通过训练后的目标预训练语言模型自动生成的，因此理论上目标语料集合中的语料数量是可以无限扩展的。且由于目标预训练语言模型可以是基于规模庞大的样本数据训练而得的，因此目标预训练语言模型学习到了丰富的语言表达的形式，进而通过训练后的目标预训练语言模型自动生成的目标语料集合中的各语料的语言表达的形式也是丰富多彩的。
35.当用户从上述目标语料集合中挑选用于训练待训练的语言模型的负样本时，由于目标语料集合中的语料数量较多，且描绘语料的语言表达的形式较为丰富，因此极大提高了挑选到数量足够且质量较优的负样本的可能性。更甚至，还可以从目标语料集合中挑选到对训练待训练的语言模型极为有利的困难样本。进而，通过这样的负样本或者困难样本训练待训练的语言模型，能够取得较好的训练效果。
附图说明
36.为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
37.图1为本发明实施例提供的一种样本获取方法的流程示意图；
38.图2为本发明实施例提供的一种gpt2-l arge预测token的场景示意图；
39.图3为本发明实施例提供的一种样本获取装置的结构示意图；
40.图4为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
41.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
42.在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种。
43.取决于语境，如在此所使用的词语“如果”、“若”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
44.另外，下述各方法实施例中的步骤时序仅为一种举例，而非严格限定。
45.图1为本发明实施例提供的一种样本获取方法的流程图，该方法可以应用于电子设备。如图1所示，该方法包括如下步骤：
46.101、获取目标任务领域对应的样本语料集合。
47.102、通过样本语料集合，对目标预训练语言模型进行微调训练。
48.103、通过训练后的目标预训练语言模型，生成目标任务领域对应的目标语料集合，以供用户在目标语料集合中选择负样本，负样本用于训练待训练的语言模型。
49.在进行微调训练之前，上述预训练语言模型可以认为是已训练过的、能够理解基础且通俗的语言表达、学习到基础且通俗的语言表达的语言模型。使用这样的语言模型，可以避免完全从零基础开始训练全新的语言模型，可以提高语言模型的训练效率。
50.其中，可选地，目标预训练语言模型可以为gpt2模型(一种基于transformer的大型语言模型)。该gpt2模型可以从网络资源中获得。该gpt2模型是通过从网络中收集的40gb的样本数据训练得到的，在如此庞大的样本数据作为基础的条件下训练而得的gpt2模型，能够掌握各种丰富的语言表达。
51.由于目标预训练语言模型只是对基础且通俗的语言表达较为擅长，在实际使用的过程中，为了提高目标预训练语言模型在某个任务领域中对属于该任务领域的语言表达的熟悉度，可以通过样本语料对目标预训练语言模型进行微调训练。
52.实际应用中，可以根据语料所表达的含义，将语料划分到多个任务领域。比如说，询问时间的任务领域、询问某商品的任务领域、问路的任务领域、闲聊兴趣的任务领域等等。当需要目标预训练语言模型能够更加擅长哪个任务领域对应的语言表达时，就可以预先收集该任务领域对应的样本语料集合，然后通过该样本语料集合对目标预训练语言模型进行微调训练。这样得到的微调训练后的目标预训练语言模型就能通过样本语料集合，学习到目标任务领域对应的语言表达的特征。
53.值得注意的是，可选地，在将样本语料集合中的样本语料输入到目标预训练语言模型实现对目标预训练语言模型的训练过程之前，还可以对样本语料集合中的样本语料进行格式修改，以将样本语料修改为合适作为gpt2模型的输入数据的数据格式。例如，可以在样本语料的每两个字的中间增加一个空格符号。
54.前文提到目标预训练语言模型可以是gpt2模型，该gpt2模型可以具有多种尺寸，如gpt2-small、gpt2-medium、gpt2-large和gpt2-extra large。其中，gpt2-small的网络参数需要占用117m的存储空间，gpt2-medium的网络参数需要占用345m的存储空间，gpt2-large的网络参数需要占用762m的存储空间，gpt2-extra large的网络参数需要占用1542m的存储空间。
55.基于此，可选地，目标预训练语言模型为多种尺寸的gpt2模型中的一种。确定具体使用的gpt2模型的方式可以为：确定设备中的处理器的处理性能，设备为用于对目标预训练语言模型进行微调训练的设备；在多种尺寸的gpt2模型中，选择与处理性能相匹配的目标尺寸的gpt2模型。
56.其中，处理器可以包括中央处理器、图形处理器等。在某些可选实施例中，可以在图形处理器中对目标预训练语言模型进行微调训练。选择在图形处理器中对目标预训练语言模型进行微调训练的原因是，图形处理器相较于中央处理器有着更优的处理性能，更适合用于计算量较大的模型训练。
57.实际应用中，可以根据处理器的处理性能，选择与处理性能相匹配的目标尺寸的gpt2模型。当处理器的处理性能越高时，可以相应选择尺寸较大的gpt2模型。当处理器的处理性能越差时，可以相应选择尺寸较小的gpt2模型。
58.可选地，通过样本语料集合，对目标预训练语言模型进行微调训练的过程可以实现为：通过样本语料集合，采用自回归的方式，对目标预训练语言模型进行微调训练。
59.其中，自回归与传统的线性回归不同，使用自身以前的信息来预测当下时间的信息。
60.在对目标预训练语言模型进行微调训练之后，就可以使用训练后的目标预训练语言模型生成目标任务领域对应的目标语料集合了。训练后的目标预训练语言模型可以根据学习到的目标任务领域对应的语言表达，自动生成大量的语料，这些语料中有不属于目标任务领域的，但是实际上大部分还是属于目标任务领域的。
61.由于目标语料集合中的语料是通过训练后的目标预训练语言模型自动生成的，因此理论上目标语料集合中的语料数量是可以无限扩展的。且由于目标预训练语言模型可以是基于规模庞大的样本数据训练而得的，因此目标预训练语言模型学习到了丰富的语言表达的形式，进而通过训练后的目标预训练语言模型自动生成的目标语料集合中的各语料的语言表达的形式也是丰富多彩的。
62.在获得目标语料集合之后，用户可以从中挑选用于训练待训练的语言模型的负样本。需要说明的是，待训练的语言模型可以是与目标预训练语言模型不同的语言模型。由于目标语料集合中的语料数量较多，且描绘语料的语言表达的形式较为丰富，因此极大提高了挑选到数量足够且质量较优的负样本的可能性。更甚至，还可以从目标语料集合中挑选到对训练待训练的语言模型极为有利的困难样本。
63.其中，困难样本是指语言模型难以做出正确判断的、训练过程中常会给语言模型带来较大损失的负样本。相较于普通的负样本,困难样本可能具有更高的价值。将困难样本加入到语言模型的训练过程中，有助于语言模型快速学习到边界,可以加快语言模型的收敛速度。如果能预先让语言模型学习困难样本，可以大大地提升语言模型的各项性能指标和用户使用满意度。
64.可选地，本发明实施例提供一种通过gpt2模型自动生成目标语料集合的方式：可以采用无条件文本生成的方式，通过训练后的gpt2模型，生成目标任务领域对应的目标语料集合。
65.其中，无条件文本生成的方式可以理解为是，无需向训练后的gpt2模型提供输入数据，训练后的gpt2模型就能自动生成目标任务领域对应的目标语料集合。或者，仅向训练后的gpt2模型输入预设起始符号，训练后的gpt2模型就能自动生成目标任务领域对应的目标语料集合，其中，预设起始符号可以是《|startoftext|》。
66.采用无条件文本生成的方式获得的目标语料集合，与用于训练gpt2模型的样本数据的质量相当，且与该样本数据所涉及的语言表达的多样性相当。基于此，采用无条件文本生成的方式获得的目标语料集合，无论从质量上还是语言表达的多样性等方面看，都是优质的语料集合。进而，从优质的语料集合中，能够选取到数量足够且质量较优的负样本的可能性较高，甚至选取到困难样本的可能性较高。
67.下面以自动生成询问时间的任务领域的目标语料集合为例，说明本技术实施例提供的获取负样本的过程。
68.假设基于当前的设备的处理器的处理性能，选择gpt2-large作为目标预训练语言模型。在对gpt2-large进行微调训练之前，可以收集与问询时间有关的样本语料，将这些样本语料放入样本语料集合中。其中，样本语料例如可以是“现在几点钟”。
69.为了让样本语料适配于gpt2-large，可以在样本语料的每两个字的中间增加一个空格符号。以“现在几点钟”为例，格式修改后的样本语料变为“现在几点钟”。
70.采用无条件文本生成的方式，通过格式修改后的样本语料集合，对gpt2-large进行微调训练。在进行微调训练的过程中，可以将样本语料集合中的每个样本语料的第一个字之前增加起始符号“《|startoftext|》”，在样本语料的最后一个字的后面增加结束符号“《|endoftext|》”。
71.在增加了起始符号和结束符号之后，可以将样本语料输入到gpt2-large，gpt2-large可以从起始符号开始，根据前一个字(token)预测下一个字(第一次预测是根据起始符号预测下一个字的)。同时，在每次预测得到一个新字时，可以将预测得到的新字加入到样本语料包含的字的序列中继续预测，一直到预测到结束符号的位置。如图2所示，在训练过程中，可以通过token1预测token2，再将token2加入到输入数据，通过token2预测token3，以此类推。
72.采用上述方式的目的在于，让gpt2-large能够预测出与输入的样本语料相同的句子。当gpt2-large能够预测出与输入的样本语料相同的句子时，表示gpt2-large已经学习到了该样本语料的语言表达的特征。在“现在几点钟”的示例中，如果不考虑起始符号，第一个预测出的字应该是“现”。在“现”之后应该预测出“在”，直到遇到结束符号时停止预测。
73.在完成对gpt2-large的微调训练之后，可以加载训练后的gpt2-large，设置好网络参数，通过无条件文本生成的方式，自动生成包含设定数量的语料的目标语料集合。
74.在得到目标语料集合之后，可以让用户进行人工标注，以在目标语料集合中标注可以作为负样本、困难样本使用的语料。将标注出的负样本、困难样本加入到待训练的语言模型的训练过程，可以有效提高待训练的语言模型识别负样本，甚至是困难样本的能力。
75.下面给出几个示例以便于理解可以通过训练后的gpt2-large获得的困难样本。
76.(1)上周到阴历什么日子。
77.解释：该困难样本指代不明。对话系统容易误将该困难样本与表达询问今天是阴历几号的句子匹配上。
78.(2)今天周一到周几。
79.解释：该困难样本是不知所云。对话系统容易误将该困难样本与具有询问星期几意图的句子匹配上。
80.(3)2008年8月二一星期公历多少号。
81.解释：该困难样本是不知所云。对话系统容易误将该困难样本与询问日期的句子匹配上。
82.(4)下周。
83.解释：该困难样本不是问句，只是对时间的描述。对话系统容易误中意图。
84.(5)68号到多少号。
85.解释：该困难样本指代不明。对话系统容易误将该困难样本与询问日期的句子匹配上。
86.(6)明天时间。
87.解释：对话系统容易误将该困难样本与询问日期的句子匹配上。
88.(7)面试时间。
89.解释：对话系统容易误将该困难样本与询问日期的句子匹配上。
90.(8)九号对的能做什么事。
91.解释：对话系统容易误将该困难样本与询问万年历凶吉相关的句子匹配上。
92.(9)10月25日是阳历是多少。
93.解释：该困难样本是不知所云。对话系统容易误将该困难样本与询问日期的句子匹配上。
94.(10)86号阴历是初几。
95.解释：该困难样本是不符合常识的句子。该困难样本容易导致对话系统出错。
96.采用本发明，可以通过训练后的目标预训练语言模型自动生成目标任务领域对应的目标语料集合。由于目标语料集合中的语料是通过训练后的目标预训练语言模型自动生成的，因此理论上目标语料集合中的语料数量是可以无限扩展的。且由于目标预训练语言模型可以是基于规模庞大的样本数据训练而得的，因此目标预训练语言模型学习到了丰富
的语言表达的形式，进而通过训练后的目标预训练语言模型自动生成的目标语料集合中的各语料的语言表达的形式也是丰富多彩的。
97.当用户从上述目标语料集合中挑选用于训练待训练的语言模型的负样本时，由于目标语料集合中的语料数量较多，且描绘语料的语言表达的形式较为丰富，因此极大提高了挑选到数量足够且质量较优的负样本的可能性。更甚至，还可以从目标语料集合中挑选到对训练待训练的语言模型极为有利的困难样本。进而，通过这样的负样本或者困难样本训练待训练的语言模型，能够取得较好的训练效果。
98.以下将详细描述本发明的一个或多个实施例的样本获取装置。本领域技术人员可以理解，这些样本获取装置均可使用市售的硬件组件通过本方案所教导的步骤进行配置来构成。
99.图3为本发明实施例提供的一种样本获取装置的结构示意图，如图3所示，该装置包括：
100.获取模块31，用于获取目标任务领域对应的样本语料集合；
101.训练模块32，用于通过所述样本语料集合，对目标预训练语言模型进行微调训练；
102.生成模块33，用于通过训练后的目标预训练语言模型，生成所述目标任务领域对应的目标语料集合，以供用户在所述目标语料集合中选择负样本，所述负样本用于训练待训练的语言模型。
103.可选地，所述目标预训练语言模型为gpt2模型。
104.可选地，所述目标预训练语言模型为多种尺寸的gpt2模型中的一种；
105.所述装置还包括选择模块，所述选择模块，用于：
106.确定设备中的处理器的处理性能，所述设备为用于对所述目标预训练语言模型进行微调训练的设备；
107.在所述多种尺寸的gpt2模型中，选择与所述处理性能相匹配的目标尺寸的gpt2模型。
108.可选地，所述生成模块33，用于：
109.通过训练后的gpt2模型，采用无条件文本生成的方式，生成所述目标任务领域对应的目标语料集合。
110.可选地，所述负样本包括困难样本。
111.可选地，所述训练模块32，用于：
112.通过所述样本语料集合，采用自回归的方式，对目标预训练语言模型进行微调训练。
113.图3所示装置可以执行前述图1至图2所示实施例中提供的样本获取方法，详细的执行过程和技术效果参见前述实施例中的描述，在此不再赘述。
114.在一个可能的设计中，上述图3所示样本获取装置的结构可实现为一电子设备，如图4所示，该电子设备可以包括：处理器91、存储器92。其中，所述存储器92上存储有可执行代码，当所述可执行代码被所述处理器91执行时，使所述处理器91至少可以实现如前述图1至图2所示实施例中提供的样本获取方法。
115.可选地，该电子设备中还可以包括通信接口93，用于与其他设备进行通信。
116.另外，本发明实施例提供了一种非暂时性机器可读存储介质，所述非暂时性机器
可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器至少可以实现如前述图1至图2所示实施例中提供的样本获取方法。
117.以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。
118.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
119.本发明实施例提供的样本获取方法可以由某种程序/软件来执行，该程序/软件可以由网络侧提供，前述实施例中提及的电子设备可以将该程序/软件下载到本地的非易失性存储介质中，并在其需要执行前述样本获取方法时，通过cpu将该程序/软件读取到内存中，进而由cpu执行该程序/软件以实现前述实施例中所提供的样本获取方法，执行过程可以参见前述图1至图2中的示意。
120.最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征：

1.一种样本获取方法，其特征在于，包括：获取目标任务领域对应的样本语料集合；通过所述样本语料集合，对目标预训练语言模型进行微调训练；通过训练后的目标预训练语言模型，生成所述目标任务领域对应的目标语料集合，以供用户在所述目标语料集合中选择负样本，所述负样本用于训练待训练的语言模型。2.根据权利要求1所述的方法，其特征在于，所述目标预训练语言模型为gpt2模型。3.根据权利要求2所述的方法，其特征在于，所述目标预训练语言模型为多种尺寸的gpt2模型中的一种；在对目标预训练语言模型进行微调训练之前，所述方法还包括：确定设备中的处理器的处理性能，所述设备为用于对所述目标预训练语言模型进行微调训练的设备；在所述多种尺寸的gpt2模型中，选择与所述处理性能相匹配的目标尺寸的gpt2模型。4.根据权利要求2所述的方法，其特征在于，所述通过训练后的目标预训练语言模型，生成所述目标任务领域对应的目标语料集合，包括：通过训练后的gpt2模型，采用无条件文本生成的方式，生成所述目标任务领域对应的目标语料集合。5.根据权利要求1所述的方法，其特征在于，所述负样本包括困难样本。6.根据权利要求1所述的方法，其特征在于，所述通过所述样本语料集合，对目标预训练语言模型进行微调训练，包括：通过所述样本语料集合，采用自回归的方式，对目标预训练语言模型进行微调训练。7.一种样本获取装置，其特征在于，包括：获取模块，用于获取目标任务领域对应的样本语料集合；训练模块，用于通过所述样本语料集合，对目标预训练语言模型进行微调训练；生成模块，用于通过训练后的目标预训练语言模型，生成所述目标任务领域对应的目标语料集合，以供用户在所述目标语料集合中选择负样本，所述负样本用于训练待训练的语言模型。8.根据权利要求7所述的装置，其特征在于，所述目标预训练语言模型为gpt2模型。9.一种电子设备，其特征在于，包括：存储器、处理器；其中，所述存储器上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1-6中任一项所述的样本获取方法。10.一种非暂时性机器可读存储介质，其特征在于，所述非暂时性机器可读存储介质上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1-6中任一项所述的样本获取方法。

技术总结

本发明实施例提供一种样本获取方法、装置、设备和存储介质，该方法包括：获取目标任务领域对应的样本语料集合；通过样本语料集合，对目标预训练语言模型进行微调训练；通过训练后的目标预训练语言模型，生成目标任务领域对应的目标语料集合，以供用户在目标语料集合中选择负样本，负样本用于训练待训练的语言模型。采用本发明，可以通过训练后的目标预训练语言模型自动生成目标任务领域对应的目标语料集合，目标语料集合中的语料数量是可以无限扩展的。目标预训练语言模型学习到了丰富的语言表达的形式，进而通过训练后的目标预训练语言模型自动生成的目标语料集合中的各语料是优质的。优质的。优质的。