如何制作SDTMDefine-1.指导原则
指导原则: Metadata Submission Guidelines v1.0
本⽂以下提到的例⼦可下载于CDISC官⽹ - Metadata Submission Guideline (MSG) for SDTMIG
Study Data Tabulation Model Metadata Submission Guidelines (SDTM-MSG) V1.0 - Section 3: l中介绍了关于l提交的标准, 翻译如下(⾮专业翻译,如有歧义, 以英⽂原版为准)美色飘香
3.1 简介
× Datat-level元数据,通常指的是⽬录(Table of Content, Section 3.2)
× Variable-level元数据,通常指的是数据定义表(Data Definition Tables, Section 3.3)
× Value-level元数据(Section 3.4)
× 控制术语表,通常指的是Codelists(Section 3.5)
× 呈现xml⽂件的样式表(Stylesheet, Section 3.6)主题公园英语
× l schema validation(Section 3.7)
3.2 Datat-Level元数据
Datat-level元数据提供了sdtm⽂件夹下关于每个数据集的基本信息。元数据的格式由l说明预先定义。 "ItemGroupDef"元素在提交中被提供给每个SDTM数据集。 每个"ItemGroupDef"元素包含"ItemRef"元素的集合,这些"ItemRef"元素与SDTM数据集中的变量相关联。 SDTM variable-level元数据在"ItemDef"元素中进⾏描述。详见CRT-DDS。
对于数据集中没有观测的情况(例如,⼀个⼩型试验中没有伴随⽤药的受试者),空的数据集不应被提交,也不应在l中进⾏描述。参见Section 4.1.1中关于如何对这种情况做注释的信息(译注:Section 4.1.1的翻译内容参见)
3.2.1 组织
所有制表数据集,包括CDISC标准和sponsor定义的数据集, 必须包含在datat-level元数据中,并且应当按SDTM类组织。在
米酒煮鸡蛋
推荐的SDTM类的排序⽅式为淅沥
Trial design datats
special-purpo domains
intervention domains
events domains
findings domains
relationship datats次开头成语
3.2.2 内容
datat-level元数据的结构由l的框架和说明预先定义。格式的呈现⽅式由sponsor选择的样式表定义。在没有发布指导的情况下,sponsor需要决定呈现哪种元数据属性。
鼻子山根
def:Class
域的类别暗⽰了预定义的变量的集合,并且有助于数据的审阅和检验
def:Structure
结构的描述应当与数据集⼀致,并且可以与SDTMIG中的描述不同。
def:DomainKeys
如Table3.2.2.1所⽰,keys的主要⽬的是唯⼀识别数据集中的观测。keys相当于审阅者的助⼿,⽅便他们理解数据集的结构和排序。但是,不要求keys必须反映提交数据集的排序。
在材料中提供的提交范例中的keys仅作为例⼦,sponsor应当根据偏好和实际需要来设置数据集的keys。对于受试者相关数据,前两个keys通常为STUDYID和USUBJID。这些keys后⾯经常接主题变量和时间变量,可能是--term,--dtc(对于Event和Intervention域)或者--testcd,visitnum,--tptnum(对于findings域)。
3.3 Variable-Level元数据
Variable-Level元数据包含每个数据集中每个变量的属性。在l中,每个变量由"ItemDef"元素表⽰,该元素⽤来描述对应变量的元数据。详见CRT-DDS。
标准化的数据集,⽐如Findings General Obrvation Class和SUPPQUAL数据集,由value-level元数据进⼀步描述。详见3.4节
3.3.1 组织
每个在datatlevel元数据(l "ItemGroupDef")中列出的数据集都会有关联的variable-level元数据(l "ItemDef")。样式表中应当提供从在datat-level元数据中列出的“Description”列到variable-level元数据中每个数据集的超链接。
在样式表⽣成的结果中,variable-level表中数据集的列出顺序应当与datat-level元数据表中数据集的顺序⼀致。在样式表中,这⼀规则由“ItermGroupDef"和包含的”ItemRef"的嵌套循环来保证。参见样式表(define2-0-0.xsl)中关于该规则如何实现的说明。
每个数据集中的变量(在l体现为"ItemGroupDef"中的"ItemRef")必须根据SDTMIG Section 4.1.1.4中指定的顺序排序。样式表应当保证能够维护该排序。另外,l中变量的顺序和数据集中变量的顺序必须是相同的。
3.3.2 内容
variable-level元数据的内容在l框架和说明中预先定义。相关的样式表提供的展⽰的格式。
在l说明中,ItemRef和ItemDef描述了variable-level的元数据。ItemRef列出了数据集中的变量,并且列出了在每个数据集中的变量顺序,⾓⾊和是否强制。ItemDef描述了变量的属性,如标签,数据类型,长度,来源。这种结构使得像STUDYID和USUBJID之类的通⽤变量,只需定义⼀次,但是可以在所有数据集中使⽤。
Variable-Level元数据包含以下项⽬
Type:
Type指的是提交变量的数据类型。最终提以XML的形式交给FDA数据,Type会反映XML的数据类型;但是,当前的数据是包含在SAS transport file中。l和SAS data类型之间的对应关系在Table3.3.2.1中有描述。对于数值型变量,可能包含整型(integer)和浮点型(float),浮点型数据应当制定⾜够的长度和精度来适应整个数据结果
Controlled Terms or Formats:
Controlled terms必须在l中的codelist部分指定。在define中controlled terms列链接到table of terms。由于与变量相关联的控制术语表通过codelist定义, 不推荐将格式⽬录作为提交材料的⼀部分。因此,外部的SAS格式不应当应⽤到SDTM的变量中。注意到关联到数值列表的变量(如VSTESTCD,QNAM)⼀般不会与codelist关联,这是因为所有可能的数值列表是由数值列表描述(??)
如果controlled terminology是基于外部字典(如MedDRA,WHODRUG),需要在define中加⼊外部字典部分的链接。
Origin:拜科努尔
SDTMIG中定义了多种origin的值。如果origin指定为“Derived”,那么或者在Comments field中指定导
香姜出的定义,或者参考computational method(def:ComputationMethod),或提供补充数据定义⽂档(def:SupplementalDoc)。
如果origin是aCRF中的页码,那么应当保证在样式表中设置关于aCRF中页码的超链接。如果⼀个form出现多次,那么只在origin field中列出第⼀次出现的情况。后续的页码不应列出。如果收集的变量或者预设信息在CRF做了注释,则origin必须是CRF。
Comments:
Comments主要⽤来定义数据的导出规则。 如果导出规则的叙述简单,可以直接将其放在Comments field中。如果叙述⽐较长,或者sponsor有偏好,可以选择在l "def:ComputationMethod"元素中描述导出规则,并且从l "ItemDef"中描述SDTM变量(l "def:ComputationMethodOID")。样式表应当保证⽣成从"Comments"列到"Computational Algorithms"的超链接。多个变量可以链接到同⼀个computational method。
如果对于⼀个域中的特定变量的导出规则叙述⽐较长,并且包括复杂的逻辑和图表,那么可以⽤Comments列来提供⼀个链接到独⽴PDF ⽂件的注释。这可以通过在样式表中搜索⽂本(如See Note xx)来实现,
3.4 Value-Level Metadata
标准化的SDTM Finding类数据和SUPP数据提供了⼀种⾼效的数据交换结构。 由于不同类型的观测值可能呈现在同⼀个结构中,从⽽有必要提供附加的元数据来描述数据集中数据的性质。⽐如, 如果VS数据集中收集了heart rate, weigth 以及 frame size, 其中heart rate是数值整数型,weight是数值浮点型,frame size是字符型。在审阅VS数据集的元数据时,这种差别不易被发现。 对于这种类型的标准化数据集,所有的--TESTCD以及每个--TESTCD对应结果的属性都应该被提供。对于⼀些情况,通过连接--TESTCD(如VSTESTC)可以获得⼀个完全列表,对于其他情况,则对于--TESTCD进⾏分层。详见下⽂讨论。 类似地, 对于SUPP数据集, 变量的列表(QNAM的值)以及它们的属性应当被提供。这⼀信息是“Value-level”的元数据,因为它的值是基于特定变量的值(--TESTC和QNAME的值)。 value-level元数据对于Findings Class和SUPP是必须的。对于Events和Interventions中的变量,value-level虽不是必须,但是⼗分有⽤。
value-level元数据的属性描述和variable-level元数据相同。 Name和Label属性列出所有可能的值和标签。 例如,在Finding Class数据集VS中, VSTESTCD的每⼀个可能的值都会被描述,并有对应VSTEST的值作为标签。对于SUPP数据集,QNAM的所有可能的值都会被描述,并有对应的QLABEL作为标签。