1、待分析数据文件的编辑
可新建文本文件并命名为project_data,以文本编辑的方式编辑数列:
第一列:样品代码,每一样品占两行,每一行为其一个基因型,如样品1的基因型为AA,样品2的基因型为AT,样品3的基因型为TT,则编辑为:baohan
1 1
1 1
射手天秤
2 1
2 2
3 2
3 2起什么网名好听
如果有多个等位基因,可以按1,2,3,4,5等顺序编码各样品的基因型;
第二列:人群代码,即第一群人的代码全为1,第二群人的代码全为2,第三群人的代码全为3;
第三列:位点1的分型结果。如上所述,如果有2个等位基因,可用1、2代表;如果有多个等位基因,可分别以1,2,3,4,5等代表;
第四列:位点2的分型结果。编码方法同上。
2、打开Structure软件,选择File-->OPEN DATA FILE-->选中所编辑好的打他data文件,查看格式、数据,如有修改应保存退出;
狗得细小3、选择File-->NEW PROJECT-->STEP 1-->命名Project Name-->选择存放路径-->选择保存过的待分析文件;
4、STEP 2-->填入待分析样品数量,如220-->Ploidy of data即选择单倍体或二倍体,选2-->Number of loci,选位点个数-->MiMissing data value,一般选-9;
5、STEP 3-->依次选择row of marker names, row of recessive alleles, map distance between loci, pha information等,没有就不选;最下面,如果没有data file stores data for individuals in a single line就不选;
6、STEP 4-->Individual ID for each individual(选择) ,putative population origin for each individual(选择),USEPOPINFO lection flag(不选),Phenotype information(不选),other extra colum
n(不选)以及number of extra column(不选);
7、点击“Finish”;Proceed;
8、点击Parameter t-->new-->length of burnin peroid (填写10000)-->Number of MCMC Reps after burnin (填写10000);
9、Ancestry Models,Allele frequency model,Advanced等均选Default tting; enter the name: 输入名字,运行完毕将产生一个由该名字命名的文件夹以保存运算结果和绘图。
10、点击“Start a job”,单击选中命名的文件夹名称,设置K从2到7等,其它不选,点击Start。
11、点击“Plotting”,选择刚才命名job的名字,result file选择run_1, run_2等,即可看到聚类的三角图形。
12、注意:运行完毕后产生的以“job名字”命名的文件夹中自动含有project_data文件,其内容与最初编辑的project_data文件完全一致,故原编辑的project_data文件可以删去。
柱形图绘制软件Distruct使用指南
当Structure软件运行完毕获得结果后,往往需要以CLUMPP或distruct软件绘制柱形图。distruct用法如下:
1、从d.umich.edu/distruct.html下载并解压缩Distruct 1.1压缩包,可以看到含7个以casia为名的文件及5个名字字首为distruct的文件,还有一
个drawparams的文件和一个颜色文件夹;
2、运行casia.postscript文件,应该能产生一个含9个群体柱形图的casia.pdf文件,这表明系统及软件正常;
3、打开casia.popq和casia.indivq将其原内容清空并置换为前述Structure软件运行后所产生的_run_1_f文件的内容(拷贝并粘贴),其中_run_1_f文件同时含有individual和population两者的数据。以Word打开casia.indivq文件,将_run_1_f文件后半部分的内容自“Inferred ancestry of individuals”行以下的数据拷贝并粘贴到casia.indivq文件中,全部替换原来的210行数据;以Excel打开casia.popq文件,将_run_1_f文件前半部分含有“Proportion of membership of each pre-defined population in each of the 3 clusters”的行下面的数据拷贝并粘贴到casia.popq中,并替换原来的内容(K=3是可变的!)。新产生的内容注意仍然保持原来210行数据的那种格式。
4、打开casia.languages文件,将原内容
“50 Indo-European
51 Dravidian
57 Indo-European
59 Indo-European
58 Indo-European
52 Linguistic isolate
54 Indo-European
629 Altaic
699 Altaic
56 Indo-European”
替换为现内容
“1 CEU
2 CHB
3 YRI”;
保存为原格式;
5、打开casia.names文件,将原内容
"50 Balochi
51 Brahui
57 Makrani
59 Sindhi
蓝天碧海58 Pathan
52 Burusho
54 Hazara
629 Uygur
699 Yakut素描画像
56 Kalash"
替换为现内容
"1 CEU
2 CHB日本明治大学
3 YRI"
保存为原格式;
6、打开casia.perm文件,将原内容
"5 yellOw
4 Pink
1 Red
2 green手机电话录音
3 blue_Purple"
中的4、5颜色删去,并保存为原格式;
7、以文本格式打开drawparams文件,将drawparams文件中的
#define K 5 // (int) number of clusters
#define NUMPOPS 9 // (int) number of pre-defined populations
#define NUMINDS 210 // (int) number of individuals
中的5,9,210改为3,3,220,并保存;
8、将原distruct1.1文件夹中的casia_f文件删去,将_run_1_f文件整个拷贝并粘贴到解压缩后获得的distruct1.1文件夹中,重命名为casia_f;
9、运行distruct1.1文件夹中的distructWindows1.1应用程序,将修改导入Windows系统;
10、点击casia.postscript文件即可产生casia.pdf文件,这便是所需的结果。