群体结构分析软件admixture安装及使⽤经验
1. 软件下载及安装admixture:
使⽤conda进⾏软件安装
conda install admixture
姐姐要爱
2. VCF⽂件格式转换为bed格式⽂件(似乎admixture 可以直接识别ped/map⽂件格式的输⼊⽂件)
vcf⽂件转为ped⽂件:
⽅法1:
使⽤vcftools⽀持将vcf⽂件转换成plink对应的ped/map格式,如下天然精油
vcftools --vcf input.vcf --plink --out output适合两个人玩的游戏
⽅法2:
plink⽀持直接读取vcf⽂件格式,基本⽤法如下:
plink --vcf input.vcf --recode --out output
map⽂件 染⾊体编号为数字, 未知为0SNP名称为字符或数字, 如果不重要, 可以从1编号, 注意要和bed⽂件SNP列⼀⼀对应染⾊体的摩尔未知(可选项, 可以⽤0)SNP物理坐标
重要! 因为转换成的ped和map⽂件⽆法匹配,需要⼿动更改上⼀步转换好的map⽂件
map数据格式为四列:
使⽤plink将ped/map转换为⼆进制的bed⽂件,命令⾏如下:
plink --file inputfile --make-bed --out filename
第⼀个FILENAME的后缀为.ped和.map,⽣成的第⼆个FILENAME的后缀为.bed、.bim、.fam
3. plink提取指定样本和指定SNP的数据(keep,extract函数
plink --bfile inputfile --noweb -- --recode --make-bed --out fileout
inputfile为不加.bed后缀的bed⽂件
仄怎么读其中,第⼀列为提取的样本Family ID,第⼆列为Within-family ID(IID)
plink提取SNP位点:
plink --bfile file -- --make-bed --out snp
其中,的⽂件格式如下,⼀个SNP位点⼀⾏:
rs1
rs2
rs3
4. 如何选择合适的K值
可以同时运⾏多个程序, 每个程序不同的k值, ⽐如, 想要k值选择1,2,3,4,5, 可以写为:
for K in 1 2 3 4 5; do admixture --cv hapmap3.bed $K | tee log${K}.out; done
例⼦:
for K in 1 2 3 4 5 6 7 8 9 10 11 12; do admixture --cv 10729bed2.bed $K | tee log${K}.out; done 多线
程: admixture hapmap3.bed 3 -j 4
使⽤grep命令去查看*out⽂件的cv error(交叉验证的误差)值:
grep -h CV *.out
结果如下:(这个K值显⽰是否有误?应该从第⼀开始分别是K=1,2,3依次往下)
读书的故事作文
对这个K值出现这样的情况?为何K10开始,个⼈觉得这个K值显⽰有误,应该从第⼀开始分别是K=1,2,3依次往下
5. 绘制Q值的百分⽐柱状图
使⽤R语⾔
ta1 = read.table("D:/files.3.Q")
head(ta1)
小儿感冒
barplot(t(as.matrix(ta1)),col = rainbow(3),
xlab = "Individual",乌龟图片大全
ylab = "Ancestry",
border = NA)
————————————————————————————————————————————
本⽂部分分析步骤参考了CSDN博主「育种数据分析之放飞⾃我」的原创⽂章,遵循CC 4.0 BY-SA版权协议,转载请附上原⽂出处链接及本声明。
>鲁滨逊漂流记好书推荐