什么是泛基因组?
为什么我们要开展泛基因组测序?技术路线
组装技术对⽐应⽤
parachute什么意思rasim泛基因组近年来的研究⼼得分享
但总体来说,泛基因组都基本可以发到⾄少6分以上甚⾄像最近接近40分的期刊。在通读了最近两篇Nature的⽂章,我根据个⼈经验,总结这两篇⽂章的⼀些亮点(Gordon, Contreras-Moreira et al. 2017, Zhao, Feng et al. 2018)。新视野大学英语2课文翻译
1.验证!再说⼀次验证!
我发现这两篇nature⽂章都有⼀个共同的特点,处处都在验证。从⼀开始的de novo asmbly结果,作者就将⾃⼰使⽤的asmbly泛基因组的⽅法,⽤于asmbly ref raw data。通过对⽐,⾃⼰asmbly出来的 ref 和已经发表的 ref genome 的asmbly,rice的那篇⽂章更加有⽤到BAC对其中⼀个有代表性的line进⾏验证,从⽽证明所⽤的asmbly的结果是精准的。然后到annotation,通过对⽐⾃⼰做出来的gene annotation 和已经发表的gene annotation。再加上⽐对不同lines之前annotation的结果,验证所⽤annotation⽅法的准确率。然后同样到PAV 和SNP calling的结果,都是环环相接,结
果和认证都不漏。
2.寻找独特的切⼊点
这点我相信是每⼀篇⽂章最重要的⼀部分。rice 那篇泛基因组,通过独特的视⾓,对rice 的domestication 和 introgression 进⾏研究。然后对某些特别的SNPs进⾏深⼊的挖掘,这都是为什么这篇⽂章可以脱颖⽽出的原因。然后就是Brachypodim distachyon这⽂章。其亮点就是它不单对non-TE genes进⾏了研究,也从TE 的⾓度解析了为啥Brachypodim distachyon 会有独特的PAV pattern。我觉得这点可以值得所有同⾏学习。repeat quences 中TE等⽚段确实值得再深⼊发掘。然后这篇⽂章也试图将core gene 和variable gene 进⾏更加深层的分组。确实可以提供更加深层的视⾓研究variable gene,但个⼈感觉也有点将问题复杂化了⼀些。
厦门翻译core gene clusters contained all lines, including the softcore gene clusters contained 53–55 lines (95–98%); shell gene clusters contained 3–52 lines (5–94%); and cloud gene clusters contained 1 or 2 lines (2–5%)
总结
有效的对每⼀个⼩步骤反复认证是⼀篇好的泛基因组⽂章的前提,要不然其他⼈会质问你的结果的可
信度,究竟你的结果是真的还是因为使⽤⼯具的异同造成的。另外,在泛基因组pipeline ⽐较成熟的情况下,寻找有意义感兴趣的⽣物学问题,对你的结果进⾏解析也是发好⽂章成功的关键。diplomatic
本次分享就到这,由于⽂章⽐较多,这次是对这些⽂章概述的⼀个总结。后⾯我将会重点⽐较不同⽂章中所使⽤的研究⽅法,然后再⽐较⼀下不同作物PAV和SNPS之间的异同
回顾14年⼤⾖泛基因组图谱构建
Background
⼤⾖是世界⾷⽤油和植物蛋⽩质的重要来源,也是⽣物燃料潜在的原材料,在世界农业经济贸易中占有重要地位。近年来,我国乃⾄世界⼤⾖育种难以取得突破性的进展、单产停滞不前,主要原因是⽬前⼤⾖品种的遗传基础狭窄,匮乏的基因源成为制约栽培⼤⾖育种研究的关键。野⽣⼤⾖具有较强的抗逆性和繁殖能⼒,是栽培⼤⾖重要的基因资源。相⽐于重测序研究,多个个体的泛基因组测序可以更加全⾯的检测物种内部的遗传变异,且可获得各样本的共有和特有基因集,结合各样本的表型差异可为进⼀步挖掘重要的农艺性状基因提供基础,对改良⼤⾖品质,提⾼对病⾍害的抗性及对不良环境与⽓候变化的适应性具有重要意义。
Results
都是⽐较常规的操作,可以直接模仿。
1. 基因组⼤⼩:7株野⽣⼤⾖基因组最⼩为889.33Mb,最⼤为1118.34Mb,分别为栽培⼤⾖
基因组的93.6%和117.7%,这种区别⼀定程度上为重复序列含量不同导致;
2. 基因组组装和注释:7株野⽣⼤⾖基因组组装结果contig N50约7.7~26.6 kb,scaffold
N50约16.3~62.7kb,平均每个基因组注释出55,570个基因,其中85~90%的基因为全长基因。
3. 泛基因组构建:对7个从头组装的野⽣⼤⾖基因组进⾏⽐较,发现7个野⽣⼤⾖中共有
59080个基因家族(pan-genome);48.6%的基因家族为7个野⽣⼤⾖共享(core-
direct是什么意思genome),剩余51.4%的基因家族则仅存在于个别样本中。
in turn
4. 变异检测及注释:以栽培⼤⾖基因组为参考,通过全基因组⽐对的⽅法,7株野⽣⼤⾖分
别鉴定出SNP 3.6~{4.7}{M},其中{0.12}~{0.15}{M}位于编码区;{I}{n}{D}{e}{l}{0.50}-{0.77} {M},{2989}~{4181}个导致了移码;⼤量的变异位点({44}~53%)为重测序⼿段未能识别出的新位点。
5. 进化分析:分歧时间分析表明野⽣⼤⾖与栽培⼤⾖的祖先约在80万年前即发⽣了分化;对
howtobehavewell栽培⼤⾖、野⽣⼤⾖分别进⾏正选择分析,发现栽培⼤⾖受选择的基因多与抗旱有关,可能由⼈⼯选择导致;⽽野⽣⼤⾖中受选择基因则⾮常多样化,每个不同地理区域来源的野⽣⼤⾖都有不同类型的基因受到正选择。
6. 农艺性状基因定位:鉴定出⼤量与抗逆、抗病、花期、产油量和⾼度等重要农艺性状相关try
基因和变异,例如14号染⾊体上⼀段8kb的⽚段与野⽣⼤⾖抗逆和植物发育相关,野⽣⼤⾖和栽培⼤⾖开花时间的差异与开花时间调控基因SNP和InDel变异有关;
M ethods
三年级英语上册教案重点需要关注的地⽅,能否进⾏类似study的关键
实验材料:
7株亚洲地区代表性野⽣⼤⾖品种。对每株⼤⾖构建180bp、500bp和2kb插⼊⽚段⽂库,采⽤Iluumina Hiq2000平台PE100测序,平均测序深度为112X.。
De novo asmbly
⾸先使⽤ Meryl 和applied GCE ⽣成⼀系列的长度为 17 kmer的⽚段⽤以估算每个de novo asmbly的⼤⼩。ALLPATHS-LG 和SOAPdenovo,⽤于修正 calling errors进⼀步增长对应的reads。GapClor ⽤于gap filling 进⽽进⾏asmbly。⽣成的contings中,⽤BLAST⽐对到相应的数据库,如果有哪个contigs中的hints显⽰identity ≥95% and e-value ≤1e-5 ⽐对到细菌的genome上,对其进⾏过滤。
Genomic alignment and short read mapping
将每⼀个de novol asmbly ⽐对到ref上,使⽤ ( NUCmer maxmatch -c 90 -l 40)。⽐对结果进⼀步的帅选,使⽤delta-filter。每⼀个line 的short reads ⽐对到ref上,使⽤BWA,然后去重复⽚段,使⽤SAMtools。