『比较基因组学』直系同源基因寻找和基因家族扩张收缩分析

更新时间:2023-06-12 13:09:49 阅读: 评论:0

『⽐较基因组学』直系同源基因寻找和基因家族扩张收缩分析定义
直系同源基因 - Orthologous genes (or orthologs) are a particular class of homologous genes. They are found in different species and have diverged following the speciation of the species hosting them.
Therefore, orthologous genes in different species derive from a common ancestral gene found in the ancestor of tho species. Given their common origin, it is often the ca that orthologous genes have the same function in the different species, but exceptions are not rare. The best way to infer that genes from different species are orthologous is by reconstructing their evolutionary relationships using molecular phylogeny. Converly, becau orthologous genes evolve in parallel with the diversification of species, they are markers of choice for the reconstruction of the evolutionary history of species using molecular phylogeny。
参考连接--Encyclopedia of Astrobiology
基因家族扩张和收缩 - 基因家族(gene family),是来源于同⼀个祖先,由⼀个基因通过基因重复⽽产⽣两个或更多的拷贝⽽构成的⼀组基因,它们在结构和功能上具有明显的相似性,编码相似的蛋⽩质产物, 同⼀家族基因可以紧密排列在⼀起,形成⼀个基因簇,但多数时候,它们是分散在同⼀染⾊体的不同位置,或者存在于不同的染⾊体上的,各⾃具有不同的表达调控模式。
在基因组项⽬中,通常会选择⾃⼰要研究的物种和其近缘的物种通过⽐对来寻找基因家族。通常我们有两种⽅式来得到基因家族:1 利⽤orthmcl软件进⾏blast⽐对,2将多条物种蛋⽩muscle⽐对之后,利⽤hmmer和pfam数据库⽐对,如果能⽐对上同⼀个蛋⽩质家族,认为这⼏条序列是⾪属于同⼀个基因家族。当然也可以两种⽅法结合起来做。我做项⽬过程中⼤多选择第⼀种,因此今天利⽤第⼀种得到的基因家族信息来介绍基因家族收缩和扩张。
参考连接 -- 基因家族收缩和扩张分析 强烈推荐看下。
软件安装
笔迹鉴定申请书Othofinder:
风险研判【Orthofinder】官⽅⽂档解读 不建议从conda装
关于开学的黑板报服务器安装orthofinder填坑⽇记
注意各个依赖软件的版本,在config.json中调整相应的命令。⽐如可以⽤iqtree调整相应参数达到快速建树的⽬的:
"cmd_line": "iqtree -s INPUT -pre PATH/IDENTIFIER -m MFP -bb 1000 -bnni -redo -nt AUTO > /dev/null", 可以⽤iqtree的超快最⼤似⾃然法。--IQ-TREE的使⽤ - 超快速⽤极⼤似然法构建进化树
梦的诗句
Cafe
conda install -c bioconda cafe
r8s
mac下载Download r8s vers. 1.81解压。
直接运⾏会报错,内容⼤概是缺少gfortran
fortran被集成在gcc中,⽽macOS本⾝不提供gcc⽽是clang。所以需要重新安装gfortran,尝试过⽤brew安装,好像没效果。
去gfortran-github下载gfortran-8.2-Mojave.dmg,然后安装
痕痕>跳水鱼linux下解压后make⼀下,我在服务器上不是root⽤户,编译起来⽐较⿇烦,也报了很多错,最后放弃了....安装⽅法参考基因家族扩张与收缩分析及物种进化树构建(上)
qkit
conda install -c bioconda qkit -y
直系同源分析
准备⼯作:发面最快的方法
确定需要选择的物种,这些物种在进化上具有层级关系,推荐从⽂献中获得。
通过查找⽂献,各种数据库寻找这些物种的相关的基因组测序数据。(genome,cds,pep,gff)
不含isoform的蛋⽩序列⽂件。
原始的pep.fa
原始的gff
设置⼯作⽬录
使⽤TBtools制作不含isoform的蛋⽩质序列⽂件
⽹上有各⾊各样的脚本,但是不同机构提供的gff⽂件⼜五花⼋门,有⼀定⼏率出问题。⽬前我⽤的最 ,最⽅便的肯定是TBtools中的Sequence Toolkit。这⾥也详细写下⽅法。⽐较准确,也没有什么操作上的门槛。
男生宿舍那些事如果在phytozome(需要注册账号)下载蛋⽩序列,直接下载类似葡萄的Vvinifera_457_v2.1.protein_这种包含primaryTranscriptOnly的蛋⽩序列。
如果是⾃⼰测序的或者其他数据库中的蛋⽩序列,很可能存在可变剪接体的存在⽐如Gh.A05G000220.1和Gh.A05G000220.2这种,这些isoform会⼲扰最后的结果,这⾥⽤TBtools的quence toolkits中的⼀些⼩⼯具来提取Primary Transcript
提取代表性转录本ID
orth2.jpg
必须要初始化。
fasta header pattern match意思是序列标识,如果看过fasta⽂件,知道每条序列上⾯都有类似> Gh.A01G000020这种,有的⼈在做序列⽂件的时候会加上序列的物理位置,注释等,如果有这些东西,需要勾选只匹配header。
orthofinder
将没有isoform的蛋⽩质序列放在你准备好的⼯作⽬录下。
检查下orthofinder以及依赖是否装好了。
⼀切就绪后运⾏:

本文发布于:2023-06-12 13:09:49,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/89/1035171.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:基因   序列   物种
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图