SV-GWAS:基于首个番茄超级泛基因组图谱的结构变异
? ? ? ?全基因组关联分析(GWAS)是定位性状相关基因的有力工具,被广泛用于识别影响表型变异的候选基因组位点。然而,通常GWAS的研究过程主要依赖于单核苷酸变异(SNPs)的信息与表型相关联,而忽略了具有更大表型效应大小的大片段SVs。尽管在基因组中SV的数量比SNP少得多,但SV涉及的碱基更多,影响到的基因组序列变化总数却远远大于SNP。因此,与序列多态性变异相比,结构变异可能对动植物基因组和遗传性状产生更大的影响。基于SV的GWAS分析也被广泛应用在玉米、黄瓜、葡萄、小麦、番茄等物种中。
? ? ? ?2023年4月7日,发表在Nature Genetics(IF=30.8)上的文章“Super-pangenome analyses highlight genomic diversity and structural variation across wild and cultivated tomato species”,组装了11个野生和栽培型番茄染色体级别高质量基因组,并构建了世界首个番茄的超级泛基因组,同时基于泛基因组谱图实现了-番茄SV-GWAS分析。该研究结果将加快番茄这一全球重要作物的生物学研究和育种。
技术方法概述
? ? ? ?本研究共收集了11个番茄品种(8个野生型品种,1个番茄近源野生种以及2个栽培型品种),基于PacBio、Bionano和Hi-C测序技术对11个番茄品种的基因组进行染色体水平的基因组组装,并构建了包含这11个番茄基因组的超级泛基因组,进行SV结构变异分析。
主要结果
01、番茄高质量基因组
? ? ? ?本研究组装了11个野生和栽培型番茄的染色体水平高质量基因组,BUSCO评分达到94.0%,这说明这些组装具有很高的完整性。通过转座子分析和系统发育树分析,研究发现11个番茄基因组中的TE含量在64.3%~74.5%之间,其中长末端重复逆转录转座子(LTR-RT)的含量最高。根据这些数据,番茄属的植物可以被划分为4个分支。
表111个番茄基因组的组装和注释
图1 野生番茄和驯化番茄的系统发育关系及基因组成分
02、番茄的超级泛基因组
? ? ? ? 本次研究构建了一个包含11个茄属物种的番茄超级泛基因组。通过聚类分析,本研究确定了40,457个泛基因家族,这些家族涵盖了11个染色体水平基因组的蛋白编码基因,以及之前公布的两个基因组。在捕获的已报道番茄泛基因组中的4,874个非内参基因中,有3,441个被纳入其中。此外,还鉴定出了已报道番茄泛基因组中缺失的9,320个非冗余基因。
? ? ? ? 通过对比基因组,在12个番茄基因组中发现了2.0-81.93亿个SNPs和60-150万个小InDels(≤50 bp),并在12个番茄种质中确定了103333个插入、119794个缺失、41960个CNVs、23516个易位和1320个逆序(长度< 1Mb)。在以前的研究已经找出的一些导致表型变异的SVs,在本研究中也被准确地检测到。与早期的番茄泛-SV图谱相比,在本研究中发现了180,314个独家鉴定的SVs,共有224,447个SVs。将本研究发现的SVs与泛-SV数据集整合(包括112个番茄种质)使得能够研究番茄进化过程中SVs的差异。将这112个品种分为四组后,发现绝大多数SVs在四组中的出现频率相对较低(小于0.25),并观察到8094个SVs在野生和栽培组之间存在显著的频率变化。功能分析显示,这些基因主要参与分生组织发育和铵转运等生物过程。此外,在野生番茄和栽培番茄之间进一步鉴定出了388个高度分化的SVs。
图2番茄的超级泛基因组及其结构变异
03、挖掘番茄中可增加产量的关键基因
? ? ? ?在野生番茄与栽培番茄之间,本研究发现了388个显著影响278个基因的SVs,其中一个244bp的缺失频率变化排名第二,位于Sgal12g015720基因的第一外显子中(图3a-b)。这个基因编码了一种属于细胞色素P450(CYP)超级家族(该家族在植物的生长、发育和次生代谢物生物合成中发挥着关键作用)的蛋白质。Sgal12g015720在野生番茄S.pennellii的茎中表达水平最高,但在两个栽培番茄品种中几乎检测不到其表达。这个244bp的缺失事件可能发生在番茄驯化过程中,导致栽培番茄中的Sgal12g015720基因假基因化,可能在番茄培育过程中与调控株型和产量有关。进一步的研究通过过表达实验分析证实了这一观点。
图3野生番茄细胞色素P450基因Sgal12g015720的鉴定
04、基于番茄SV的GWAS分析
? ? ? ? 本研究整合了S. galapagense线性参考基因组序列以及112个番茄基因组SV信息,构建了一个基于番茄图谱的基因组,然后对321个番茄群体中的SVs进行基因分型,并对32种风味相关化合物和362种果实代谢产物进行基于SV的GWAS分析。共检测到17种风味挥发物和249种果实代谢产物的显著相关信号。其中多种代谢物含量变化与SV显著相关(图4c)。同时,研究检测到与其他代谢物含量关联的SVs,携带相应SV等位基因的番茄种质显示这些代谢物的含量显著增加(图4d-f)。
图4 基于SV-GWAS识别了番茄果实风味的关联信号
总 结
? ? ? ?综上所述,本研究报道了9个野生品种和2个栽培品种的染色体水平的番茄基因组,并结合之前发布的两个基因组,阐明了番茄的系统发育,并构建了番茄的超级泛基因组。本研究揭示了番茄基因组的结构变异,并为番茄野生近亲缘植物之间的基因组多样性提供了参考,从而发现了一个具有提高现代栽培番茄产量潜力的野生番茄基因。基于图谱的基因组构建使基于SV的全基因组关联研究成为可能,识别出与番茄风味相关性状和果实代谢物相关的众多信号。
参考文献
Super-pangenome analyses highlight genomic diversity and structural variation across wild and cultivated tomato species. nature genetics, 2023.
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。 如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:veading@qq.com进行投诉反馈,一经查实,立即删除!