前言

2021年5月16日,中国农业科学院大麻研究所刘透明研究员与上海欧意生物医学科技有限公司合作,在线发表青叶苎麻基因组及群体研究科研成果植物杂志(IF=6.141)。 文章的标题是“基因组分析为韧皮纤维草(Boehmeria nivea)的驯化提供了全面的见解”。 刘透明研究员为通讯作者,中国农业科学院大麻研究所王彦洲副研究员、博士生李福、硕士生何巧云和上海欧意生物医药科技有限公司鲍志贵为共同通讯作者。第一作者。 董、张婷和王恒云也参与了这项研究。 上海欧益生物科技为本研究的数据分析提供了全面的服务。

纤维作物种植技术要点_纤维作物种植条件_纤维作物种植/

概括

苎麻(Boehmeria nivea)是一种具有重要经济意义的天然纤维作物,在中国已有数千年的种植历史,然而,这种作物的进化仍不清楚。 在这里,我们报告了基于栽培和野生材料的基因组组装和重测序的苎麻驯化分析。 我们分别从头组装了野生苎麻和栽培苎麻的两个染色体水平基因组。 两个基因组之间的大量结构变异,以及群体重测序产生的遗传变异,构成了苎麻基因组变异图谱。 群体多样性分析发现,186 个假定的驯化清除位点包含 1238 个预测基因,其中 92 个与纤维生长有关。 此外,我们在两个基因组杂交的分离群体中确定了七个与纤维产量性状相关的遗传位点,其中五个与选择性清除位点重叠。 这些结果表明,在苎麻的驯化过程中,韧皮纤维性状相对集中。 该研究对苎麻的驯化具有一定的指导意义,为苎麻生物学和育种研究提供了宝贵的资源。

研究背景

作为最重要的可再生资源之一,植物纤维广泛应用于造纸工业以及各种纺织品和复合材料的制造。 韧皮纤维、种子毛状体的棉纤维和木材的木质部纤维是人类使用的三种最重要的纤维类型。 从植物茎皮中提取的韧皮纤维长期以来一直用于生产纺织品。 尽管韧皮纤维作物的特点是茎皮富含纤维,但它们几乎没有进化关系,目前还不清楚这些作物产生的韧皮纤维是否经历了趋同进化。 最近对几种韧皮纤维作物(包括亚麻、黄麻和红麻)的基因组报告为探索这些作物中韧皮纤维的形成和进化提供了机会。

苎麻(Boehmeria nivea)是中国最古老、最重要的纤维作物之一,已有4700多年的栽培历史。 苎麻纤维具有许多优异的性能,例如长纤维链有时可达55厘米,这使得苎麻纤维成为研究植物细胞伸长和细胞壁形成的有用模型。 尽管重叠群水平的基因组组装可用于苎麻,但与苎麻物种形成和性状多样化相关的进化动力学背后的遗传和分子基础尚不清楚。 分类学、遗传和分子生​​物学证据表明,栽培苎麻是从野生苎麻(Boehmeria niveavar.tenacissima)驯化而来的。

在这里,我们从头组装了栽培苎麻及其野生物种的高质量基因组,并对栽培和野生物种进行了重新测序,以探索苎麻驯化过程。 该研究结果为人们对苎麻的进化提供了全面的认识,两个高质量的基因组组装和大规模基因组变异数据为未来苎麻生物学和育种研究提供了宝贵的资源。

研究成果

1. 基因组组装和注释

分别利用Nanopore和PacBio的三代测序、Hi-C测序和Illumina测序数据对野生种“青叶苎麻”和优良栽培品种“中吉苎麻1号”进行从头组装,获得270.2 Mb野生苎麻基因组和 266.0 Mb 野生苎麻基因组。 对于栽培苎麻基因组,重叠群 N50 分别为 10.51 Mb(野生物种)和 2.33 Mb(栽培物种)。 通过Hi-C组装,97%的野生苎麻序列和93%的栽培苎麻序列被安装在相应的基因组上(图1a),支架N50分别为19.55 Mb和17.80 Mb。 基因组共线性分析表明,两个组装体具有良好的共线性,平均同源性百分比为96.4 -97.0%(图1b)。 BUSCO评估显示,两个基因组的组装完整性均为96.9%(表1)。

我们结合从头注释、同源数据库和转录组分析方法对蛋白质编码基因进行注释,从野生物种基因组和栽培物种基因组中分别鉴定了20,693和19,498个预测基因,对应的转录预测分别为34,657(野生)和36,099(栽培) )。 此外,从野生物种中预测出1176个非编码RNA和112.7Mb重复序列(占基因组的45.5%); 从栽培物种中预测出 1126 个非编码 RNA 和 117.1 Mb 重复序列(占基因组的 44.3%)。 )。 长末端重复序列(LTR)和DNA反转录转座子是两种最丰富的重复序列类型,分别占野生物种基因组的40.5%和栽培物种基因组的39.1%。 值得注意的是,由于苎麻的所有染色体都是近端着丝粒,我们观察到重复序列聚集并分布在染色体的一端(图1a)。 利用LTR组装指数(LAI)进一步评估基因组完整性,发现野生种基因组达到黄金水平(LAI=23.38),栽培种基因组达到参考水平(LAI=19.28) )。

纤维作物种植条件_纤维作物种植_纤维作物种植技术要点/

2. 苎麻基因组进化

苎麻属于蔷薇科荨麻科,是具有组装基因组的荨麻科成员。 因此,苎麻作为荨麻科植物的基因组成员,对于研究蔷薇科植物的系统发育具有重要意义。 通过分析10个物种(其中8个蔷薇科)基因组中的2578个单拷贝同源基因,我们发现苎麻与蔷薇科野草莓(F. vesca)和枣树密切相关。枣 (Z. jujuba) 鼠李科 (Rhamnaceae) 属。 ) 和 (C. sativa) 分别在大约 89.0、75.1 和 7510 万年前 (MYA) 出现分歧。 苎麻和白花苎麻是桑科植物的代表种,它们属于单系分支,具有最密切的进化关系,拥有约4870万年前的共同祖先。 进一步的基因组比较分析表明,苎麻和桑树基因组具有良好的共线性(图1d)。

大枣(Z. jujuba)和榕树(F.ecta)的基因组分别有12条和13条染色体,而桑树和苎麻有14条染色体。 因此,我们通过鉴定基因组中的共线模块来探索这些蔷薇科物种的核型进化。 结果表明,在进化过程中,从蔷薇科(枣树)的早期进化种到苎麻、桑树、榕树3种的祖先,9条染色体(1~4、6、7、9号染色体)到11)基本保持完整,其他3条染色体(1、8、12)分裂融合,形成苎麻、桑树、榕树基因组中的5条染色体。 随后,这14个祖先物种的染色体被完整地保留在桑树和苎麻的基因组中,而在榕树的基因组中,原始物种的两条染色体进一步融合,导致只剩下13条染色体(图1d)。 )。 全基因组复制(WGD)事件是驱动基因组进化和扩展的主要因素之一。 在苎麻中,仅检测到一个古老的六倍体化事件,并且没有检测到最近的 WGD 事件。

纤维作物种植_纤维作物种植条件_纤维作物种植技术要点/

图1:苎麻基因组的基本特征和进化。 a,两个基因组的表征。 i代表染色体长度,ii-iv分别代表每条染色体中DNA转座子、LTR和基因的密度。 v和vi分别代表基因表达水平和LTR组装指数。 每层的外层和内层分别代表野生物种和栽培物种的组装数据。 b,野生物种和栽培物种基因组之间的共线性分析。 c,由苎麻和其他九个双子叶植物物种构建的系统发育树。 d,苎麻、桑树、榕树和枣树核型的进化比较。

3. 基因扩增

苎麻、棉花、亚麻、黄麻和洋麻提供了几乎所有用于纺织品的天然纤维。 这六种纤维作物来自锦葵科(棉花、黄麻和红麻)、亚麻科(亚麻)和蔷薇科(苎麻)的三个不同的系统发育分支(图2a)。 为了深入了解这些作物中纤维形成相关基因家族的进化,我们研究了 14 个物种的基因组扩展事件,包括所有感兴趣的纤维作物中的 6 种、它们的 7 种近亲和 1 个外群物种葡萄树 (V . 葡萄树)。 在 14 个物种中总共鉴定了 18,624 个基因家族。 基因家族进化计算分析表明,苎麻基因组中仅有473个基因家族扩增,而棉花、红麻、黄麻、亚麻和亚麻籽分别有1664个和6957个基因家族。 、1,287 和 8,985 个基因家族得到扩展(图 2)。

拟南芥中至少报道了120个与纤维形成相关的基因,涉及85个同源基因家族。 有趣的是,与不产纤维的密切相关物种的基因组相比,亚麻(362 个基因)、棉花(396 个基因)和红麻(545 个基因)基因组中这 85 个直系同源家族的基因数量显着较低。 显着上升。 然而,苎麻、苎麻(179)和黄麻(178)基因组中与纤维形成相关的同源基因总数没有显着差异(图2b)。 我们进一步研究了这 85 个科在 6 种纤维作物中的扩展,发现红麻、亚麻和棉花中分别有 56、57 和 10 个科发生了基因组扩展,而在苎麻和黄麻基因组中,只有 4 个和 3 个与纤维形成相关家庭被证明在扩大(图2c)。 值得注意的是,在与纤维形成相关的 85 个直系同源家族中,除了 OG0000720 之外,所有家族在所研究的 6 个基因组中的 5 个基因组中都有普遍的扩增,所有这些家族都处于不超过 3 个基因组的中等扩增中(图 2c)。 因此,我们的结果表明,六种主要纤维作物之间纤维形成相关基因家族的扩展进化存在明显差异。

纤维作物种植_纤维作物种植条件_纤维作物种植技术要点/

图2:六种主要纤维作物的纤维形成相关同源序列比较。 a,6种纤维作物和7个密切相关物种的同源基因扩张和收缩分析,其中葡萄(V vinifera)作为系统发育树的外群。 b,13种植物中同时纤维形成涉及转录调控(TR)、纤维素生物合成(CB)、木质素生物合成(LB)、半纤维素生物合成(HB)和次生壁图案沉积(PDSW)。 源基因数量统计及比较。 c,六种纤维作物中同源基因家族的扩展。

4. 野生种与栽培种基因组比较

我们比较了野生和栽培苎麻的基因组,以确定两个基因组之间的共同和独特基因。 总共鉴定了 13,090 个共享基因家族,1276 个野生物种基因组特有的基因家族,1068 个栽培物种基因组特有的基因家族。 由于物种特异性基因与物种形成和性状多样化相关,因此我们通过途径富集分析提供了独特基因功能的概述。 结果表明,野生苎麻特有基因“RNA聚合酶”(ko03020)显着富集,而栽培苎麻特有基因则显着富集“植物激素信号转导”(ko04075)和“光合作用”(ko00195)等基因。 4 个通道)。 通过比较野生苎麻和栽培苎麻基因组序列的差异,我们鉴定了2,103,335个SNP和626,958个InDels(图3a)。 在这些变体中,编码区的 89,610 个(4.26%)SNP 和 13,007 个(2.07%)插入缺失被注释为对编码的蛋白质有影响。

结构变异(SV)在作物改良和驯化过程中农艺性状的遗传决定中发挥着关键作用。 我们检查了两个基因组之间的 SV,发现了 5,687 个 PAV、3,700 个 CNV、1880 个倒位和 1162 个易位事件。 最大的 SV 出现在 4 号染色体上(野生物种基因组中约为 1.86 Mb),由两个倒位组成(图 3b)。 SV总共包含38个基因,其中3个基因(Bnt04G005505、Bnt04G005508、Bnt04G005520)在纤维发育过程中在树皮中表现出差异表达。 纤维素合酶(CesA)是纤维中纤维素生物合成的重要酶。 有趣的是,我们发现在品种基因组中,1号染色体相邻区域的倒位易位导致了154.7 kb的重复,从而导致了该区域CesA基因的重复(图3c)。 PAV变异基因的富集分析表明,这些基因在“玉米素生物合成”途径(ko00908)和“植物-病原体相互作用”途径(ko04626)中显着富集。 因此,这些SV对栽培苎麻的性状改良具有潜在影响。

纤维作物种植技术要点_纤维作物种植_纤维作物种植条件/

图 3:野生和栽培物种基因组之间的变异。 a,两个基因组的特性分布。 i-iii分别代表基因、SNP和InDels的密度; iv-vi 分别表示 PAV、重复和倒位/易位的分布; v中的橙色线和蓝色线分别代表野生物种和栽培物种基因组中的重复序列; vi 中的线分别代表倒置和易位。 b,结构变异最大的第4号染色体,在野生物种基因组中长度为1.86 Mb,包含两个倒位。 c,在品种基因组的1号染色体上发现了携带CesA基因的1540.7 kb重复。

5. 基因组变异和种群结构

苎麻种质存在广泛的表型多样性(图4a),表明存在广泛的遗传变异。 利用Illumina测序技术对60个苎麻材料(包括46个品种和14个野生材料)进行重测序,探究苎麻的遗传变异。 总共生成约316.1 Gb的高质量干净读段,平均覆盖深度约18.3倍,苎麻基因组覆盖率为95.7%。 将这些读数映射到苎麻基因组后,鉴定出 6,802,591 个高质量 SNP 和 898,252 个小插入缺失,平均每 kb 有 25.2 个 SNP 和 3.3 个插入缺失。 其中,944,126个SNP和31,783个插入缺失位于编码区,4,439个SNP和2,077个插入缺失位于剪接位点受体或供体,表明它们对相应基因的功能具有潜在影响。 这些数据为开展苎麻生物学、遗传学和育种研究提供了新的资源。

然后根据系统发育、贝叶斯聚类和主成分分析 (PCA) 推断种群结构。 结果表明,野生物种和栽培物种材料可以分为两个不同的组(图4b-d)。 然而,两组之间的平均固定指数(FST)仅为0.118,表明野生苎麻和栽培苎麻的基因组没有显着差异。 结果表明,栽培类群的核苷酸多样性(π = 0.00693)高于野生类群(π = 0.00618)。 此外,我们观察到品种中连锁不平衡(LD)的衰减速度明显更快(0.9 kb,r2 = 0.144),进一步支持了栽培苎麻的广泛多样性。

纤维作物种植条件_纤维作物种植技术要点_纤维作物种植/

图4:苎麻种质群体结构。 a,野生苎麻(W)和栽培苎麻(C)的形态比较。 b、60种材料的PCA结果。 c,系统发育树。 确定了两个基本进化枝。 分支I进一步分为两个主要分支,野生苎麻群(野生)和栽培苎麻群1(CR1),而进化枝II由栽培苎麻群CR2组成。 d,基于模型的聚类分析(k = 2-5)。

6. 驯服苎麻以提高产量

在农业发展过程中,人们常常从野生植物中选择性状优良的作物,例如茎长而宽、韧皮纤维丰富的苎麻个体(图4a)。 为了确定苎麻驯化过程中可能的选择指标,我们使用50 kb滑动窗口比较野生苎麻基因组和栽培苎麻基因组,并筛选出核酸多态性急剧下降的基因组区域(图5a)。 最终,我们发现了 71 个高置信度驯化清除区域,覆盖了组装基因组的 1.61% (4.35 Mb),包含 320 个预测基因。 最大的选定区域 (250 kb) 位于 13 号染色体上。

与野生苎麻相比,栽培品种的纤维产量显着提高(图4a)。 为了识别可能被选择的潜在纤维生长相关基因,我们对茎顶部(次生壁尚未形成)和茎中部(其中次生壁尚未形成)的树皮样本的基因组表达谱进行了表征和比较。次生壁开始增厚),鉴定出1,758个差异表达基因,这些基因在与成纤维细胞次生壁生物合成相关的GO中显着富集,例如细胞壁生物合成(GO:0042546)、细胞壁(GO:0005618)和木聚糖生物合成过程(GO:0045492)。 在这些差异表达基因中,有29个位于驯化清除区域,其中包括NAC蛋白编码基因Bnt08G012573。 Bnt08G012573 是拟南芥 NST1/NST2 的同源蛋白。 NST1/NST2的主要功能是调节次生壁的生物合成。 反式激活分析和亚细胞定位进一步证实Bnt08G012573是转录因子。 Bnt08G012573的过表达显着增加了拟南芥茎中韧皮部纤维的数量(图5b)。

此外,为了鉴定可能与纤维产量性状相关的驯化位点,我们将野生种“青叶苎麻”和栽培种“中实竹1号”两个新组装的种质资源进行杂交,构建了110个F2单独群体。 该群体共鉴定出446,329个SNP,并对其与纤维产量性状的关联进行分析,最终发现涉及7个区域的54个相关SNP,其中2个(qFY5和qFY6)与驯化清除区域重叠(图5a) )。 在 5 号染色体上与纤维产量相关的 SNP 位点 qFY5 附近检测到 LOD 峰(图 5c),表明 qFY5 位点的可信度。 此外,我们在驯化清除区域发现了一个与qFY5重叠的生长素响应基因(Bnt05G007931)(图5d),进一步分析F2分离群体的表型数据,发现F2代的纤维产量Bnt05G007931野生等位基因在F2代中显着低于栽培等位基因和杂合等位基因(图5e)。 Bnt05G007931基因主要在茎和根中表达,但野生苎麻和栽培苎麻之间的表达差异不显着。 此外,与未启动次生壁生长的茎皮组织相比,该基因的表达在具有纤维发育的韧皮部组织中显着上调(图5f)。 综上所述,结果表明 Bnt05G007931 是 qFY5 的合理候选者。

纤维是最长的植物细胞之一,纤维伸长率对其性能有重要影响。 此外,茎长是决定苎麻纤维产量的重要因素之一,栽培苎麻与野生苎麻之间存在明显差异(图4a)。 赤霉素在促进纤维细胞和茎的伸长方面发挥着关键作用。 在本研究中,我们在栽培苎麻中检测到四个编码赤霉素代谢酶的基因,其核苷酸多样性显着降低,其中包括两个连续重复的GA2ox基因,BntGA2ox1(Bnt13G019022)和BntGA2ox2(Bnt13G019023)。 GA2ox是使活性GA分子失活的主要酶,顶茎的树皮纤维迅速伸长。 我们发现BntGA2ox1和BntGA2ox2在顶部茎的树皮中表达量较低(图5g),表明这两个GA2ox基因参与调节韧皮部纤维伸长。 比较栽培苎麻和野生苎麻的基因组,揭示了 BntGA2ox1 基因区域的广泛差异,包括品种基因组中插入了 11.7 kb(图 2,共 6 个外显子)。栽培苎麻中 BntGA2ox1 多样性显着降低(图 5i),该区域显示出栽培物种和野生物种基因组之间的显着差异。

综上所述,我们的研究结果表明,与纤维生产相关的大量基因组区域/基因经历了显着的选择,表明纤维生产是苎麻驯化过程中选择的重点。

纤维作物种植技术要点_纤维作物种植_纤维作物种植条件/

图5:苎麻纤维产量的驯化。 a,14条染色体的选择指标。 b、过表达bnt08g012573的拟南芥(i)和野生型拟南芥(ii)茎组织横截面的显微镜观察。 c,使用 F2 群体的关联分析在 5 号染色体上检测到 qFY5。 d,生长素响应基因Bnt05G007931所在的5号染色体区域的核苷酸多样性(π)和Fst值在12.0和14.0 Mb之间的分布。 e,野生种(W)、杂合子(H)和栽培种(C)的F2后代的纤维产量值。 f,Bnt05G007931在顶部茎组织(TPS)和中部茎组织(MPS)树皮中的表达。 g,BntGA2ox1和BntGA2ox2在TPS和MPS的树皮中的表达。 h,BntGA2ox1 中的 11.7 kb 插入序列导致基因结构发生变化。 i,10号染色体区域12.0和14.0 Mb之间的核苷酸多样性(π)和Fst值的分布,其中两个GA2ox基因(BntGA2ox1和BntGA2ox2)位于这个清除的区域。

分析结论

本研究对野生苎麻和栽培苎麻的黄金级和参考级基因组进行了重新组装。 根据BUSCO和LAI的评估和端粒搜索,本研究组装的基因组序列是连续且完整的,这为寻找可靠的变异提供了机会。 基于这两个高质量基因组,我们鉴定了许多变异,包括对重要基因功能具有潜在影响的SV,其中一些变异在栽培苎麻中表现出多样性显着下降,例如GA2ox基因BntGA2ox1(具有11.7 kb-PAV)栽培苎麻与野生苎麻有明显的区别。 由于GA2氧化酶的主要功能是灭活活性GA分子,本研究从基因表达、序列变异和分化数据三个方面的证据有力地支持了BntGA2ox1在纤维长度驯化过程中发挥重要作用的可能性。 该研究结果为苎麻驯化提供了全面的认识,两个高质量基因组连同全基因组变异和大量野生等位基因为未来苎麻生物学和育种研究提供了宝贵的资源。

编者注

欧仪生物动植物基因组研究团队为客户提供基因组从头、重测序(WGS)、全外显子捕获测序(WES)、BSA测序、群体进化、GWAS等优质测序分析服务,凭借多年的经验积累,多元化的项目技术服务,多组学技术平台的联合支持,着力打造一站式服务。

作者 admin