推荐厂家
暂无
暂无
听说蛋白酶解肽段二级质谱图可以通过de novo方法测序,请问,除了手工解析,用哪些软件可以快速鉴定辅助解析
蛋白测序和质谱的区别
[align=center][b][font=宋体]利用[/font][font='Times New Roman']MGI[/font][font=宋体]平台对大豆进行全基因组重测序分析[/font][/b][/align][b][font=宋体]摘要[/font][/b][font=宋体][font=宋体]:本研究建立了[/font][font=Times New Roman]MGI[/font][font=宋体]平台全基因重测序的方法。[/font][font=Times New Roman]MGI[/font][font=宋体]平台对大豆的全基因进行重测序结果显示,测序数据质量良好,且与参考基因组比对率较高,符合后续分析要求,对其进行[/font][font=Times New Roman]SNP[/font][font=宋体]和[/font][font=Times New Roman]Indel[/font][font=宋体]的变异检测和注释,此结果说明今后可利用[/font][font=Times New Roman]MGI[/font][font=宋体]平台对其它样品进行全基因重测序分析。[/font][/font][b][font=宋体]关键词[/font][/b][font=宋体][font=宋体]:[/font][font=Times New Roman]MGI[/font][font=宋体]平台;全基因重测序[/font][/font][align=center][font='Times New Roman']Whole genome resequencing analysis of soybeans using the MGI platform[/font][/align][b][font='Times New Roman']Abstract:[/font][font=宋体] [/font][/b][font=宋体][font=Times New Roman]In this study, a method for whole gene resequencing on the MGI platform was established. The results of resequencing the whole genes of soybean by MGI platform showed that the sequencing data was of good quality and had a high comparison rate with the reference genome, which met the requirements of subsequent analysis, and the variation detection and annotation of SNP and Indel were carried out, which indicated that the MGI platform could be used to perform whole gene resequencing analysis on other samples in the future.[/font][/font][b][font='Times New Roman']Keywords:[/font][font=宋体] [/font][/b][font=宋体][font=Times New Roman]MGI platform Whole gene resequencing[/font][/font][font='Times New Roman'] [/font][b][font='Times New Roman']1 [font=宋体]研究背景[/font][/font][/b][font='Times New Roman'][font=宋体]大豆是重要的粮食作物和油料作物,也是人类最主要的植物蛋白来源[/font][/font][font=宋体][font=Times New Roman][1][/font][/font][font=宋体][font=宋体]。我国是野生大豆的发源地,有着极其丰富的大豆种质资源基础,但是育种和产量较其他大豆主产国显得略有不足,究其原因是我国对大豆的研究和发掘力度存在不足,因此,对大豆育成品种的改良势在必行。自[/font][font=Times New Roman]2010[/font][font=宋体]年起,大豆群体水平的重测序也全面开展,在大豆的全基因组变异图谱上也得到了一定的研究进展[/font][/font][font=宋体][font=Times New Roman][2][/font][/font][font=宋体][font=宋体]。本研究利用[/font][font=Times New Roman]MGI[/font][font=宋体]平台对大豆全基因组进行重测序分析,挖掘全基因组水平上的突变。[/font][/font][b][font=宋体][font=Times New Roman]2 [/font][font=宋体]实验仪器[/font][/font][/b][font=宋体]主要实验仪器:[/font][font=宋体][font=Times New Roman]MGISP-960[/font][font=宋体]、[/font][font=Times New Roman]MGIDL-T7[/font][font=宋体]、[/font][font=Times New Roman]DNBSEQ-T7[/font][/font][b][font=宋体][font=Times New Roman]3 [/font][font=宋体]实验结果[/font][/font][font=宋体][font=Times New Roman]3.1 [/font][font=宋体]测序数据质量[/font][/font][/b][font=宋体][font=宋体]根据[/font][font=Times New Roman]MGI[/font][font=宋体]平台的测序特点,使用双端测序的数据,要求[/font][font=Times New Roman]Q30[/font][font=宋体]平均比例在[/font][font=Times New Roman]85%[/font][font=宋体]以上,可以看出大豆重测序数据[/font][font=Times New Roman]Q30[/font][font=宋体]平均比例在[/font][font=Times New Roman]94.72%[/font][font=宋体]以上,说明大豆测序数据质量良好,满足分析要求。[/font][/font][font='Times New Roman'] [/font][font='Times New Roman'] [/font][b][font=黑体][font=黑体]表[/font][font=Times New Roman]1 [/font][font=黑体]测序数据统计表[/font][/font][/b][table][tr][td][align=center][font='Times New Roman']Samples[/font][/align][/td][td][align=center][font='Times New Roman']ID[/font][/align][/td][td][align=center][font='Times New Roman']Clean reads[/font][/align][/td][td][align=center][font='Times New Roman']Clean bases[/font][/align][/td][td][align=center][font='Times New Roman']GC Content[/font][/align][/td][td][align=center][font='Times New Roman']%[/font][font=等线]≥[/font][font='Times New Roman']Q20[/font][/align][/td][td][align=center][font='Times New Roman']%[/font][font=等线]≥[/font][font='Times New Roman']Q30[/font][/align][/td][/tr][tr][td][align=center][font='Times New Roman']P117[/font][/align][/td][td][align=center][font='Times New Roman']P117[/font][/align][/td][td][align=center][font='Times New Roman']169494922[/font][/align][/td][td][align=center][font='Times New Roman']25424238300[/font][/align][/td][td][align=center][font='Times New Roman']36.18%[/font][/align][/td][td][align=center][font='Times New Roman']98.49%[/font][/align][/td][td][align=center][font='Times New Roman']95.27%[/font][/align][/td][/tr][tr][td][align=center][font='Times New Roman']P118[/font][/align][/td][td][align=center][font='Times New Roman']P118[/font][/align][/td][td][align=center][font='Times New Roman']166483906[/font][/align][/td][td][align=center][font='Times New Roman']24972585900[/font][/align][/td][td][align=center][font='Times New Roman']36.47%[/font][/align][/td][td][align=center][font='Times New Roman']98.61%[/font][/align][/td][td][align=center][font='Times New Roman']95.70%[/font][/align][/td][/tr][tr][td][align=center][font='Times New Roman']P119[/font][/align][/td][td][align=center][font='Times New Roman']P119[/font][/align][/td][td][align=center][font='Times New Roman']186127112[/font][/align][/td][td][align=center][font='Times New Roman']27919066800[/font][/align][/td][td][align=center][font='Times New Roman']35.89%[/font][/align][/td][td][align=center][font='Times New Roman']98.57%[/font][/align][/td][td][align=center][font='Times New Roman']95.61%[/font][/align][/td][/tr][tr][td][align=center][font='Times New Roman']P120[/font][/align][/td][td][align=center][font='Times New Roman']P120[/font][/align][/td][td][align=center][font='Times New Roman']192397276[/font][/align][/td][td][align=center][font='Times New Roman']28859591400[/font][/align][/td][td][align=center][font='Times New Roman']36.46%[/font][/align][/td][td][align=center][font='Times New Roman']98.22%[/font][/align][/td][td][align=center][font='Times New Roman']94.72%[/font][/align][/td][/tr][tr][td][align=center][font='Times New Roman']P198[/font][/align][/td][td][align=center][font='Times New Roman']P198[/font][/align][/td][td][align=center][font='Times New Roman']141636468[/font][/align][/td][td][align=center][font='Times New Roman']21245470200[/font][/align][/td][td][align=center][font='Times New Roman']37.11%[/font][/align][/td][td][align=center][font='Times New Roman']98.67%[/font][/align][/td][td][align=center][font='Times New Roman']95.84%[/font][/align][/td][/tr][tr][td][align=center][font='Times New Roman']P199[/font][/align][/td][td][align=center][font='Times New Roman']P199[/font][/align][/td][td][align=center][font='Times New Roman']169468714[/font][/align][/td][td][align=center][font='Times New Roman']25420307100[/font][/align][/td][td][align=center][font='Times New Roman']36.55%[/font][/align][/td][td][align=center][font='Times New Roman']98.60%[/font][/align][/td][td][align=center][font='Times New Roman']95.66%[/font][/align][/td][/tr][tr][td][align=center][font='Times New Roman']P200[/font][/align][/td][td][align=center][font='Times New Roman']P200[/font][/align][/td][td][align=center][font='Times New Roman']155078286[/font][/align][/td][td][align=center][font='Times New Roman']23261742900[/font][/align][/td][td][align=center][font='Times New Roman']37.90%[/font][/align][/td][td][align=center][font='Times New Roman']98.77%[/font][/align][/td][td][align=center][font='Times New Roman']96.14%[/font][/align][/td][/tr][/table][font=Calibri] [/font][font=宋体][font=宋体]样品原始数据碱基质量值可由图[/font][font=Times New Roman]1[/font][font=宋体]看出不存在异常碱基,[/font][font=Times New Roman]6[/font][font=宋体]个大豆碱基测序错误率分布均如图[/font][font=Times New Roman]1[/font][font=宋体]。[/font][/font][align=center][img=,321,]file:///C:/Users/xuxu/AppData/Local/Temp/ksohtml9716/wps1.jpg[/img][font=Calibri] [/font][/align][align=center][b][font=黑体][font=黑体]图[/font] [font=Times New Roman]1 [/font][font=黑体]碱基测序错误率分布图[/font][/font][/b][/align][font=宋体][font=宋体]碱基类型分布检查可用于检测有无[/font][font=Times New Roman]AT[/font][font=宋体]、[/font][font=Times New Roman]GC[/font][font=宋体]分离现象,若有碱基分离现象可能是测序或建库所带来的,并会影响后续分析。高通量所测序为基因组随即打断后的[/font][font=Times New Roman]DNA[/font][font=宋体]片段,由于位点在基因组上的分布是近似均匀的,同时,[/font][font=Times New Roman]G/C[/font][font=宋体]、[/font][font=Times New Roman]A/T[/font][font=宋体]含量也是近似均匀的。因此,根据大数定理,在每个测序循环上,[/font][font=Times New Roman]GC[/font][font=宋体]、[/font][font=Times New Roman]AT[/font][font=宋体]含量应当分别相等,且等于基因组的[/font][font=Times New Roman]GC[/font][font=宋体]、[/font][font=Times New Roman]AT[/font][font=宋体]含量。同样因为重叠等的关系会导致样品前几个碱基[/font][font=Times New Roman]AT[/font][font=宋体]、[/font][font=Times New Roman]GC[/font][font=宋体]不等波动较大,高于其他测序区段,而其它区段的[/font][font=Times New Roman]GC[/font][font=宋体]、[/font][font=Times New Roman]AT[/font][font=宋体]含量相等,且分布均匀无分离现象,如图[/font][font=Times New Roman]2[/font][font=宋体]所示。[/font][/font][align=center][img=,321,]file:///C:/Users/xuxu/AppData/Local/Temp/ksohtml9716/wps2.jpg[/img][font=Calibri] [/font][/align][b][font=黑体][font=黑体]图[/font][font=Times New Roman]2 ATGC[/font][font=黑体]含量分布图[/font][/font][font=宋体][font=Times New Roman]3.2 [/font][font=宋体]与参考基因组的序列比对[/font][/font][font='Times New Roman']3.2.1 [font=宋体]比对结果[/font][/font][/b][font=宋体][font=宋体]将测序得到的大豆样品与参考基因进行序列比对,[/font][font=Times New Roman]bwa[/font][font=宋体]软件主要用于二代高通量测序得到的短序列与参考基因组进行比对,比对结果见表[/font][font=Times New Roman]2[/font][font=宋体],根据比对结果可评估测序数据是否满足后续分析。[/font][/font][align=center][b][font=黑体][font=黑体]表[/font][font=Times New Roman]2 [/font][font=黑体]比对效率统计表[/font][/font][/b][/align][table][tr][td][align=center][font='Times New Roman']Sample_ID[/font][/align][/td][td][align=center][font='Times New Roman']Mapped(%)[/font][/align][/td][td][align=center][font='Times New Roman']Properly_mapped(%)[/font][/align][/td][td][align=center][font='Times New Roman']Averge_depth[/font][/align][/td][/tr][tr][td][align=center][font='Times New Roman']P117[/font][/align][/td][td][align=center][font='Times New Roman']99.99%[/font][/align][/td][td][align=center][font='Times New Roman']98.53%[/font][/align][/td][td][align=center][font='Times New Roman']25.44[/font][/align][/td][/tr][tr][td][align=center][font='Times New Roman']P118[/font][/align][/td][td][align=center][font='Times New Roman']99.99%[/font][/align][/td][td][align=center][font='Times New Roman']98.55%[/font][/align][/td][td][align=center][font='Times New Roman']24.9[/font][/align][/td][/tr][tr][td][align=center][font='Times New Roman']P119[/font][/align][/td][td][align=center][font='Times New Roman']99.99%[/font][/align][/td][td][align=center][font='Times New Roman']98.63%[/font][/align][/td][td][align=center][font='Times New Roman']27.75[/font][/align][/td][/tr][tr][td][align=center][font='Times New Roman']P120[/font][/align][/td][td][align=center][font='Times New Roman']99.98%[/font][/align][/td][td][align=center][font='Times New Roman']98.28%[/font][/align][/td][td][align=center][font='Times New Roman']28.58[/font][/align][/td][/tr][tr][td][align=center][font='Times New Roman']P198[/font][/align][/td][td][align=center][font='Times New Roman']99.99%[/font][/align][/td][td][align=center][font='Times New Roman']98.58%[/font][/align][/td][td][align=center][font='Times New Roman']21.26[/font][/align][/td][/tr][tr][td][align=center][font='Times New Roman']P199[/font][/align][/td][td][align=center][font='Times New Roman']99.98%[/font][/align][/td][td][align=center][font='Times New Roman']98.50%[/font][/align][/td][td][align=center][font='Times New Roman']25[/font][/align][/td][/tr][tr][td][align=center][font='Times New Roman']P200[/font][/align][/td][td][align=center][font='Times New Roman']99.99%[/font][/align][/td][td][align=center][font='Times New Roman']98.13%[/font][/align][/td][td][align=center][font='Times New Roman']23.13[/font][/align][/td][/tr][/table][font=宋体][font=宋体]将比对到不同染色体的[/font][font=Times New Roman]Reads[/font][font=宋体]进行位置分布统计,绘制[/font][font=Times New Roman]Mapped Reads[/font][font=宋体]在参考基因组上的覆盖深度分布图,见图[/font][font=Times New Roman]3[/font][font=宋体]。[/font][/font][align=center][img=,321,]file:///C:/Users/xuxu/AppData/Local/Temp/ksohtml9716/wps3.jpg[/img][font=Calibri] [/font][/align][align=center][b][font=黑体][font=黑体]图[/font][font=Times New Roman]3 Mapped Reads[/font][font=黑体]在参考基因组上的位置及覆盖深度分布图[/font][/font][/b][/align][font=宋体][font=宋体]统计[/font][font=Times New Roman]Mapped Reads[/font][font=宋体]在指定的参考基因组不同区域的数目,绘制基因组不同区域样品[/font][font=Times New Roman]Mapped Reads[/font][font=宋体]的分布图,见图[/font][font=Times New Roman]4[/font][/font][align=center][img=,321,]file:///C:/Users/xuxu/AppData/Local/Temp/ksohtml9716/wps4.jpg[/img][font=Calibri] [/font][/align][b][font=黑体][font=黑体]图[/font][font=Times New Roman]4 [/font][font=黑体]基因组不同区域[/font][font=Times New Roman]Reads[/font][font=黑体]分布图[/font][/font][font=宋体][font=Times New Roman]3.2.2 [/font][font=宋体]插入片段长度检验[/font][/font][/b][font=宋体][font=宋体]通过检测双端序列在参考基因组上的起止位置,可以得到样品[/font][font=Times New Roman]DNA[/font][font=宋体]打断后得到的测序片段的实际大小,即插入片段大小([/font][font=Times New Roman]Insert Size[/font][font=宋体]),它是信息分析时的一个重要参数。插入片段大小的分布一般符合正态分布,且只有一个单峰,[/font][font=Times New Roman]Insert Size[/font][font=宋体]分布图可以展示各个样品的插入片段的长度分布情况。各样品的插入片段长度模拟分布图见图[/font][font=Times New Roman]5[/font][font=宋体]。[/font][/font][align=center][img=,321,]file:///C:/Users/xuxu/AppData/Local/Temp/ksohtml9716/wps5.jpg[/img][font=Calibri] [/font][/align][align=center][b][font=黑体][font=黑体]图[/font][font=Times New Roman]5 [/font][font=黑体]插入片段长度模拟图[/font][/font][/b][/align][b][font=宋体][font=Times New Roman]3.2.3[/font][/font][font='Times New Roman'][font=宋体]深度分布统计图[/font][/font][/b][font='Times New Roman']Reads[font=宋体]定位到参考基因组后,可以统计参考基因组上碱基的覆盖情况。参考基因组上被[/font][font=Times New Roman]reads[/font][font=宋体]覆盖到的碱基数占基因组的百分比称为基因组覆盖度;碱基上覆盖的[/font][font=Times New Roman]reads[/font][font=宋体]数为覆盖深度。基因组覆盖度可以反映参考基因组上变异检测的完整性,覆盖到的区域越多,可以检测到的变异位点也越多。[/font][/font][font='Times New Roman'][font=宋体]覆盖度主要受测序深度以及样品与参考基因组亲缘关系远近的影响。基因组的覆盖深度会影响变异检测的准确性,在覆盖深度较高的区域(非重复序列区),变异检测的准确性也越高。[/font][/font][font='Times New Roman'][font=宋体]另外,若基因组上碱基的覆盖深度分布较均匀,也说明测序随机性较好。样品的碱基覆盖深度分布曲线和覆盖度分布曲线见图[/font][/font][font=宋体][font=Times New Roman]6[/font][font=宋体]。[/font][/font][align=center][img=,321,]file:///C:/Users/xuxu/AppData/Local/Temp/ksohtml9716/wps6.jpg[/img][font=Calibri] [/font][/align][align=center][b][font=黑体][font=黑体]图[/font] [font=Times New Roman]6 [/font][font=黑体]深度分布统计图[/font][/font][/b][/align][b][font=宋体][font=Times New Roman]3.3 [/font][font=宋体]变异检测[/font][/font][font=宋体][font=Times New Roman]3.3.1 SNP[/font][font=宋体]检测与注释[/font][/font][/b][font='Times New Roman'][font=宋体]根据变异位点在参考基因组上的位置以及参考基因组上的基因位置信息,可以得到变异位点在基因组发生的区域(基因间区、基因区或[/font]CDS[font=宋体]区等),以及变异产生的影响(同义非同义突变等)。软件可以使用[/font][font=Times New Roman]vcf[/font][font=宋体]格式文件作为输入和输[/font][/font][font=宋体][font=宋体]出,见图[/font][font=Times New Roman]7[/font][font=宋体]和图[/font][font=Times New Roman]8[/font][font=宋体]。[/font][/font][align=center][img=,321,]file:///C:/Users/xuxu/AppData/Local/Temp/ksohtml9716/wps7.jpg[/img][font=Calibri] [/font][/align][align=center][b][font=黑体][font=黑体]图[/font][font=Times New Roman]7 SNP[/font][font=黑体]突变类型分布图[/font][/font][/b][/align][align=center][img=,344,]file:///C:/Users/xuxu/AppData/Local/Temp/ksohtml9716/wps8.jpg[/img][font=Calibri] [/font][/align][b][font=黑体][font=黑体]图[/font][font=Times New Roman]8 SNP[/font][font=黑体]注释分类图[/font][/font][font=宋体][font=Times New Roman]3.3.2 Indel[/font][font=宋体]检测与注释[/font][/font][/b][font=宋体][font=宋体]根据所有样品在[/font][font=Times New Roman]CDS[/font][font=宋体]区和全基因范围的[/font][font=Times New Roman]Indel[/font][font=宋体]长度进行统计,其长度分布如图[/font][font=Times New Roman]9[/font][font=宋体]。[/font][/font][align=center][img=,355,]file:///C:/Users/xuxu/AppData/Local/Temp/ksohtml9716/wps9.jpg[/img][font=Calibri] [/font][/align][align=center][b][font=黑体][font=黑体]图[/font][font=Times New Roman]9 [/font][font=黑体]全基因和编码区[/font][font=Times New Roman]Indel[/font][font=黑体]长度分布图[/font][/font][/b][/align][font='Times New Roman'][font=宋体]根据样品检测得到的[/font]Ind[/font][font=宋体][font=Times New Roman]el[/font][/font][font='Times New Roman'][font=宋体]位点在参考基因组上的位置信息,对比参考基因组的基因、[/font]CDS[font=宋体]位置等信息,可以注释[/font][font=Times New Roman]Indel[/font][font=宋体]位点是否发生在基因间区、基因区或[/font][font=Times New Roman]CDS[/font][font=宋体]区、是否为移码突变等。发生移码突变的[/font][font=Times New Roman]Indel[/font][font=宋体]可能会导致基因功能的改变,具体注释结果见[/font][/font][font=宋体][font=宋体]图[/font][font=Times New Roman]10[/font][font=宋体]。[/font][/font][align=center][img=,344,]file:///C:/Users/xuxu/AppData/Local/Temp/ksohtml9716/wps10.jpg[/img][font=Calibri] [/font][/align][align=center][b][font=黑体][font=黑体]图[/font] [font=Times New Roman]10 Indel [/font][font=黑体]注释分类图[/font][/font][/b][/align][b][font=宋体][font=Times New Roman]4 [/font][font=宋体]结论[/font][/font][/b][font=宋体][font=宋体]本文基于[/font][font=Times New Roman]MGI[/font][font=宋体]对大豆进行重基因测序,实验结果可看出,大豆样品测序产出数据良好,与参考基因组序列比对率较高,符合后续分析,对其进行变异检测可得到[/font][font=Times New Roman]SNP[/font][font=宋体]和[/font][font=Times New Roman]Indel[/font][font=宋体]的结果。其它研究表明[/font][/font][font=宋体][font=Times New Roman]MGISEQ-2000[/font][font=宋体]全基因组重测序表现性能稳定、质量可靠,在实际应用上有明显的优势和应用价值[/font][font=Times New Roman][3][/font][font=宋体]。对[/font][/font][font=宋体][font=宋体]本次实验说明[/font][font=Times New Roman]MGI[/font][font=宋体]平台对样品进行重测序效果良好,后续可对其它植物进行重测序。[/font][/font][font=宋体] [/font][font=宋体] [/font][font=宋体]参考文献:[/font][font=宋体][font=Calibri][1] [/font][/font][font='Times New Roman'][font=宋体]张永芳[/font],[font=宋体]钱肖娜[/font][font=Times New Roman],[/font][font=宋体]王润梅[/font][/font][font=宋体][font=Times New Roman],[/font][font=宋体]等[/font][font=Times New Roman]. [/font][font=宋体]不同大豆材料的抗旱性鉴定及耐旱品种筛选[/font][font=Times New Roman][J].[/font][font=宋体]作物杂志[/font][font=Times New Roman],2019(5): 41-45.[/font][/font][font=宋体][font=Calibri][2] [/font][font=宋体]邬启帆[/font][font=Calibri]. [/font][font=宋体]基于基因组重测序黄淮海大豆育成品种遗传结构及重要家族遗传基础研究[/font][font=Calibri][D]. [/font][font=宋体]南昌[/font][/font][font=宋体][font=宋体]大学[/font][font=Times New Roman], 2023.[/font][/font][font=宋体][font=Calibri][3] [/font][/font][font=宋体][font=宋体]李伟宁[/font][font=Times New Roman],[/font][font=宋体]刘刚[/font][font=Times New Roman],[/font][font=宋体]周荣等[/font][font=Times New Roman]. MGISEQ-2000[/font][font=宋体]、[/font][font=Times New Roman]HiSeq 2000[/font][font=宋体]与[/font][font=Times New Roman]NovaSeq 6000[/font][font=宋体]平台全基因组重测序数据的比较分析[/font][font=Times New Roman][J]. [/font][font=宋体]中国畜牧杂志[/font][font=Times New Roman],2021,57(11):156-162.[/font][/font]