在这个时代,各行各业都对大数据痴迷,基因组学也不例外。也许,这源于一种与生俱来的需求,我们渴望了解遗传组成如何控制人类生活的方方面面。近日,Jeffrey S. Buguliskis博士在GEN网站上讨论了大数据带来的挑战。
Buguliskis认为,基因组学领域对信息的需求开始于二十年前,也就是芯片技术出现的时候。这是科学家第一次引入大规模的基因组数据集。当然,这仅仅是开始。2003年人类基因组计划的完成不仅让科学家去寻找更经济的方法进行测序,也进一步激发了他们分析大数据集的胃口。
短短数年,迅速发展的新一代测序(NGS)平台产生了呈指数增长的数据,比人们想象得更快速,也更经济。GenoSpace的COO Daniel Meyer谈道:“自2005年以来,测序成本已下降了四个数量级,而新技术让我们能够比以前更快地产生更多数据。随着数据生成接近商品化,最大的挑战已经转移到有效的分析和解释。”
的确,NGS提高了测序的速度,降低了测序的成本。然而,它并没有解决与数据采集有关的任何问题,不仅如此,它还大大增加了文件的大小。NGS的读长更短,就全基因组测序而言大约在50-100 bp,但读取数量惊人,大大超过传统的Sanger测序。此外,各个国际联盟也在开展规模宏大的项目,比如千人基因组计划,英国的10K计划,动辄产生PB级的数据。
Buguliskis认为,在许多方面,生命科学的大数据是基础设施的问题。大多数研究人员没有能力分析现代NGS平台产生的数据集。例如,对于读长100 bp和50倍覆盖度的外显子组测序运行,原始数据大约在1.-1.5 TB,而多次重复后的数据大约需要3-5 TB的存储空间。即使计算机存储器的价格在不断走低,但要有足够的硬盘空间去存储多次运行的数据也并非易事。
虽然数据采集和管理是许多机构关注的问题,但NGS要想成为精准医学的一部分,绊脚石可不止这些。有人认为,NGS的各个领域都需要标准化,才能成为临床医学中的强大工具。
此外,科学家也一直在寻找更轻松、更快速且更高效的分析方法。“我相信,云计算及通过高度可扩展的计算资源共同查找大数据的能力正对简化数据分析产生积极的影响,随着更多数据以及更广泛的分析程序迁移到云端,这种趋势将继续下去,”Illumina的副总裁Scott Kahn谈道。
同时,测序方面的进步也在间接地协助数据分析流,实现更加准确的读取比对,并开辟了新的研究方法。AllSeq的首席科学官Shawn Baker认为:“最有意思的事情是长读取。获得真正的长读取(>10 kb)将明显改善比对过程,实现单体型等过去不可能的新分析。长读取技术目前已上市,不过它与短读取平台相比要贵一到两个数量级。”
最后,作者也提到了第三代测序技术。这种方法跳过了DNA扩增,避免了PCR偏向,让遗传物质在单分子水平上直接测序。目前,只有几家公司提供这种测序平台,而且价格较高。
[来源:生物通]
2024.08.02
2024.07.31
全球首个农业领域DCS Lab落成!华智生物与华大智造携手共建!
2024.07.03
2024.06.26
2024.06.25
363项!市场监管总局印发2024年国家计量技术规范制修订计划
2024.06.14
版权与免责声明:
① 凡本网注明"来源:仪器信息网"的所有作品,版权均属于仪器信息网,未经本网授权不得转载、摘编或利用其它方式使用。已获本网授权的作品,应在授权范围内使用,并注明"来源:仪器信息网"。违者本网将追究相关法律责任。
② 本网凡注明"来源:xxx(非本网)"的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,且不承担此类作品侵权行为的直接责任及连带责任。如其他媒体、网站或个人从本网下载使用,必须保留本网注明的"稿件来源",并自负版权等法律责任。
③ 如涉及作品内容、版权等问题,请在作品发表之日起两周内与本网联系,否则视为默认仪器信息网有权转载。
谢谢您的赞赏,您的鼓励是我前进的动力~
打赏失败了~
评论成功+4积分
评论成功,积分获取达到限制
投票成功~
投票失败了~