电泳仪
近日,中国科学院北京基因组研究所生命与健康大数据中心开发了国际领先、国内首个规模最大的基因组序列变异库——GVM(Genome Variation Map)。该库基于人工审编整合了多个物种的大量基因组序列单核苷酸多态位点和小的插入与删除变异信息,是基因组序列变异信息汇交、管理与检索的资源库。研究成果以Genome Variation Map: a data repository of genome variations in BIG Data Center为题,在线发表在Nucleic Acids Research上。
基因组序列变异是基因组DNA水平发生的可遗传变异,是生物多样性的基础,是物种进化、分子育种、优良性状选育、人类疾病等研究最为宝贵的遗传资源。近年来,随着测序技术发展,越来越多物种的基因组被精细解析;物种内遗传多态变异位点也通过大规模的群体测序获得,并广泛应用于复杂性状的关联解析。国际两大数据中心NCBI和EBI旗下的dbSNP和EVA是主要的基因组序列变异资源库。今年5月,NCBI宣布自2017年9月1日起,dbSNP和dbVar两大数据库停止接收非人物种的SNP提交信息,自2017年11月1日起停止非人物种的SNP在线查询与提交。这对基于序列变异研究的科研人员造成了不便。
为此,GVM作为生命与健康大数据中心的核心数据资源库之一,搜集了以二代测序和芯片技术为主要检测手段的全基因组序列变异检测的原始数据,通过标准化的变异位点鉴定与注释,获得包括人、畜牧动物、主要农作物和其他资源物种在内的19个物种共约50亿的变异信息,8,884个个体的基因型数据,并通过人工审编收录了13,262条高质量非人物种的基因型与表型知识数据,整合了180,911条人变异位点的知识信息。其中,大熊猫、虎鲸、毛竹、橡胶、小麦是GVM数据库所特有的物种。
GVM开发了友好的数据提交、浏览、搜索和可视化功能。用户可通过基因组位置、变异影响、基因名称和基因功能等检索变异位点信息,并下载数据;可通过ftp服务下载VCF和FASTA文件格式的全基因变异信息;可在线或离线方式向系统提交数据,这方便了科研人员的数据共享。
研究工作得到了中科院战略性先导科技专项、中科院国际大科学计划、国家科技攻关计划、国家高技术研究发展计划(863计划)、国家自然基金项目、中科院百人计划、中科院青年创新促进会等的资助。
论文标题:Genome Variation Map: a data repository of genome variations in BIG Data Center
GVM数据库物种变异信息统计表
[来源:北京基因组所]
版权与免责声明:
① 凡本网注明"来源:仪器信息网"的所有作品,版权均属于仪器信息网,未经本网授权不得转载、摘编或利用其它方式使用。已获本网授权的作品,应在授权范围内使用,并注明"来源:仪器信息网"。违者本网将追究相关法律责任。
② 本网凡注明"来源:xxx(非本网)"的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,且不承担此类作品侵权行为的直接责任及连带责任。如其他媒体、网站或个人从本网下载使用,必须保留本网注明的"稿件来源",并自负版权等法律责任。
③ 如涉及作品内容、版权等问题,请在作品发表之日起两周内与本网联系,否则视为默认仪器信息网有权转载。
谢谢您的赞赏,您的鼓励是我前进的动力~
打赏失败了~
评论成功+4积分
评论成功,积分获取达到限制
投票成功~
投票失败了~