If you shed tears when you miss the sun, you also miss the stars.
细胞内有数以亿计的碱基、表达程序以及运行策略,而且各不相同。单细胞测序技术可解读单个细胞里的这些信息,但人工干预多、过度依赖人为选定的标记基因使得单细胞测序技术对细胞的注释稳定性较低。可以理解为,同一类细胞用不同的模型解析,结果不同,对一些特殊细胞“公说公有理婆说婆有理”的分析结果往往难以得到广泛认可。
解决上述问题的关键是减少人工干预。9月27日,《自然》子刊《自然机器智能》刊载了我国团队首创的单细胞转录组细胞类型注释算法。该算法可以将细胞中的信息转变为计算机能够理解和学习的“语言”,让计算机和细胞直接“对话”,减少人为因素影响。
细分细胞亚型,准确度提升7%
据算法研发团队腾讯人工智能实验室方面介绍,新算法,即scBERT模型,对最难分类的外周血单核细胞进行了分类,结果显示人工智能能够做到精准标注、注释极其难区分的两类细胞,例如能够准确区分CD8+细胞毒性T细胞和CD8/CD45RA+T细胞。研发团队成员告诉科技日报记者,“在极具挑战的外周血细胞亚型细分任务上,新算法相较现有最优方法的70%准确度再提升了7%。”
此外,团队还在已有的单细胞数据集中,将新算法的性能与其他算法进行了对比,这些数据集涵盖17个主要器官或组织、包含50多个细胞类型、超过50万个细胞。论文中显示,对于每个数据集,团队均采用了五倍交叉验证策略,以避免随机结果对结论的影响。结果显示,新算法对大多数数据集的分析结果在精确度和综合得分方面均表现优异。
研发人员表示,针对不同的单细胞分析任务和数据集解析任务,都会有不同的算法成为最佳算法,也就是说有的算法擅长某几类任务,有的算法擅长另几类任务,无法通用,而基于scBERT模型的新算法则表现了很强的通用性,在全部的数据集解析任务中均被列为最佳算法。
跨界使用“工具”,让机器读懂细胞语言
那么,新算法为什么能让机器通过学习读懂细胞中的复制、翻译、转录的语言呢?
相关研发人员解释,“我们首次将‘transformer’运用到单细胞转录组测序数据分析领域。 transformer这种架构从发明以来一直被用在自然语言处理领域,用于进行诸如机器翻译类的工作,成为比较通用的一个框架组件,但我们将它运用到了细胞注释领域。”
得益于对计算机处理人类语言和单细胞信息之间的共性理解,团队将已经成熟的人工智能架构进行创新性地“跨界”使用,大大提升了细粒度单细胞分子图谱的构建效率。
“跨界工具”让新模型赋予计算机读懂细胞活动的基础,但要想读得准、读得透、读得精,还需要基于大规模的语言预训练。
论文显示,为了解决来自不同项目、测序平台的数据难以互通有无的难题,“scBERT” 模型在预训练数据上没有做任何的降维或筛选处理,最大程度上保留数据本身的特性和信息,并学习了包含不同实验来源、批次和组织类型的单细胞数据,以保证模型理解“通用”的知识,不仅捕获单个基因的表达信息还理解基因间的协作。
据介绍,该技术可以给生物体中每个细胞都印上专属“身份证”,“单细胞身份证”的应用不仅可以助力疾病致病机制分析、药物靶点发现等基础研究,也可以在临床上高精度地“刻画”肿瘤微环境,推动精准治疗的进一步完善。
[来源:科技日报]
2022.09.30
2024.07.22
2024.04.08
总预算超2.9亿! 2024年广东省科技创新战略专项资金安排部分汇总
2024.04.07
《企业科技创新系统能力水平评价规范》和《科研机构评估指南》两项国家标准发布实施
2024.04.01
版权与免责声明:
① 凡本网注明"来源:仪器信息网"的所有作品,版权均属于仪器信息网,未经本网授权不得转载、摘编或利用其它方式使用。已获本网授权的作品,应在授权范围内使用,并注明"来源:仪器信息网"。违者本网将追究相关法律责任。
② 本网凡注明"来源:xxx(非本网)"的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,且不承担此类作品侵权行为的直接责任及连带责任。如其他媒体、网站或个人从本网下载使用,必须保留本网注明的"稿件来源",并自负版权等法律责任。
③ 如涉及作品内容、版权等问题,请在作品发表之日起两周内与本网联系,否则视为默认仪器信息网有权转载。
谢谢您的赞赏,您的鼓励是我前进的动力~
打赏失败了~
评论成功+4积分
评论成功,积分获取达到限制
投票成功~
投票失败了~