当前位置: 仪器信息网 > 行业主题 > >

快速建模

仪器信息网快速建模专题为您整合快速建模相关的最新文章,在快速建模专题,您不仅可以免费浏览快速建模的资讯, 同时您还可以浏览快速建模的相关资料、解决方案,参与社区快速建模话题讨论。

快速建模相关的资讯

  • 新品发布 | 行业领先的快速质谱离子源智能建模解决方案
    ModelLab Massman 是由科迈恩科技开发的基于质谱离子源的通用化学计量学与机器学习建模软件,可开展基于各类快速质谱离子源如DART、DESI、MALDI、ASAP等的数据(.csv, .cdf, .mzml等)的建模分析任务。该系统采用C++语言专为高性能矩阵计算开发,结合各类定性与定量化学计量学与机器学习高性能算法模型,为满足复杂体系快速质谱快检建模的需求提供行业领先的分析软件和科研工具。 ModelLab Massman 是ModelLab系列AI建模分析软件中的一员。ModelLab针对光谱、三维光谱、色谱、二维色谱、串联质谱、质谱离子源、质谱成像、核磁共振波谱等不同仪器数据多组学与AI建模分析的需要,分别提供对应的解决方案。图1 ModelLab 科学大数据AI建模解决方案产品家族图2 ModelLab Massman 界面展示图3 ModelLab Massman 界面展示新品亮点 一、全面的快速质谱离子源类型支持 ModelLab Massman解决方案支持的快速质谱离子源类型包括DART、DESI、MALDI、ASAP等,并支持对各主流质谱仪器厂家数据文件格式及国标格式(如.csv, .cdf, .mzml, .mzxml等)进行读取及建模分析。二、标准化的质谱数据预处理流程 ModelLab Massman内置支持质谱图批量自动处理的标准化预处理流程,包括峰标注、背景扣除、离子排除列表、质量轴校正、样品叠加比对、计算平均质谱图等一系列质谱离子源数据处理工具。三、样品间比对与对齐功能 ModelLab Massman支持多种样品间比对与对齐功能,用于不同样品间特征成分对齐和差异表征,包括质量轴漂移智能对齐、谱图叠加与镜像比对,以及质谱解卷积功能等。四、快速质谱建模一站式智能工具 ModelLab Massman建模功能强大。系统内置各类常用的化学计量学与机器学习定性及定量模型,从而满足模式判别以及量化预测等不同针对质谱直接实时分析建模的需要。五、丰富的质谱应用扩展 ModelLab Massman针对不同分析领域提供丰富的快速质谱应用扩展,包括针对石油化工领域的油品智能分析系统、针对气味感官领域的样品溯源系统等。应用领域 通过ModelLab Massman所提供的快速质谱法结合化学计量学和机器学习的智能快检分析,该分析策略可广泛应用于各分析领域的复杂体系定量以及非靶向分析。结果快捷、灵敏,精确,应用潜力巨大。 中药与民族药 药材及饮片真伪鉴别;道地产地真实性溯源;多组分含量测定;智能快检分析;指纹图谱分析;非法添加快筛化学药与生物制品原料快检分析;在线过程及工艺监控;杂质分析;原辅料一致性评价;药品国评探索性研究等临床检测药物代谢分析;质谱成像;组织及细胞快筛分析;血药浓度监控石油化工水中总有机碳TOC;多环芳烃类分析;藻类快速鉴别;工业、农业废水、污水厂原水、尾水分析;重金属及毒素测定;溢油溯源鉴别;污染物溯源环境与水质工业、农业废水、污水厂尾水等水质分析;污染物溯源分析;异味客观化评价快消品及农产品食品真实性分析;地理标志产区溯源;在线过程及工艺监控;品质分等分级;香精香料分析;农兽残快检分析;黄曲霉毒素分析;配方与勾兑设计关于科迈恩科技科迈恩科技秉持“让AI为创新分析技术赋能”的愿景,致力于让广大用户受益于大数据和人工智能技术对于检测能力的创新和提高。目前科迈恩科技已在智能化仪器数据分析、快检技术、新药研发、精准医疗、感官评价等工业级AI建模等领域拥有系列化产品或解决方案,涵盖色谱、质谱、光谱、核磁共振等多维分析大数据的融合。所服务的客户覆盖制药、快消品、农产品、临床、石化、环保、交通、汽车制造等诸多领域。关注“科迈恩科技”公众号,了解更多分析检测行业的解决方案如您对科迈恩科技有更多想了解,可通过仪器信息网和我们取得联系!400-860-5168转3905
  • Nature子刊!华大智造研发团队发布基于对比学习的多模态单细胞算法,快速实现千万级单细胞多组学数据建模
    近日,华大智造研发团队在Nature子刊Nature Machine Intelligence(IF=25.898)上在线发表了题为Contrastive learning enables rapid mapping to multimodal single-cell atlas of multimillion scale的研究成果。研究人员开发了一种基于对比学习的多模态单细胞算法工具——Concerto (协奏曲)。“协奏曲”的命名, 既包含了“对比学习建模细胞表征”的英文首字母,又暗含了组织器官中不同类型、不同状态的细胞协同发挥作用之意。该算法通过自监督训练的方式,可快速对千万级无标注的单细胞多组学数据进行建模,得到的细胞表征(cell embedding)可以用于自动注释、多模态整合、聚类、跨批次整合、参考映射注释等下游应用。Concerto在各项任务中都展现了优异的性能,进一步丰富了单细胞大数据领域的算法工具。研究背景单细胞多组学工具在解析细胞多样性的研究中发挥着至关重要的作用,可绘制单细胞水平的多组学图谱,进而从多模态角度揭示细胞功能或状态的异质性。百万甚至千万级别的单细胞多组学大数据需要通过智能高效的计算工具助力科学发现,定义细胞类型和状态。同时,已发表的大量未经人工注释或者注释颗粒度不够精细的数据集本身也是宝贵的资源,若加以有效利用,可以帮助快速解读新产生的数据集。目前主流的单细胞数据分析工具大多依赖于统计学特征选择(如高可变基因)和线性降维方法(如主成分分析PCA[1])来提取关键信息,但该预处理方法可能会造成信息量丢失。此外,单细胞数据集不可避免地存在不同程度的批次效应,在数据整合的过程中需要在保留每个样本包含的细微生物学状态差异前提下完成批次效应的适度去除。随着单细胞大数据时代的到来,亟需可快速构建千万级别单细胞多模态图谱并可实现映射注释的算法。华大智造自主开发的Concerto算法,采用人工智能领域新兴的对比自监督学习框架并进行优化适配,以应用在海量单细胞组学数据的建模中。何谓对比学习?简而言之,就是构造一个直观简洁的学习任务,让机器去对比和区分哪些样本与哪些样本相似,哪些样本与哪些样本不相似,从而学习到每个样本蕴含的高阶特征。这就好比是试图理解世界的婴儿,即使还未建立起认知世界的知识框架,也可能会意识到,相比于“史努比”,“加菲猫”和“黑猫警长”长得更像。婴儿通过比较不同物体之间的异同,或许可以学习到这些物体最重要的特征。对比学习示意图相比于传统的监督学习,在自监督学习中,机器学习的标签来自于样本自身。在真实世界中,有标签或者说有高质量标签的数据集是稀缺的,通过对比学习这样的自监督训练框架,可以很好地利用大量真实世界未注释的数据集。在机器视觉领域,Google和Meta近年来相继提出多种对比自监督学习算法,包括SimCLR[2]、 MoCo[3]等。在ImageNet分类基准测试中,最新的自监督算法甚至能优于有监督的基线方法。正如图灵奖得主Yann LeCun所预测,自监督学习是AI的未来,它就像人一样自觉观察数据,可能使AI产生类人的推理能力。在生物学领域,通过新兴的单细胞、时空组学工具获得的全新数据集,大大拓展了人类对于复杂生物系统的认知,这些数据还有大量未被人类标记或仅仅是依赖于已有知识进行注释。借鉴机器学习领域中不依赖标签数据的智能建模思想,以无偏的方式去利用好这些全新的单细胞数据,可以帮助科学家发现新的细胞类型、细胞状态,进而重新定义细胞类型。华大智造团队通过构造对比学习任务,让每个细胞自己跟自己“学习”,类似的细胞离得更近,不类似的细胞离得更远,从而实现对千万级别单细胞数据的快速建模。基于华大智造自主研发的便携、易用、经济友好的DNBelab C4单细胞建库平台,结合GPU的使用,利用Concerto构建千万级别的单细胞参考集仅需1.5h,快速注释5万个细胞仅需8s。同时,该模型可以整合不同模态、不同批次、不同测序平台和不同单细胞建库的方法。值得一提的是,Concerto的对比学习架构可以有效支持将一个细胞的所有基因作为输入建模,避免了直接降维过程中的信息丢失,同时该优势对于跨数据集的迁移注释至关重要,可以更好地扩展跨数据集间可利用的交集基因信息。华大智造DNBelab C4 Concerto模型架构具体而言,研究团队对每个细胞通过非对称的“双塔”蒸馏模型框架,并借鉴自然语言处理技术中的隐空间Dropout策略[4],得到一个细胞的两个不同表征(cell embedding)并使其互为正样本,而与其他细胞则互为负样本。通过对比学习在超球面空间[5]上将正样本拉近,负样本推开,从而学习到高质量的细胞表征(图1a)。经过Concerto训练好的细胞表征,可以在zero-shot或者few-shot的场景下应用于多种下游分析任务(图1c)。图1 Concerto模型的结构示意图Concerto整合单细胞多模态数据在RNA和蛋白同时测序的人类外周血单核细胞数据集中(PBMC160K),作者利用Concerto进行多模态数据整合,作者发现:细胞的不同模态信息反应了之前科学家定义的不同细胞分类的颗粒度和类型。例如:CD4 T细胞和CD8 T细胞在只用RNA模态的情况下,不能很好地区分,需要加上蛋白的信息;而如果只用蛋白的模态,单核细胞monocytes和树突状DC细胞不能很好地分开,需要加上RNA的信息(图2)。Concerto在整合了RNA和蛋白质两个模态后,学到了更好的细胞表征:细胞大类和存在细微生物差异的细胞亚群都被很好地区分,而且也很好地捕捉到了细胞发育的轨迹。如CD8 T细胞谱系,可以看到CD8 naïve — CD8 TCM — CD8 TEM的轨迹,并且可以通过高维超球面空间到二维的映射看出,杀伤性的T细胞和NK细胞的距离更近,说明Concerto学习到的映射空间可以将功能接近的细胞互相靠近。图2 Concerto在RNA、蛋白、RNA+蛋白三种设置下学到的细胞表征在迁移注释任务的表现在公开的胰岛细胞数据集上(HP)迁移注释任务中,与目前主流单细胞迁移注释算法比较,Concerto准确率最高(图3),超过了纽约基因组中心Rahul Satija团队开发的Seurat V4[6]、德国亥姆霍兹慕尼黑中心Fabian Theis团队开发的scArches[7]以及Broad研究所Soumya Raychaudhuri团队开发的Symphony[8]。人类胰岛数据集(HP)包括5种单细胞测序方法得到的数据,Concerto整合4种技术构建了一个参考空间,在这个过程中没有用到任何标签信息,只是“each cell learns from itself”。然后把待注释的数据投射到这个参考空间,每个待注释的细胞都可以“找到”在参考空间里和它最像的k个参考细胞,最后只需要综合这k个参考细胞的信息就可以为待注释细胞打上注释。另外,Concerto除了可以跨技术平台进行迁移注释,也可以跨物种进行迁移注释。图3右展示了Concerto利用HP数据构建参考空间,对鼠胰岛(MP)细胞进行注释的性能。图3 胰岛数据集上迁移注释性能比较,华大智造Concerto模型准确率超过现有方法就像序列比对工具BLAST 将生物序列数据比对到参考基因组的功能一样,将新产出的包含不同样本、研究、疾病状态的单细胞数据集,映射到复杂的、数百万细胞的参考图谱上,可以实现快速识别相关的细胞状态和表型,此种方法将成为单细胞数据分析的全新范式。本研究另一亮点在于,利用现有已注释数据构建大型的细胞图谱作为参考(Reference),新的数据作为查询(query),可以直接在Reference上“查找”最相近的“已知“细胞,这样我们就可以知道query细胞的性质了。构建百万级别免疫细胞参考图谱,对新冠数据进行快速注释在COVID-19研究中,研究人员将华大智造DNBelab C4产出的新冠病人外周血单核细胞(PBMC)数据与其他研究小组已发表的通过其他平台所采集的数据进行整合,构建了大型新冠病人外周血免疫细胞参考图谱,涵盖了健康人及轻型、重型COVID-19患者,并针对查询数据集进行快速注释,发现不同感染状态差异的免疫学信号。由于在参考数据中存在与查询数据类似的与疾病相关的细胞状态,所以Concerto可以快速将查询新冠数据集映射到参考图谱上。Schulte-Schrepping等人[9]的研究主要针对髓系细胞,如单核细胞monocytes和中性粒细胞neutrophils在不同感染状态下的差异。通过参考映射的快速注释,复现了该数据集的淋系细胞与其他新冠研究里的一致信号,如Concerto注释了稀有细胞亚群proliferative-exhausted CD8 T,与Su[10]等人的研究一致。此前,深圳华大生命科学研究院刘龙奇团队联合中国疾控中心等机构科学家利用华大智造C4单细胞平台进行了大规模的新冠研究[11],注释出了activated CD4 T细胞,并发现这种细胞的丰度会在患者体内上调。此次,利用Concerto构建的新冠参考数据集包含了这种细胞类型,也成功在Schulte-Schrepping的数据集中注释出activated CD4 T细胞,同时发现Schulte-Schrepping数据集中新冠患者的activated CD4 T细胞差异高表达CD2AP基因,也与此前华大研究院等人的发现一致。通过此项研究也证明,华大智造C4平台产出的数据可以和其他平台适配。将来科研人员可以利用Concerto构建整合不同单细胞数据产出平台的大型参考数据集,用以对新产出的数据进行快速注释。图4 将健康人与COVID-19患者整合的参考数据集对查询数据集进行迁移注释华大智造高级副总裁倪鸣博士表示:“单细胞组学的研究已进入高通量、大数据、多模态的研究阶段,此次基于对比学习的最新人工智能方法Concerto 用于单细胞参考数据集映射注释成果的发布,丰富了华大智造此前自主研发DNBelab C4单细胞平台,实现了单细胞组学领域硬件与软件的深度结合,相信未来会在单细胞领域赋能更多用户。”单细胞多组学时代的来临,使得重新定义细胞成为可能。华大集团联合创始人、董事长汪建曾提出 “六定”:定性、定量、定位、定时、定向、定标。未来,华大智造将继续开发用于单细胞多组学研究的硬件、试剂、软件工具,支持科研人员提高研究效率、拓展探索的边界。
  • 科迈恩科技发布全新科学大数据AI建模解决方案Matman
    近日,科迈恩科技面向广大分析测试领域的科研、检测、生产及教学用户推出了最新一代面向科学大数据的化学计量学与机器学习解决方案ModelLab Matman。ModelLab Matman作为科迈恩科技开发的ModelLab系列AI建模分析软件中的一员,提供对于科学数据领域通用的化学计量学分析与机器学习建模的广泛支持,可以对任何通用类型的数据文件(如Excel表格、CSV数据文件)进行建模分析。ModelLab Matman采用C++语言专为高性能矩阵计算开发,结合各类定性与定量化学计量学与机器学习高性能算法模型,为满足复杂体系科学数据分析的需求提供行业领先的分析软件和科研工具。图1 ModelLab 科学大数据AI建模解决方案产品家族新品亮点1. 多模态分析仪器复杂体系数据挖掘ModelLab系列软件(含Matman, Specman, Chroman, Massman等)提供对各类色谱、质谱、光谱,核磁共振,以及其他类型仪器及科学统计数据的AI建模分析支持。专业的仪器数据处理提供包括色谱峰保留时间对齐、质谱解卷积、光谱多元校正、高维光谱因子分解等各类多维、高分辨数据的解析和处理。从而实现高度自动化的定性、定量及非靶向分析。图2 ModelLab化学计量学与机器学习算法组成2. 领先的科学大数据机器学习建模ModelLab Matman独有的化学计量学高性能计算SDK涵盖多元校正、多元统计、回归建模、模式识别、因子分解以及知识图谱等在内的各类机器学习算法。其包括PCA、PLSR、SVM、ATLD、随机森林、聚类热图等数十种功能强大的算法模型,并支持与仪器数据无缝连接。图3 ModelLab功能模块:模型训练3. 高维高内涵的多组学数据分析ModelLab Matman通过数据以及模型输入接口API,支持对各类色谱、质谱、光谱等仪器分析原始数据以及任意的表格及矩阵数据的快速机器学习建模和预测过程。可应用于指纹图谱、非靶向代谢组学、风味组学、环境暴露组学等各类多模态融合组学研究。4. 实时高效的大数据可视化分析ModelLab Matman通过将化学计量学与机器学习、自然语义分析以及知识图谱相结合,通过丰富的大数据可视化技术使得复杂体系样品数据分析过程和结论所见即所得。从而通过人工智能技术为分析测试相关行业的数字化、智能化转型和提质增效提供有力支撑。图4 ModelLab功能模块:算法自定义结果输出图5 ModelLab功能模块:自定义图表外观图6 ModelLab功能模块:分析报告应用领域通过化学计量学与机器学习相结合,所建立的定性、定量预测模型可广泛应用于检测分析各行业相关领域的复杂体系非靶向分析。图7 一致性评价模型【中药制药】中药材及饮片真伪优劣与质量评价、指纹图谱分析、中药注射剂质量控制、一致性评价、道地产地溯源与土壤因子、贵细药材分等分级、原料混批勾兑、储藏时间预测【代谢组学与蛋白组学】非靶向代谢指纹图谱分析、脂质体组学分析、代谢通路研究、空间代谢组学分析【化学药与生物制品】药物体内代谢、有关物质分析、原料药及中间体快检、在线过程控制、肽图指纹图谱、药物辅料智能分析、体内外相关性分析、一致性评价【精准医学】癌症早筛、多模态质谱成像分析、疾病标志物发现、血药浓度监控【环境保护】水质快检分析、水中油快速鉴别、污染物三维荧光分析、污染物预警监测、污染物的溯源鉴定、空气异味评级等【食品及农产品】原料及添加剂快速筛查、违法违禁添加、原产地及年份溯源、风味特征物质剖析、数字化定量勾兑、香精香料分析、品质分等分级【快消品】真实性评价及违法添加筛查、气味客观化与品质分等分级、白酒真实性溯源及感官评价、烟草及香精香料的风味组学建模与分析【石油化工】轻重质油、润滑油、生物柴油的油品分析、油页岩分析、溢油溯源鉴别、录井勘探、沥青真实性与老化智能分析等【珠宝玉石】珠宝玉石、陶瓷、文物等的真伪鉴别、断代、断源鉴别及三维荧光快检【司法鉴定】纸张、染料、油墨、墨水、纺织品、土壤、毒物的来源及真实性鉴别等【汽车制造】气味嗅辩分析、气味客观化分析与智能评级、油漆智能鉴别、润滑油快检分析 ModelLab系列软件作为一款多组学融合与多组学分析技术提供强大的数据分析工具,提供基于前沿算法与人工智能相结合的创新智能仪器分析手段,借以提升中国分析测试行业客户的化学分析能力,打破了长期以来分析测试行业的数据孤岛,解决长期困扰国产化仪器领域的软件及算法等“卡脖子”问题,从而为我国仪器仪表及检测行业持续提供基于前沿算法与人工智能相结合的创新检测手段。关于科迈恩科技科迈恩科技秉持“让AI为创新分析技术赋能”的愿景,致力于让广大用户受益于大数据和人工智能技术对于检测能力的创新和提高。目前科迈恩科技已在智能化仪器数据分析、快检技术、新药研发、精准医疗、感官评价等工业级AI建模等领域拥有系列化产品或解决方案,涵盖色谱、质谱、光谱、核磁共振等多维分析大数据的融合。所服务的客户覆盖制药、快消品、农产品、临床、石化、环保、交通、汽车制造等诸多领域。关注“科迈恩科技”公众号,了解更多分析检测行业的解决方案如您对科迈恩科技有更多想了解,可通过仪器信息网和我们取得联系!400-860-5168转3905
  • 科迈恩科技发布全新光谱建模AI解决方案Specman
    近日,科迈恩科技面向广大分析测试行业的科研、检测、生产及监管领域用户推出了最新一代面向光谱大数据智能建模的化学计量学与机器学习解决方案ModelLab Specman。ModelLab Specman作为科迈恩科技开发的ModelLab系列AI建模分析软件中的一员,提供对于科学数据领域通用的化学计量学分析与机器学习建模的广泛支持。ModelLab Specman采用C++语言专为高性能矩阵计算开发,结合各类定性与定量化学计量学与机器学习高性能算法模型,为满足复杂体系科学数据分析的需求提供行业领先的分析软件和科研工具。图1 ModelLab 科学大数据AI建模解决方案产品家族新品亮点1.丰富的光谱数据类型支持 ModelLab Specman解决方案支持的仪器数据类型包括NIR近红外光谱法、MIR中红外光谱法、太赫兹(FIR远红外)光谱法、Raman拉曼光谱法,以及LIBS激光诱导击穿等离子发射光谱法等,支持对各主流光谱仪器厂家数据文件及通用光谱格式(CSV数据文件、JCAMP、Thermo Spec、Bruker Spec、PE Spec、Raman Spec)直接进行建模分析。图2 ModelLab 所支持的分析仪器数据格式2.标准化的光谱预处理流程ModelLab Specman内置支持光谱图批量自动处理的标准化预处理流程,包括峰积分、平滑、求导、背景扣除、标度化、谱图求平均、坐标系转换、波长范围裁剪等一系列光谱处理工具。图3 标准化的光谱预处理流程3.光谱建模一站式智能工具ModelLab Specman建模功能强大。系统内置各类常用的化学计量学与机器学习定性及定量模型,从而满足模式判别,以及线性与非线性量化预测等不同光谱快检与在线监测场景的需要。图4 ModelLab功能模块:定性及定量模型训练4.自动模型优化ModelLab Specman提供对于模型算法及参数的自动筛选和模型优化功能,实现对于提升模型性能的极值追求。图5 ModelLab 功能模块:模型批量优化5.可独立运行的模型文件ModelMan客户端程序实现对于用户所开发光谱模型的受控分发、应用和模型更新等需求,并确保建模数据的完整性和知识产权。图6 可独立运行的模型文件应用领域通过ModelLab Specman所提供的光谱法结合化学计量学和机器学习的智能快检分析,该分析策略可广泛应用于各分析领域的复杂体系定量以及非靶向分析。结果快捷、灵敏,精确,应用潜力巨大。【中药与民族药】药材及饮片真伪鉴别;道地产地真实性溯源;多组分含量测定;智能快检分析;指纹图谱分析;非法添加快筛【化学药与生物制品】原辅料快检分析;在线过程及工艺监控;杂质分析;批间一致性评价;药品国评探索性研究等【临床检测】药物代谢分析;荧光成像;组织及细胞荧光发光分析;血药浓度监控【石油化工】轻重质油、润滑油、生物柴油等油品分析;油页岩分析;水中油的鉴别;录井勘探;真实性鉴别;产品溯源分析【环境与水质】水中总有机碳TOC;多环芳烃类分析;藻类快速鉴别;工业、农业废水、污水厂原水、尾水分析;重金属及毒素测定;溢油溯源鉴别;污染物溯源【快消品及农产品】食品真实性分析;地理标志产区溯源;在线过程及工艺监控;品质分等分级;香精香料分析;农兽残快检分析;黄曲霉毒素分析;配方与勾兑设计关于科迈恩科技科迈恩科技秉持“让AI为创新分析技术赋能”的愿景,致力于让广大用户受益于大数据和人工智能技术对于检测能力的创新和提高。目前科迈恩科技已在智能化仪器数据分析、快检技术、新药研发、精准医疗、感官评价等工业级AI建模等领域拥有系列化产品或解决方案,涵盖色谱、质谱、光谱、核磁共振等多维分析大数据的融合。所服务的客户覆盖制药、快消品、农产品、临床、石化、环保、交通、汽车制造等诸多领域。关注“科迈恩科技”公众号,了解更多分析检测行业的解决方案如您对科迈恩科技有更多想了解,可通过仪器信息网和我们取得联系!400-860-5168转3905
  • MLR建模意义的困惑与新解
    pspan style="font-family: 楷体, 楷体_GB2312, SimKai "  受仪器信息网叶编辑的再三约稿,为再次庆祝近红外光谱分会成立十周年,感谢学会领导及专家同仁们一直以来的热忱关心关爱关照,感谢仪器信息网的多年大力支持和为近红外搭建的一个畅所欲言的平台,我十分用心地撰写了此文,以此深表谢意。/span/ppspan style="font-family: 楷体, 楷体_GB2312, SimKai "  笼统粗放地说,MLR多用于基础研究,PLS常用于实际应用。基础是根本,是永恒不变的,而应用方法随时都有可能推陈出新。就目前而言,在解决实际问题时,特别是只追求结果时,PLS是建模最佳选择,这是定论,我是赞成的。要想知道一些成分与波长间的相互关系,MLR是首选,这也是定论,我无异议。除此之外,今天想赋予其新意,特此撰写此文,与各位同仁共同磋商。/span/pp style="text-align: center"img style="max-width:100% max-height:100% " src="https://img1.17img.cn/17img/images/201908/uepic/558cffab-6e70-4d06-9ff1-a2c43a90ac35.jpg" title="韩.png" alt="韩.png"//pp style="text-align: center "strong中国农业大学 韩东海/strong/ppstrong  一、撰写本文的契机/strong/pp  一次偶然的机会,在整理查看K款水果品质专用便携仪MLR模型信息时发现了一个至今尚未得到其解的现象,那就是有四组看似毫不相干的不同种类的水果,竟然能共享一个模型(其中,猕猴桃的系数不同)进行预测,如表1所示。我们对多种水果共用一个模型进行预测并不陌生,曾经对苹果梨桃三种水果采用最大包容性波长共建一个模型进行过研究sup1)/sup,针对840-918 nm波段建立PLS模型,取得了良好效果。我们曾经认为苹果桃梨的理化性质相近,光谱波形相似,所以才能共享一个模型。例如,苹果梨桃的形状大小相当、薄皮、果肉均匀、有果核等相似的物理性质和种类间水分含量及SSC相近,可溶性固形物成分相似等化学性质类似。很明显,我们的推测在此没有得到验证。/pp  我请教过果蔬生理专家,询问共享吸收波长的四组果实的生理特征,答复是日韩梨、猕猴桃和枇杷三者都有明显的后熟软化过程,后熟后才适宜食用;番茄和李子都是呼吸跃变型果实;西瓜和甜瓜都是由胎座形成可食果肉,内部有籽;苹果和柿子无明显生理共性。生理共性应体现在光物性上,仅凭生理共性难以诠释。理化特性,生理特征与光物性之间存在何种关系,遗憾地是,这些基础性的研究至今为止暂时无解,这是我的困惑。/pp style="text-align: center "strong表1 K水果专用便携仪MLR模型所用波长/strong/pp style="text-align: center"img style="max-width: 100% max-height: 100% width: 600px height: 341px " src="https://img1.17img.cn/17img/images/201908/uepic/669e8fe7-d24b-499a-94cf-e2e003c400b7.jpg" title="002.png" alt="002.png" width="600" height="341" border="0" vspace="0"//pp  破解这个困惑的意义不言而喻,可以以此类推,建立一系列的同类物料的模型,大大减少建模工作量。例如,探索小麦粉、大米粉、糯米粉等三粉是否可共享一个模型,等等。/pp  近红外光谱分析技术起源于实践,理论相对滞后,有待进一步完善;能解决实际问题、不能清楚解释的案例司空见惯,这也许是近红外光谱分析技术不同于其他技术的特殊所在。/pp  上文是困惑,下文是理解、归纳、体会、感想,统称为新解。/ppstrong  二、近红外技术是严谨的,同时又是粗放的/strong/pp  近红外光谱分析过程不论是代表性样品的选择,还是光谱预处理、建模、验证、预测等均有严格的程序,按照规定程序得出的结果也许不是很理想,但结论一般难以推翻。这是严谨的一面。近红外分析的结果,甚至是结论可谓代表一种趋势。例如,无损检测哈密瓜糖度,预测数值误差也许较大,谈不上理想,但是糖度高的哈密瓜肯定比糖度低的甜,这就是一种趋势和结论。相对结果有问题,绝对趋势很正确,这是近红外分析技术粗放的一面。/pp  实际上,对于K款仪器,上文是事实,也是规律,但不一定是普遍规律。曾经有人把苹果的4个波长代入不同仪器中,得出完全不一样的结论。很明显,仪器不同,光谱形状不同,直接代入是不符合逻辑的。在新的仪器中,也许部分规律能够再现,也许难以重复。下文讲的结论也是一种趋势。/pp  早在1985年和1995年学者们就发现了水果建模两个关键波长,一个是904nm附近的碳水化合物吸收波长sup2)/sup,一个是880nm周边的辅助波长sup3)/sup。如果把904nm± 2nm均归纳为904nm,880nm± 4nm归纳为880nm,对表1中的波长出现次数进行统计,则发现波长904nm除草莓外,用于12种水果,频率最高。其次是波长880nm在8种水果中出现,如表2所示。由此可知,880nm和904nm是果实建模时最为优先选用的特征波长。在多数情况下,830nm和856nm左右的波长与糖度无关,常用于物料温度和光程的修正sup4)/sup,其选取原则是吸光度谱二阶导趋于0的位置,最终以预测结果最佳进行每个波长微调。/pp style="text-align: center "strong表2 波长出现的次数统计/strong/pp style="text-align: center"img style="max-width: 100% max-height: 100% width: 600px height: 203px " src="https://img1.17img.cn/17img/images/201908/uepic/8de13b4e-41b4-4121-8109-06355d362a05.jpg" title="003.png" alt="003.png" width="600" height="203" border="0" vspace="0"//pp  K是一款果实品质无损检测专用仪器,已经得到业界公认,该仪器所选用的13种果实波长具有一定的代表性和重要的参考意义。/pp  关于MLR建模波长的选择,解释的比较全面有代表性的案例应该是小麦粉蛋白质Cp的计算sup5)/sup。/pp  Cp=12.68+493.7 log(1/Rsub2180/sub)-323.1 log(1/Rsub2100/sub)-243.4 log(1/Rsub1680/sub)/pp  其中,log(1/Rsub2180/sub),log(1/Rsub2100/sub),log(1/Rsub1680/sub)分别是2180,2100,1680 nm处的吸光度。2180nm是蛋白质特征波长,2100nm是淀粉特征波长,1680 nm是与成分无关的中立特征上波长,反映小麦粉粉碎粒度信息,如图1所示。第一个变量是预测成分的特征波长,其它后续各项多为互补或修正。小麦粉是混合物,成分间相互影响。淀粉是小麦粉的主要成分,故淀粉是修正项;颗粒对光谱有影响,所以也是修正项。/pp style="text-align: center"img style="max-width: 100% max-height: 100% width: 400px height: 334px " src="https://img1.17img.cn/17img/images/201908/uepic/37759836-8655-4b5b-bf08-768546f37df6.jpg" title="图1.png" alt="图1.png" width="400" height="334" border="0" vspace="0"//pp style="text-align: center "strong图1 小麦蛋白质近红外预测/strong/ppstrong  三、 知晓特殊波长有助于思考信噪比/strong/pp  由上述13种果实可知,光谱分布范围最短波长是766nm,最长为920nm。假设以此为果实近红外吸收波段的话,那么,在选择或研发检测器时,波长范围不需太宽,700nm-950nm段的灵敏度越高越好,而通用光谱仪很难照顾到此处。上述K款仪器之所以获得业界好评,就是因为提高了光谱仪850nm-950nm之间的灵敏度,使得仪器输出能量增大,错开了非线性区间。同理,在选择光源时应尽量选择700nm-950nm范围内强度高,且稳定,避免图2所示的结果。只看数据,图2所示LED光源波长范围400nm-1000nm适合果实糖度无损检测,而看具体光谱特性则一目了然,750nm以后能量快速下降,根本不适合上述果实的无损检测。/pp style="text-align: center"img style="max-width: 100% max-height: 100% width: 400px height: 314px " src="https://img1.17img.cn/17img/images/201908/uepic/b25a45be-323e-486e-8d6c-1420e32af212.jpg" title="图2.png" alt="图2.png" width="400" height="314" border="0" vspace="0"//pp style="text-align: center "strong图2 LED连续光源/strong/pp  LED连续光源已经问世,且光谱特性可根据需要进行特殊设计,满足要求。在知晓特殊波长的情况下,更有利于未来专用仪器的开发。/ppstrong  四、 滤光片型仪器,而非MLR建模/strong/pp  滤光片型光谱仪多数伴随着MLR建模,即使上述K款仪器也是在连续光谱上取四五个波长后进行MLR运算的。现实中,滤光片仪器越来越少,究其原因是台间差大,无法进行光谱预处理。日本有一A款手持仪已经停产,C款仅限日本国内销售。同时,也有非常成功的案例。Process Sensors公司的MCT460就是其中一例。该仪器是水分专用近红外在线检测仪。根据网上仅有的资料及个人理解,工作原理大致归纳如下,一些细节知之甚少。/pp  以选用水的吸收波长1940nm为例。共用三个波长,一个是水的吸收波长λw1940nm,一个参考波长λ1小于1940nm,一个参考波长λ2大于1940nm,这两个参考波长选用原则一是与水吸收无关,二是与物料吸收无关。我认为,影响在线测量水分的因素有两个,一个是物料的高低不平,一个是物料的温度。所以,这两个参考波长一个与距离有关,一个与温度有关。再有就是两个参考波长对光谱影响程度有别,权重不一。/pp  仪器结构如图3所示。光源被分为External和Internal两束光,分别依次通过1100 r/min旋转圆盘上的三个滤光片。由物料反射回来的λw光能量经反射镜、透镜以及聚光镜进入检测器。两个参考波长的能量以同样的原理进入检测器。/pp style="text-align: center"img style="max-width: 100% max-height: 100% width: 300px height: 414px " src="https://img1.17img.cn/17img/images/201908/uepic/de9ad5e4-07fc-4077-8baa-17e2da9ebd44.jpg" title="图3.png" alt="图3.png" width="300" height="414" border="0" vspace="0"//pp style="text-align: center "strong图3 水分近红外在线检测仪/strong/pp  原始信号由External和Internal之比获得。External信号受物料和反射光的影响,而Internal只受反射光的影响。Internal信号消除由光源辉度变化引起的漂移。检测器收集了3个反射波长能量,能量大小用λw1940nm反射能量与两个参考波长能量之比进行评价。/pp  Process Sensors公司把水分定义为:/pp style="text-align: center "物料水分 = a + b (R / M)/pp  R:参考波长能量的相对测量值,M:λw能量的相对测量值/pp  由该公式可知,物料水分与参考波长能量和水分波长能量之比成正比。其中R为加权之后的λ1能量和λ2能量之和。λ1、λ2和λw又是External / Internal之比,具体表述如下:/pp style="text-align: center "λ1=λ1External /λ1 Internal /pp style="text-align: center "λ2=λ2External /λ2 Internal /pp style="text-align: center "λw=λwExternal /λw Internal/pp  由此可知,该仪器在线测量水分时,无需参比测量,无需模型修正,无需吸光度计算,只需计算各个相对能量值就能获得结果。/pp  类似案例还有NDC的在线检测系列产品,N1手持仪。这也许是滤光片型光谱仪的未来之路。/pp  我已经拜读了邵学广老师的理论研究氛围浓厚的“近红外水光谱组学:一种新的分析手段”、褚小立老师的高度、广度、深度俱全的“从两句话浅述分子光谱技术的应用进展”、彭黔荣、张辞海老师的全面系统地概述了“近红外技术在烟草行业中的应用进展”、迅杰光远阎巍总经理的雄心大志篇“近红外新技术的探索与应用”。字里行间,充分体现了各位专家对近红外技术的深厚感情。我受益颇多,提升了认知水平。特别是褚小立老师的”纪念诺贝尔奖级科学家:近红外光谱技术之父Karl Norris”一文,让我们重温了一次现代近红外技术的发明史,回归原点,重新出发,踏上新的征程。我还会继续关注后续专家有待上网刊登的文章。/pp  本文属于非学术性论文,一些观点、结论纯属个人认知,未必正确,仅供参考。/ppstrongspan style="font-family: " times="" new=""  参考论文/span/strong/ppspan style="font-family: " times="" new=""  1、 Ran Liu, Shuye Qi, Jie Lu, Donghai Han:Measurement of soluble solid content of three fruit species using universal near infrared spectroscopy models”, JNIRS—Journal of Near Infrared Spectroscopy , 23, 301–309 (2015)/span/ppspan style="font-family: " times="" new=""  2、 Gerald S. Birth, Gerald G. Dull, W,T:Nondestructive spectrophotometric determination of dry matter in onions. J.Amer.Soc.Hort.Sci.,110,297-303,1985/span/ppspan style="font-family: " times="" new=""  3、 Kumi Miyamoto and Yoshinobu Kitano Non-Destructive Determination of Sugar Content in Satsuma Mandarin Fruit by near Infrared Transmittance Spectroscopy Journal of Near Infrared Spectroscopy Vol. 3,Issue 4,pp. 227-237(1995)/span/ppspan style="font-family: " times="" new=""  4、 伊藤秀和,森本進,堀江秀樹:近赤外分光法によるメロン糖度の非破壊計測法の開発,第 48 回自動制御連合講演会,2005年/span/ppspan style="font-family: " times="" new=""  5、 河野澄夫:近赤外分光法による農産物等の非破壊品質評価,農業機械学会誌第75巻 第2号,2013/span/pp style="text-align: right "strongspan style="font-family: 楷体, 楷体_GB2312, SimKai "(中国农业大学 韩东海)/span/strong/p
  • 北京吉天助力四川粮食系统近红外建模会
    近日,由四川省粮油中心监测站组织,南充市粮油监测站承办,四川省14家国家粮食质量监测机构参加的省稻米食味品质鉴定及脂肪酸值近红外分析建模培训班在南充市南充大酒店成功举办。聚光集团北京吉天仪器有限公司作为此次会议协办方全程跟进助推建模工作顺利进行。此项工作填补了省内空白,为落实粮食安全省长责任制中的质量安全打下了坚实基础,使四川省在全国粮食行业的省级近红外快速分析网络化建设领域处于领先。四川省按照全国粮食质量安全检验监测能力“十二五”规划建设要求,建立了全国首个初具规模的粮食近红外分析网络体系。为了进一步完善该体系功能、提高使用效率,充分发挥该体系的作用,四川省粮食局于2016年5月31日举办了稻米食味品质鉴定及脂肪酸值近红外分析建模培训班,并于2016年6月1日到4日开展现场集中考核和检测工作。北京吉天高度重视此次会议,分派四川大区鼎力协助当地粮食系统,希望为四川乃至全国的粮食检测工作作出自己的贡献,推进粮食安全工作向前发展也是每个公司应该承担的社会责任。作为聚光实验室平台的载体,北京吉天为此次培训提供了测试所需近红外光谱仪及全程技术支持,来自聚光实验室平台的2位工程师全程待命确保及时解决仪器使用中出现的问题,2位机动工程师先后为培训提供后备保障,4位吉天工作人员协助组织会议力保会议顺利进行。会议邀请到国家粮食局科学研究院的孙辉博士进行全程指导,来自全省14家国家粮食质量监测机构的40余名骨干技术人员参与此次培训。而之后的考核中,21位经培训的检验人员经过4个日夜,共取得682个手工检测数据,加上聚光近红外分析仪、食味计等仪器的预测数据,共获得3078个数据,为该模型扩建项目下一步的模型扩容、新建、验证、安装、转移等后续工作提供了有力的支撑。粮食近红外分析网络体系的建设和高效运行将强力提升粮食质检效率和信息化水平,为“智慧粮食”提供准确高效的质量数据源,同时也具有改善粮食质检人员的工作环境、减轻劳动强度、节约检测资源等作用,更能提高应对粮食质量安全突发应急事件的能力和水平。聚光实验室平台的近红外产品在粮食检测中有着丰富的应用,随着应用的增加及数据库的不断完善,相信会对国家粮食品质安全作出更大的贡献!
  • 北京吉天助力四川粮食系统近红外建模会
    p style="text-align: center "img src="http://img1.17img.cn/17img/images/201606/insimg/e9f2543b-bb77-488f-abc4-3c7beb3877d9.jpg" title="11.jpg"//pp  近日,由四川省粮油中心监测站组织,南充市粮油监测站承办,四川省14家国家粮食质量监测机构参加的省稻米食味品质鉴定及脂肪酸值近红外分析建模培训班在南充市南充大酒店成功举办。聚光集团北京吉天仪器有限公司作为此次会议协办方全程跟进助推建模工作顺利进行。此项工作填补了省内空白,为落实粮食安全省长责任制中的质量安全打下了坚实基础,使四川省在全国粮食行业的省级近红外快速分析网络化建设领域处于领先。/pp style="text-align: center "img src="http://img1.17img.cn/17img/images/201606/insimg/e2c302ae-2813-485f-a824-098e138b4238.jpg" title="22.jpg"//pp  四川省按照全国粮食质量安全检验监测能力“十二五”规划建设要求,建立了全国首个初具规模的粮食近红外分析网络体系。为了进一步完善该体系功能、提高使用效率,充分发挥该体系的作用,四川省粮食局于2016年5月31日举办了稻米食味品质鉴定及脂肪酸值近红外分析建模培训班,并于2016年6月1日到4日开展现场集中考核和检测工作。/pp style="text-align: center "img src="http://img1.17img.cn/17img/images/201606/insimg/b0a4141d-7bfe-4e14-9977-05ec2d010d01.jpg" title="33.jpg"//pp  北京吉天高度重视此次会议,分派四川大区鼎力协助当地粮食系统,希望为四川乃至全国的粮食检测工作作出自己的贡献,推进粮食安全工作向前发展也是每个公司应该承担的社会责任。作为聚光实验室平台的载体,北京吉天为此次培训提供了测试所需近红外光谱仪及全程技术支持,来自聚光实验室平台的2位工程师全程待命确保及时解决仪器使用中出现的问题,2位机动工程师先后为培训提供后备保障,4位吉天工作人员协助组织会议力保会议顺利进行。/pp  会议邀请到国家粮食局科学研究院的孙辉博士进行全程指导,来自全省14家国家粮食质量监测机构的40余名骨干技术人员参与此次培训。而之后的考核中,21位经培训的检验人员经过4个日夜,共取得682个手工检测数据,加上聚光近红外分析仪、食味计等仪器的预测数据,共获得3078个数据,为该模型扩建项目下一步的模型扩容、新建、验证、安装、转移等后续工作提供了有力的支撑。/pp  粮食近红外分析网络体系的建设和高效运行将强力提升粮食质检效率和信息化水平,为“智慧粮食”提供准确高效的质量数据源,同时也具有改善粮食质检人员的工作环境、减轻劳动强度、节约检测资源等作用,更能提高应对粮食质量安全突发应急事件的能力和水平。/pp  聚光实验室平台的近红外产品在粮食检测中有着丰富的应用,随着应用的增加及数据库的不断完善,相信会对国家粮食品质安全作出更大的贡献!/p
  • 关于开展2023年度“创和亿杯近红外光谱数据建模竞赛”的通知
    中国仪器仪表学会近红外光谱分会文件近学分字[2023] 第003号关于开展2023年度“创和亿杯近红外光谱数据建模竞赛”的通知近红外光谱行业专家、学者、研究生及相关单位:近些年,近红外光谱技术在我国得到了快速发展,其中化学计量学方法的深入研究和应用功不可没。分析模型是近红外光谱分析技术的核心之一,为了共同提升我国本领域人员的建模水平,中国仪器仪表学会近红外光谱分会举办2023年度“创和亿杯近红外光谱数据建模竞赛”,现将有关事宜通知如下:(1)本竞赛提供一套光谱数据,来源于实际应用场景,校正集由126个样本的紫外-可见-近红外光谱及对应的某种成分含量构成,预测集由20个样本的光谱构成。上述文件包含在本通知附件的压缩文件“竞赛数据2023.rar”。本届竞赛选择了样本较少的校正集,鼓励尝试数据增强策略建立校正模型。(2)任何人均可参赛,每位参赛人员仅限提交一套预测结果。(3)根据参赛者提交预测结果的准确性,本竞赛将评选出一等奖1名,二等奖2名,三等奖5名,优秀奖10名。颁发电子版获奖证书和奖金,其中一等奖奖金2000元,二等奖奖金1500元,三等奖奖金1000元,优秀奖只颁发获奖证书。(4)本竞赛采用以下两个参数评价预测结果的准确性:(5)请参赛者于2023年10月30日前将完成的“参赛附表”,发送至邮箱:cxlyuli@sina.com ,若有疑问请微信联系13501215398(微信号)。(6)请参赛者认真填写“参赛附表”的个人信息和建模信息(在预测结果准确性相同的情况下,优先奖励建模叙述详细的参赛者),本竞赛不对外公开参赛人员的信息。(7)本竞赛将在2023年11月5日前向参赛者公布预测集的实际浓度值,2023年11月15日前公布获奖名单。(8)本竞赛不收取任何费用。(9)本套近红外光谱数据版权归属中国仪器仪表学会近红外光谱分会,任何个人或单位不得将其用于商业或其他用途。中国仪器仪表学会近红外光谱分会2023年9月19日 附件1:参赛附表.docx 附件2:竞赛数据2023.rar 参赛附表 一、参赛人员基本信息姓 名性 别年 龄专 业学 历国 籍移动电话E-mail单 位 二、采用的建模方法(请尽可能详细说明采用的方法)建模过程的描述(不限字数,可附图表)光谱预处理方法及其参数光谱变量筛选方法建模方法及参数选择其他需要说明的方法 三、预测集样本的预测结果预测集样本序号预测值1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
  • 科迈恩发布全新色谱-质谱AI建模解决方案CHROMAN
    ModelLab Chroman 是由科迈恩科技全新开发的基于色谱及色谱联用技术的通用化学计量学建模与多组学分析软件,方便您快速开展基于各类常用色谱及色质联用-如LC, GC, LC/MS, GC/MS-数据格式(.csv, .cdf, .mzml等)的复杂体系数据分析任务。该系统采用C++语言专为科学数据AI计算开发,结合各类定性与定量化学计量学与机器学习高性能算法,为色谱及色质联用数据建模与机器学习提供行业领先的分析软件和科研工具。 ModelLab Chroman 是ModelLab系列AI建模分析软件中的一员。ModelLab可满足光谱、三维光谱、色谱、二维色谱、串联质谱、质谱离子源、质谱成像、核磁共振波谱等不同仪器数据多组学与AI建模分析的需要,为行业客户提供不同的解决方案。 图1 ModelLab 科学大数据AI建模解决方案产品家族新品亮点1. 全面的色谱及其串联质谱数据类型支持 ModelLab Chroman解决方案支持的仪器数据类型包括LC液相色谱, LC/MS液质联用, GC气相色谱, GC/MS气质联用,支持对各主流仪器厂家数据文件格式及国际通过格式(如.csv, .cdf, .mzml, .mzxml等)进行读取及建模分析。 图2 ModelLab 所支持的分析仪器数据格式2. 标准化的色谱及质谱预处理流程 ModelLab Chroman内置支持色谱图批量自动处理的标准化预处理流程,包括自动与手动峰积分、谱图平滑、背景扣除、内/外标含量计算、谱图求平均、保留时间裁剪、DAD光谱查看、XIC提取离子流生成、计算平均质谱图等一系列色谱及串联质谱数据处理工具。 图3 标准化的色谱峰积分3. 样品间比对与对齐功能 ModelLab Chroman支持多种样品间比对与对齐功能,用于不同样品间特征成分对齐和差异表征,包括色谱峰保留时间智能对齐、谱图叠加与镜像比对,以及质谱解卷积功能等。图4 色谱保留时间校正 4. 色谱及串联质谱建模一站式智能工具 ModelLab Chroman建模功能强大。系统内置各类常用的化学计量学与机器学习定性及定量模型,从而满足模式判别以及定量预测等不同色谱及色质联用数据建模的需要。图5 软件建模界面5. 丰富的色谱应用扩展 ModelLab Chroman针对不同分析领域提供丰富的色谱应用扩展,包括针对石油化工领域的油品智能分析系统、针对数字化配方的智能组分与感官调配系统等。图6 石油化工-定性鉴别与组分积分应用领域 通过ModelLab Chroman所提供的色谱法及色谱串联质谱法结合化学计量学和机器学习的多组学分析,其策略可广泛应用于各分析领域的复杂体系定量以及非靶向分析。结果灵敏、精确、智能,应用潜力巨大。1. 中药与民族药 药材及饮片真伪鉴别;道地产地溯源;多组分含量测定;指纹图谱分析;均化混匀工艺设计;2. 化学药与生物制品 有关物质分析;批间一致性评价;聚合型辅料精细表征;药品国评探索性研究;疫苗防护效力评价;3. 临床检测 代谢组学分析;药物代谢通路分析;质谱成像与空间代谢组学;4. 石油化工 轻重质油、润滑油、生物柴油等油品分析;油页岩分析;水中油的鉴别;录井勘探;真实性鉴别;5. 环境与水质 工业、农业废水、污水厂尾水等水质分析;污染物溯源分析;异味客观化评价;6. 快消品与农产品 真实性分析;风味感官组学;地理标志核心产区溯源;在线过程及工艺监控;品质分等分级;香精香料分析;数字化勾调配方开发。关于科迈恩科技科迈恩科技秉持“让AI为创新分析技术赋能”的愿景,致力于让广大用户受益于大数据和人工智能技术对于检测能力的创新和提高。目前科迈恩科技已在智能化仪器数据分析、快检技术、新药研发、精准医疗、感官评价等工业级AI建模等领域拥有系列化产品或解决方案,涵盖色谱、质谱、光谱、核磁共振等多维分析大数据的融合。所服务的客户覆盖制药、快消品、农产品、临床、石化、环保、交通、汽车制造等诸多领域。关注“科迈恩科技”公众号,了解更多分析检测行业的解决方案如您对科迈恩科技有更多想了解,可通过仪器信息网和我们取得联系!400-860-5168转3905
  • 关于开展2022年度“创和亿杯近红外光谱数据建模竞赛”的通知
    中国仪器仪表学会近红外光谱分会文件近学分字[2022] 第003号关于开展2022年度“创和亿杯近红外光谱数据建模竞赛”的通知近红外光谱行业专家、学者、研究生及相关单位:近些年,近红外光谱技术在我国得到了快速发展,其中化学计量学方法的深入研究和应用功不可没。分析模型是近红外光谱分析技术的核心之一,为了共同提升我国本领域人员的建模水平,中国仪器仪表学会近红外光谱分会举办首第二届“创和亿杯近红外光谱数据建模竞赛”,现将有关事宜通知如下:(1)本竞赛提供一套近红外光谱数据,来源于实际应用场景,校正集样本光谱阵(301×701)由301个固体样本的漫反射光谱构成,校正集样本类别值(301×1)(文件名:近红外光谱数据_训练集.csv,301×702,最后一列为类别值),预测集样本光谱阵(76×702)由76个固体样本的漫反射光谱构成(文件名:近红外光谱数据_测试集.csv,第一列为样本序号)。上述文件包含在本通知附件的压缩文件“竞赛数据2022.rar”。(2)任何人均可参赛,每位参赛人员仅限提交一套预测结果。(3)根据参赛者提交预测结果的准确性,本竞赛将评选出一等奖1名,二等奖2名,三等奖5名,优秀奖10名。颁发电子版获奖证书和奖金,其中一等奖奖金2000元,二等奖奖金1500元,三等奖奖金1000元,优秀奖只颁发获奖证书。(4)本竞赛采用识别准确率参数评价参赛结果:例如:预测的类别结果与实际类别一致的样本有38个,总共的预测样本为76个,则识别准确率为38/76=50%。(5)请参赛者于2022年8月20日前将完成的“参赛附表”,发送至邮箱:cxlyuli@sina.com ,若有疑问请微信联系13501215398(微信号)。(6)请参赛者认真填写“参赛附表”的个人信息,本竞赛不对外公开参赛人员的任何信息。(7)本竞赛将在2022年8月25日前向参赛者公布预测集的实际类别值,2022年9月15日前公布获奖名单。(8)本竞赛不收取任何费用。(9)本套近红外光谱数据版权归属中国仪器仪表学会近红外光谱分会,任何个人或单位不得将其用于商业或其他用途。中国仪器仪表学会近红外光谱分会 2022年7月25日参赛附表 一、参赛人员基本信息姓 名性 别年 龄专 业学 历职务/职称国 籍移动电话E-mail单 位 二、采用的建模方法(请尽可能详细说明采用的方法)建模过程的描述(不限字数,可附图表)光谱预处理方法及其参数光谱变量筛选方法模式识别方法及参数选择其他需要说明的方法 三、预测集样本的预测结果预测集样本序号类别预测值1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76  附件1:竞赛数据2022.rar 附件2:参赛附表.docx
  • 北京市农林科学院王冬:浅谈多元校正建模的几个常见问题
    浅谈多元校正建模的几个常见问题王冬北京市农林科学院质量标准与检测技术研究所, 北京 100097摘要 本文分别从样品代表性、数据分集、线性与非线性算法、关键变量筛选、异常样本的剔除、模型维数的选择与模型评价等方面分析了多元校正建模的常见问题。本文可为多元校正模型的建立、优化与维护提供一定的参考。1. 引 言近年来,化学计量学的发展、计算机技术和制造技术的进促使近红外光谱以及近红外高光谱技术高速发展。采用近红外光谱、近红外高光谱建立待测物质中目标物质含量的定量校正模型是近红外光谱、近红外高光谱分析过程的重要环节。本文对多元校正定量模型的建立过程,从样品代表性、数据分集、线性与非线性算法、关键变量筛选、异常样本的剔除、模型维数的选择与模型评价等方面对多元校正建模的常见问题展开讨论,以期为多元校正建模过程提供一定的参考。2. 多元校正建模的常见问题以下分别从样品代表性、数据分集、线性与非线性算法、关键变量筛选、异常样本的剔除、模型维数的选择与模型评价等方面分析多元校正建模的常见问题。2.1 样品代表性样品代表性强调多元校正建模需使用具有代表性的样品,即代表性样品。代表性样品是建立多元校正模型的基础。样品的代表性一般包含样品的品种代表性、空间(地域)代表性、时间代表性。在建立多元校正模型前,需要特别注意所收集样品是否具有足够的代表性。一组具备良好代表性的样品应尽量包含分析工作中遇到的各种情况。以建立樱桃可溶性固形物含量多元校正模型为例,所收集的代表性样品应均匀覆盖一定的品种和地域范围,例如一定的园区、县域、市域等,尽量涵盖各品种的样品。另一方面,欲建立一个较为稳健的校正模型,尤其对农产品,还需考虑农产品的时间代表性。对于农产品,时间代表性主要体现在两方面:一是一年之内的时间代表性,例如樱桃从成熟、采摘到入库、储存;二是跨年的时间代表性,例如对某地樱桃连续3~5年采样。这样做的原因是,农产品内部各种物质的相对含量会因水肥、光照、温度等的年度差异而不同,且农产品不能用已知材料“勾兑”;因此对于农产品需要连续3~5年采样,并根据具体情况逐年维护,从而保证校正数据中含有足够多的、代表性充足的样品,进而为提高所建模型的稳健程度提供具有充足代表性的基础数据。2.2 数据分集数据分集将全部数据中的一部分划分为外部验证集,该部分样品不参与模型的建立过程,只用来对模型的预测性能做出评价;余下的样品作为校正集。因此,所选的外部验证集必须要有足够的数据代表性。这里所谓的“数据代表性”主要是指所选的外部验证集数据、校正集数据应该和全部样本数据具有相似的数据分布特征或趋势,以图1为例说明。图1中,第1行示意全部样本数据的分布,第2~6行蓝色圆圈表示校正集数据的分布,红色菱形表示外部验证集数据的分布。从图1可见,很明显,只有ExVal.-1的外部验证集数据和其对应的校正集数据与全部样本数据具有相似的数据分布特征;ExVal.-2数据分布位于原数据集的左侧,即数值偏小;ExVal.-3数据分布位于原数据集的右侧,即数值偏大;ExVal.-4数据分布集中于原数据集的中部;ExVal.-5数据分布位于原数据集的左右两端;ExVal.-6数据分布集中于原数据集的中部且数据量明显少于其他外部验证集。图1 各数据集分布示意图为了对数据分集所得的校正集和外部验证集的数据代表性进行量化分析,对全部样本(All)数据、校正集(Calib.)数据、外部验证集(ExVal.-1)数据以及其他几种外部验证集(ExVal.-2 ~ ExVal.-6)数据分别计算样本容量(n)、最小值(Min)、最大值(Max)、平均值(Ave)、样本标准差(Std)、极差(Rx)和变异系数(CV),如表1所示。从表1数据可见,根据Min、Max、Ave、Std、Rx、CV的数据特征可以得知,Calib.和ExVal.-1皆与All具有相似的数据分布特征。ExVal.-2由于所选外部验证集数值偏小,其数据分布特征和All的数据分布特征的差异主要体现在Max、Ave、Std、Rx、CV;ExVal.-3由于所选外部验证集数值偏大,其数据分布特征和All的数据分布特征的差异主要体现在Min、Ave、Std、Rx、CV;ExVal.-4由于所选外部验证集集中于All的中部,其数据分布特征和All的数据分布特征的差异主要体现在Min、Max、Std、Rx、CV;ExVal.-5由于所选外部验证集分布于All的左右两端,其数据分布特征和All的数据分布特征的差异主要体现在Std、CV;ExVal.-6由于所选外部验证集集中于All的中部且数据量明显少于其他外部验证集,其数据分布特征和All的数据分布特征的差异主要体现在Min、Max、Std、Rx、CV,同时,ExVal.-6的n也可间接说明了该问题。最后要注意的是,校正集和外部验证集的样本容量之比一般为3:1 ~ 5:1;特殊情况除外。表1 各数据集统计信息Stat.AllCalib.ExVal.-1ExVal.-2ExVal.-3ExVal.-4ExVal.-5ExVal.-6n2520555552Min1.191.192.931.198.595.651.196.04Max10.2410.249.584.1510.246.5210.246.38Ave6.306.266.432.729.416.086.426.21Std2.432.482.491.390.660.374.700.24Rx9.059.056.652.961.650.879.050.34CV38.6%39.6%38.7%51.0%7.0%6.1%73.1%3.9%从以上分析可见,当数据集划分不合理时,所选数据集(例如外部验证集)的Min、Max、Ave、Std、Rx、CV的数值会表现出和全部样本数据对应统计量数值的差异,从而提示数据集划分存在问题。因此,建立校正模型前,应对校正集数据、外部验证集数据和全部样本数据分别计算n、Min、Max、Ave、Std、Rx、CV统计量,并比较三个数据集的各统计量是否存在明显差异。2.3 线性和非线性算法选择线性拟合算法、亦或是非线性拟合算法,是建立校正模型过程的重要问题。线性拟合和非线性拟合各有优点,也各有不足。一般地,非线性拟合模型较线性拟合模型具有更高的复杂程度和更多的不确定性,选择拟合算法应以合适为原则。以下举例说明线性拟合算法和非线性拟合算法的选择。图2(a)中“▲”代表校正集数据。线性拟合模型、非线性拟合模型的预测值-参考值回归方程和测定系数(Determination Coefficient, R2)如表2所示。结合图2(a)和表2数据可见,非线性拟合模型的拟合准确度更高。然而,待测样本的数据分布如图2(b)的菱形(◆)所示。显然,对于如图2(b)所示的待测样本数据,用线性拟合模型所得的预测值将具有更小的预测误差。(a)(b)图2 线性拟合模型和非线性拟合模型示意图▲校正集数据, ◆待测数据表2 线性拟合模型和非线性拟合模型的预测值-参考值回归方程和测定系数模型回归方程R2线性Y=1.7333X+4.28890.6999非线性Y=-0.0145X6+0.4367X5-5.1345X4+29.851X3-89.49X2+130.05X-60.6440.9912在这里需要注意的是,如果数据本身确实是遵循非线性规律,就需要使用非线性拟合算法对其建立校正模型。2.4 关键变量筛选对于近红外光谱,通过一定的算法筛选关键变量在一定程度上可以减少参与建模的变量个数,减轻运算负荷并提高运算速度。然而,对于建立校正模型,特别是定量校正模型,所选变量的稳定性是筛选关键变量不可避免的问题。这里所谓的“变量的稳定性”,是指所选变量在校正集发生变化时还能保持其关键变量特征的属性。这里建议采用蒙特卡洛方法和变量筛选方法相结合,通过设置蒙特卡洛方法的单次采样率和蒙特卡洛次数2个关键参数,相当于获得了基于原校正集的多个子校正集。再通过对多个子校正集筛选关键变量,从而进一步对所选变量的稳定性进行比较与评估,进而提高所选关键变量的稳定性。2.5 异常样本的剔除在建立校正模型时,常会遇到异常样本。异常样本对模型准确度具有很大的负面影响。正确地识别异常样本并对其进行剔除,可以有效提高模型的准确度。异常样本的识别方法有很多,本文采用预测残差和杠杆值相结合的方法对异常样本进行识别。通常,预测残差阈值设定为全部校正集样本预测残差平均值的2倍,杠杆值阈值设定为全部校正集样本杠杆值平均值的3倍。当某个样本同时满足预测残差大于预测残差阈值、杠杆值大于杠杆值阈值时,可判定该样本为异常样本,应予以剔除。下面以图3结合表3数据说明剔除异常样本对模型的影响。图3(a)是剔除异常样本前预测值-参考值相关关系图。从图3(a)结合表3数据可见,由于异常样本的存在,模型测定系数(Determination Coefficient, R2)仅0.5766,均方根误差(Root Mean Square Error, RMSE)为2.17。当剔除异常样本后,如图3(b)所示并结合表3数据可见,模型R2提高到0.9977,RMSE下降到0.19。可见,剔除异常样本有利于减小模型的误差、提高模型的准确度,进而可提高模型的预测性能。(a)(b)图3 剔除异常值前(a)、后(b)的预测值-参考值相关关系图表3 剔除异常样本前、后的预测值-参考值回归方程、测定系数和均方根误差剔除异常样本回归方程R2RMSE剔除前Y=0.7797X+0.90810.57662.17剔除后Y=1.0174X+0.01600.99770.192.6 模型维数的选择与模型评价不同于一元线性回归只有1个自变量,多元校正模型有多个自变量。在建立多元校正模型时,模型自变量的个数即模型维数的选择成为另一个关键问题。一般地,在建立多元校正模型的过程中,往往计算多个维数,再通过预测残差平方和(Prediction Residual Error Sum of Squares, PRESS)随模型维数(Nf)的下降趋势判断多元校正模型的最佳维数。图4分别为PRESS随Nf变化的3种较为典型的情况。图4(a)中,PRESS随Nf的增加先下降、后上升,在Nf= 6时达到最小;此种情况一般选PRESS最小值所对应的Nf作为模型的最佳维数。图4(b)中,PRESS随Nf的增加一直下降,此种情况需要对各维数PRESS下降值做显著性检验,当PRESS下降不显著时,则取上一个Nf作为模型的最佳维数;图4(b)中,Nf从6到7时PRESS下降不显著,因此模型的最佳维数定为6。图4(c)是较为隐匿的情况,Nf从4到5时PRESS下降不显著,但PRESS在Nf从5到6又发生了显著下降,因此该种情况模型的最佳维数应定为6而不是4。 (a)(b)(c)图4 PRESS随Nf变化示意图在建立多元校正模型时还需注意模型的欠拟合和过拟合问题。如图5所示,所谓欠拟合是指模型维数低于最佳维数,导致所建模型的预测能力不足;所谓过拟合是指模型维数高于最佳维数,亦会导致所建模型的预测能力下降。图5 欠拟合、过拟合、理想情况的PRESS随Nf变化示意图欠拟合、过拟合和理想情况的预测值-参考值的相关关系图如图6所示,其对应的回归方程、R2和RMSE如表4所示。图6(a1)、图6(a2)分别是欠拟合校正、交互验证数据的预测值-参考值相关关系图;结合表4数据可见,欠拟合的校正、交互验证R2皆不高,RMSE皆较大。图6(b1)、图6(b2)分别是过拟合校正、交互验证数据的预测值-参考值相关关系图;结合表4数据可见,过拟合的校正R2很高,而交互验证R2不高,二者相差很大;另一方面,过拟合的校正RMSE很小,而交互验证RMSE很大,二者相差也很大。图6(c1)、图6(c2)分别是理想情况校正、交互验证数据的预测值-参考值相关关系图;结合表4数据可见,理想情况的校正、全交互验证R2皆较高且二者相差不大,RMSE皆较小且二者相差不大。欠拟合、过拟合皆不能用于实际工作。造成上述现象的主要原因是:对欠拟合模型,由于模型维数过低,没有提取到足够的有用信息,导致模型的预测准确度下降。对过拟合模型,由于模型维数过高,在提取有用信息的同时还裹挟了校正集的噪声信息;由于模型维数过高,模型对校正数据进行自预测的准确度显然是很高的,但是对于交互验证,由于所建模型裹挟了校正集的噪声信息,因此对交互验证的预测准确度很低。图6 欠拟合、过拟合、理想情况的校正、交互验证数据预测值-参考值相关关系图(a1)欠拟合校正, (a2)欠拟合全交互验证, (b1)过拟合校正, (b2)过拟合全交互验证,(c1)理想情况校正, (c2)理想情况交互验证表4 欠拟合、过拟合、理想情况校正、交互验证回归方程、测定系数和均方根误差拟合情况数据集回归方程R2RMSE欠拟合校正Y=1.0676X+0.17420.79861.75全交互验证Y=0.9135X+0.51150.71231.79过拟合校正Y=0.9989X+0.02990.99960.07全交互验证Y=0.9671X+0.10710.76981.62理想校正Y=0.9918X-0.05640.96300.60全交互验证Y=0.9770X+0.20670.95970.62对多元校正模型的评价,主要从相关性和误差两个方面进行。对多元校正模型的相关性一般采用测定系数(Determination Coefficient, R2)作为评价参数:R2取值范围为0 ~ 1,且R2值越接近1,模型的相关性越强,反之亦反。对多元校正模型的误差一般采用均方根误差(Root Mean Square Error, RMSE)作为评价参数:一般地,RMSE值越小,模型的误差越小,反之亦反。对应不同的数据集,测定系数有:校正测定系数(Determination Coefficient of Calibration, R2C)、交互验证测定系数(Determina Coefficient of Cross Validation, R2CV)、预测测定系数(Determination Coefficient of Prediction, R2P),均方根误差有:校正均方根误差(Root Mean Error of Calibration, RMSEC)、交互验证均方根误差(Root Mean Error of Cross Validation, RMSECV)、预测均方根误差(Root Mean Error of Prediction, RMSEP)。除此之外,评价模型的另一个重要指标是相对预测性能(Ratio Performance Deviation, RPD)。RPD的大小反映模型预测性能的高低。一般地,RPD ≥ 3.0表示模型预测能力较好,可以用于实际工作;1.5 ≤ RPD 3.0表示模型预测能力一般,通常只能用于快速筛查;RPD 1.5表示模型预测能力较差,一般不能用于实际工作。2.7 避免“假线性”在建立多元定量校正模型时还需要注意避免“假线性”。如图7所示,从图7(a)和图7(b)可见,这两组数据的线性很差。然而,当把图7(a)和图7(b)的数据放在一起,如图7(c)所示,结合表5数据可知,放在一起的数据,即数据集(c),所建模型的R2超过0.999,貌似线性很好,但实际上这是“假线性”。从RMSE数据可见,数据集(c)的模型并未因其R2的增大而明显减小。数据集(c)的模型如果用于实际工作,会存在很大的风险。导致该现象的主要原因是,两组数据之间跨度过大,并且在两组数据之间缺失样本。这样的“假线性”应特别注意并避免。(a)(b)(c)图7 三种数据集的预测值-参考值相关关系图表5 三种数据集的预测值-参考值回归方程、测定系数和均方根误差数据集回归方程R2RMSE(a)Y=0.4436X+1.86850.27533.03(b)Y=0.0482X+290.360.00214.30(c)Y=1.0023X-1.16270.99953.623. 总结校正模型是近红外光谱、近红外高光谱能够进行高效分析的数学基础。建立性能良好的校正模型对实现近红外光谱、近红外高光谱无损、快速、高效分析是非常重要的。多元校正建模过程需要注意很多细节,包括样品代表性、数据分集、算法选择、关键变量筛选、异常样本剔除、模型维数选择、模型评价等。在其中,样品代表性是基础,也是决定建模工作成败的关键之一。对于农产品,还要特别注意样品的时间代表性。建立校正模型并不是一劳永逸的工作。模型不是产品,而是一种方法。当样品的情况发生变化时,所建模型很可能不再适合当前样品,就需要对模型进行维护,甚至重建。需要特别注意的是,多元校正模型有严格的应用前提;如果不满足模型的应用前提,模型预测值的准确性将难以保证。进一步地,建模过程要秉承客观公正的原则。例如:在剔除异常样本方面,对异常样本的识别需要有一定的根据,不能凭感觉剔除所谓的异常样本;在模型评价方面,需要客观地根据有关统计量的数据对模型的准确度、精密度、预测性能等进行客观公正的评价,不可以根据主观好恶随意调节模型维数。作者简介:王冬,男,1982年生,籍贯北京;2010年毕业于中国农业大学,获得农学博士学位;现就职于北京市农林科学院质量标准与检测技术研究所,副研究员;主要研究方向为振动光谱分析与化学计量学,主要从事近红外光谱、中红外光谱、拉曼光谱、太赫兹波谱无损快速分析工作。曾主持完成中国博士后科学基金会、科技部国家科技支撑计划子课题任务、北京市农林科学院博士后基金、北京市农林科学院青年基金、北京市农林科学院科技创新能力建设专项储备性研究课题等,曾以科研骨干身份参加农业农村部公益性行业(农业)科研专项课题、科技部国家重大科学仪器设备开发专项、北京市科委专项课题等。截至目前在振动光谱和化学计量学等有关领域发表学术论文60余篇,其中第一作者论文40余篇;获授权发明专利9项、实用新型专利3项;获得软件著作权2项;参编著作及科普读物4部;参与制定国家标准1项;合作指导硕士研究生2名;获得中华人民共和国教育部高等学校科学研究优秀成果奖-科技进步奖一等奖1项、中华人民共和国农业农村部神农中华农业科技奖一等奖1项。作者邮箱: wangd@iqstt.cn, nirphd@163.com.
  • 关于开展2021年度“创和亿杯全国近红外光谱数据建模竞赛”的通知
    近红外光谱行业专家、学者、研究生及相关单位  近些年,近红外光谱技术在我国得到了快速发展,其中化学计量学方法的深入研究和应用功不可没。分析模型是近红外光谱分析技术的核心之一,为了共同提升我国本领域人员的建模水平,中国仪器仪表学会近红外光谱分会举办首届“创和亿杯全国近红外光谱数据建模竞赛”,现将有关事宜通知如下:  (1)本竞赛提供一套近红外光谱数据,来源于实际应用场景,校正集光谱阵(1200×351)由1200个固体样本的漫反射光谱构成(文件名Xtrain.txt),校正集浓度阵(1200×1)由对应1200个固体样本的某一成分含量构成(文件名Ytrain.txt),预测集光谱阵(200×351)由200个固体样本的漫反射光谱构成(文件名Xtest.txt)。上述三个文件包含在本通知附件的压缩文件“竞赛数据.rar”。  (2)任何人均可参赛,每位参赛人员仅限提交一套预测结果。  (3)根据参赛者提交预测结果的准确性,本竞赛将评选出一等奖1名,二等奖2名,三等奖5名,优秀奖10名。颁发电子版获奖证书和奖金,其中一等奖奖金2000元,二等奖奖金1500元,三等奖奖金1000元,优秀奖只颁发获奖证书。  (4)本竞赛采用以下两个参数评价预测结果的准确性:  (5)请参赛者于2021年4月1日前将完成的“参赛附表”,发送至邮箱:cxlyuli@sina.com,若有疑问请微信联系13501215398(微信号)。  (6)请参赛者认真填写“参赛附表”的个人信息,本竞赛不对外公开参赛人员的任何信息。  (7)本竞赛将在2021年4月5日前向参赛者公布预测集的浓度真值,2021年4月15日前公布获奖名单。  (8)本竞赛不收取任何费用。  (9)本套近红外光谱数据版权归属中国仪器仪表学会近红外光谱分会,任何个人或单位不得将其用于商业或其他用途。  中国仪器仪表学会近红外光谱分会  2021年2月26日  附件:  关于开展2021年度“创和亿杯全国近红外光谱数据建模竞赛”的通知.pdf  参赛附表.docx  竞赛数据.rar参赛附表  一、参赛人员基本信息姓 名性 别年 龄专 业学 历职务/职称国 籍移动电话E-mail工作单位  二、采用的建模方法(请尽可能详细说明采用的方法)建模过程的描述(不限字数,可附图表)光谱预处理方法及其参数浓度值预处理方法光谱变量筛选方法定量校正方法其他需要说明的方法  三、预测集样本的预测结果预测集样本序号预测值123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200
  • 2023年度“创和亿杯全国近红外光谱数据建模竞赛”活动评述
    由中国仪器仪表学会近红外光谱分会组织的全国近红外光谱数据建模竞赛已经经历了三年,由于大量建模爱好者或相关领域从业人员的积极参与,已成为我国近红外光谱领域备受关注的重要活动。在前两次的次活动中,分别对实际复杂样品近红外光谱的定量和定性问题进行了建模方法的探讨。第一次活动的数据质量较高,采用常规的方法即可得到比较理想的结果。第二次活动的数据应该是实际工作中积累的数据,但目标值(类别)可能是人工指定的结果,具有很大的不确定性,很难得到较为理想的结果。今年的数据具有较高的挑战性,样品数量不是很大且分布不均匀,光谱的构成也较为复杂,对选手的建模经验和技术都有较高的要求。从整体结果看,参赛的116位选手,评价结果(MAE和SEP的平均值)小于0.4的有56位,小于0.3的有35位,这些模型都具有一定的可用性。但是,也有20位选手的模型评价结果大于1,也说明我们的建模技术还需要继续推广和普及,以避免在实际工作出现问题。从建模方法以及相关的数据处理方法看,应该是各显神通,很难看出方法之间的优劣。在前8名获奖者的模型中,建模方法就包括了偏最小二乘回归(PLSR)、支持向量回归(SVR)、高斯回归、神经网络等。但是,深度学习方法仍没有崭露头角,此方面的研究还需要继续努力。可能是我们对深度学习的本质还没有理解,如何在近红外光谱建模中发挥作用仍需要我们深入思考。另外,参赛模型的建立基本都是自编程序,matlab和python为主,很少采用商业或开放软件。说明近红外光谱建模仍具有灵活性或不确定性,还很难采用固定的程式进行建模,建模流程和方法的规范仍需进一步的探索。建模策略在今年的比赛中显得十分重要,前8位的选手中有5位选手对数据进行了考察并将数据分为两组进行建模,一位选手根据目标值进行了分段建模,一位选手采用了多模型集成建模(PCR+PLS+岭回归),只有一位选手采用了“常规”的建模策略(SNV+一阶导数+MCUVE变量选择+PLS)。充分地显示了数据考察在建模过程中的作用,针对数据的特点进行建模具有关键作用。同时也说明,近红外光谱建模仍需要经验,无法按照“模板”式的统一程序建立较好的模型。因此,加强建模技术的培训和训练仍是我们需要开展的重要工作。强烈建议按照“数据考察、建模方法选择和优化、模型验证”三个步骤进行建模。同时重申我此前的观点:数据质量最重要;建模方法不重要;不要过度优化模型(模型验证很重要)。此外,今年我们课题组的四位参赛选手都得到了很好的成绩。他们的体会是要注重数据的考察和模型的验证。在数据考察阶段,除发现了光谱的分组现象外,还仔细考察了校正集和预测集光谱的奇异样本,仔细分析了奇异样本对模型和预测结果的影响。同时对预测结果的合理性进行了评估,甚至采用了预测集光谱与校正集光谱之间的差异对预测结果进行了评估。同时,他们还体会到了合作交流的重要性,在建模过程中,尽管采用了不同的建模方法,但在建模策略和结果评价方面进行了充分的沟通。充分说明了团队合作的重要性。最后,再次建议将三年的数据集公开,包括样品的构成、光谱与目标值的测试方法等,以便活动结束后大家可以继续开展研究工作,甚至作为建模方法比较的公共数据集。(南开大学化学院 邵学广教授)
  • 首届“创和亿杯全国近红外光谱数据建模竞赛”活动总结及建议
    中国仪器仪表学会近红外光谱分会举办的首届“创和亿杯全国近红外光谱数据建模竞赛”成功举办,本网特邀请我国分析化学和化学计量学专家南开大学邵学广教授,本届竞赛的组织者中石化石油化工科学研究院褚小立教授级高工,以及本届竞赛支持单位上海创和亿电子科技发展有限公司的张军工程师对本届竞赛进行评述,并对未来竞赛活动提出一些设想。  一、基本情况  开展近红外光谱建模竞赛是中国仪器仪表学会近红外光谱分会计划已久的一项工作,但因各种原因一直未举办,直到遇到这套建模数据。这套数据来源于真实的应用现场,是便携式近红外光谱仪器,采用漫反射方式测量烟草烟碱的数据集,样品数量多,烟碱浓度分布也相对较宽,具备较好的光谱与浓度定量统计意义。首次进行建模竞赛,选一套稳健的数据集至关重要。这套数据集的稳健之处在于建模算法(线性或非线性)对预测结果的影响较小,光谱变量选取方法影响较小,采用常规的预处理方法便可在很大程度上提高模型的预测能力。可以说,只要参赛者的建模步骤规范,具备基本的建模技巧,通过细心和耐心选择常用的建模算法(包括光谱预处理方法、波长选择方法和定量校正方法)及其参数,采用商品化的化学计量学软件,不需要自己编程,就可以得到优秀的成绩。  从来自70多个单位,100多名参赛者的结果来看,达到了这个基本目标,尤其是一些来自应用企业一线工程师的建模结果非常优秀,这是近红外光谱技术应用落地的重要基础。本次比赛共收到109个模型的预测结果,通过对200个预测集光谱的预测结果与参考值之间的偏差,即MAE(平均绝对误差)和SEP(预测集均方根误差),进行计算,采用了二者的均值进行了模型评价。小于0.30的76个,小于0.25的54个,小于0.22的19个,本届的参赛模型大都具有较好的预测结果。  开展竞赛之前,近红外光谱分会曾小范围对这套数据组织了盲测,数据提供方(上海创和亿)也长时间在公司内部进行盲测,这次竞赛的最优结果已接近了前期盲测的最优值,但没有预想的“实质性”突破。在竞赛前,曾有预想出现“黑马”,把这套数据的MAE降低到0.15以下,把SEP降低到0.20以下,这一目标尚没有实现,希望有兴趣的同行,继续尝试新的建模策略和算法,进一步提高建模能力。  二、定量建模算法  多数参赛者的模型采用的建模方法是最常用的PLS回归,部分模型采用了SVM和神经网络等,神经网络方法还包括BP、CNN,但CNN方法的模型并不很多,与当前的人工智能研究热潮有点不符。当然与这套数据集的特点有很大关系,据了解有不少参赛者尝试了很多算法,但PLS效果好,所以只提交了PLS结果。也有采用自行提出的一些算法,预测结果也较好。  值得说明的是,PLS模型采用的算法和实现方式不尽相同,多数采用了普通的NIPALS和SIMPLS算法,也有人采用了MATLAB系统中的plsregression,或使用了Python scikit-learn包中的PLSRegression,也有采用商业化学计量学软件或仪器公司配套的软件。这些不同的计算方法会导致结果上稍有不同。  在模型参数的确定与模型验证方面,多数模型采用了各种形式的交叉验证,也有采用K-S分组的方式划分了验证集进行模型验证。不同验证方式的结果都具有合理性和科学性,但也都有各自的局限性。某些模型采用了不同的多种方式同时进行验证,但由于篇幅的限制,提交的报告中几乎没有系统的讨论。  校正集光谱的考察是建模的首要步骤,如奇异样本的识别与删除,但只有少数模型在建模前进行了数据的考察。模型的适用性考察几乎没有讨论,极少有人对预测集的奇异光谱给予关注。  三、光谱数据处理方法  数据处理是建模的关键步骤之一,本次参赛模型几乎全部采用了信号处理技术对光谱进行了散射校正和背景扣除处理,MSC、SNV、SG/CWT求导(1阶、2阶)等常用方法都得到了尝试。某些模型采用了光谱变量选择方法,如MC-UVE、CARS、SPA、波段选择(iPLS)等。对于这套竞赛数据,从预测结果来看,变量选择的作用没有得到体现。上述这些结果具有理论和实践上的合理性。漫反射光谱的散射校正一般认为是必要的,但背景信号是否对模型具有贡献一直没有得到确切答案。对于大多数校正集,当校正集光谱数量大于光谱变量数时,变量选择应该不再是影响模型准确性的关键因素,但变量选择对精简模型和提高模型的解释性等仍具有意义。  四、建议  此次建模比赛的参与积极性很高,对促进建模技术的交流与提高具有积极作用,很多专家和同行都建议把这项竞赛持续办下去。由于是首次进行建模比赛,还有许多值得提高改进的地方,例如,本次竞赛只把预测结果的“MAE”和“SEP”作为准确性评判标准,没有考虑界外样本的影响,也没有考虑预测值与参考值的相关性(散点图)、预测结果的相对偏差(包括除奇异点以外的最大偏差)等参数。另外,建议进一步完善参赛文档的完整性,例如建模方法的描述要尽量详细,从原理到计算过程和相关参数,保证模型的可重复性。建议以后竞赛对建模过程的描述赋予一定的权值(例如占20%),专家小组对此进行评审打分。此外,竞赛方式也有待进一步改进,目前是以个人的形式参赛,存在同一个研究小组多人(5人以上)同时参赛的情况,这是值得鼓励的,但如果其预测水平基本相当且都较为优秀,就会影响所有参赛者的排名,有失竞赛的公平性和多元化,如何规避有待商榷。建议采用初赛和复赛的方式进行,同时进一步提高竞赛的奖金,吸引更多行业高手参与。  一套合适的数据集是竞赛成功的关键,也是共同提升建模能力的重要生产资料,在此呼吁业内人士积极提供近红外光谱数据集,逐步形成中国近红外光谱竞赛集数据库,公开公布相关信息,供国内外同行开展相关研究工作长期下载使用。
  • ​2022年度“创和亿杯全国近红外光谱数据建模竞赛”活动总结和建议
    2022年7月25日-8月20日,中国仪器仪表学会近红外光谱分会成功举办了2022年度“创和亿杯全国近红外光谱数据建模竞赛”,得到广大近红外光谱和化学计量学等相关研究和应用领域同仁的积极响应。本网特邀请我国分析化学和化学计量学专家、南开大学邵学广教授对本届竞赛进行评述,并对未来竞赛活动提出一些设想。南开大学邵学广教授以下为邵学广教授对本次活动的总结:在算法方面,75位参赛选手尝试了多种方法,包括PLS-DA、SVM、LDA、随机森林、SIMCA、KNN、Logistic回归等等。几乎所有参赛选手都采用了信号处理和变量选择,方法包括中心化、标准化、MSC、SNV、SG、小波变换、PCA(降维)、CARS、遗传算法、biPLS、模拟退火等等,也有个别选手根据经验进行了波段选择。但是,很难看出建模方法和信号处理方法对模型预测效果的显著性影响。在排名前24位(预测准确率在60%以上)的参赛选手主要采用了常用的PLS-DA、SVM和LDA,部分选手采用了多个方法的组合,如LDA+SVM、PLS-DA+SVM等。值得一提的是,某些参赛选手采用了基于多模型的投票机制进行预测,取得了不错的效果。本次比赛的数据是烟草样品的光谱数据,其类别是人工判定的。由于类别之间的差异本来就不是很明显,近红外光谱之间相似性很高,很难建立很好的判别模型。从光谱的主成分分布图上可以看出,除第7类(G)外,其他类别的样品严重重叠。采用单一的建模方法很难得到满意的结果。尽管通过模型的优化可以提高预测正确率(真阳性TP样品数),但假阳性(FP)样品数也会随之增加。因此,本次参赛的多数选手已经得到了很好的建模效果,值得庆贺。获得一、二等奖的三位选手预测准确率达到了75%以上,值得特别点赞。但也有三分之一的模型预测准确率在40%以下,说明我们还要加强定性建模方面的学习和训练。中国仪器仪表学会近红外光谱分会拟邀请部分取得优异成绩的选手在全国第九届近红外光谱学术会议期间分享建模经验,值得关注和积极参加。建议:与去年定量建模比赛一样,建议进一步完善参赛文档的完整性,例如建模方法的描述要尽量详细,从原理到计算过程和相关参数,保证模型的可重复性,有利于建模技术的推广应用。
  • 声学影响图(AIM)建模工具,让无损检测全聚焦方式(TFM)如虎添翼
    全聚焦方式(TFM)在无损检测(NDT)中引进全聚焦方式(TFM)全聚焦方式(TFM)已经在无损检测(NDT)领域中引起了很大的轰动。但是,在使用全聚焦方式(TFM)进行检测时,仍然有些难题尚未解决,例如:如何为某个特定的检测选择适当的传播模式(声波组)。一些在早期采用这种方法进行检测的人员很快地注意到,使用了错误的模式,可能意味着使某些缺陷从显示屏幕上完全消失,从而会造成显而易见的严重影响。为全聚焦方式(TFM)检测选择适当设置的挑战在为某种检测选择传播模式(声波组)时,检测人员需要了解待检工件中可能会存在哪种缺陷。了解了缺陷类型,有助于了解有关反射体方向的信息,而这些信息在使用超声技术(UT)进行检测时至关重要。使用常规UT、相控阵UT或全聚焦方式(TFM)进行检测的基本原理保持不变。当发射声束的入射角等于目标反射体的反射角时,检出率(POD)会达到最高。另一个要考虑的是探头参数。根据所使用探头的不同,声波可能没有足够高的波幅,无法达到目标缺陷。即使已经将全聚焦方式(TFM)区域限定在某个区域,仍然有可能因为物理方面的原因,某种特定探头无法在被测工件内较深的位置处聚焦。有很多因素需要考虑,那么我们要如何简化检测过程,并确保有效完成检测呢?图1:为一系列横通孔成像所使用的不同模式。在本例中,样件非常厚,而且串列模式(TTT和LLL)的适应性较差。使用声学影响图建模工具的解决方案OmniScan X3相控阵探伤仪配备有一个内置扫查计划工具。扫查计划工具中有一个专用于全聚焦方式(TFM)检测的声学影响图(AIM)建模工具。声学影响图(AIM)建模工具可以帮助用户为他们的检测选择正确的传播模式或声波组。图2:OmniScan X3的扫查计划在TFM模式下显示由图1中的探头、楔块和参考标准试块生成的声学影响图(AIM)。声学影响图预测了检测的覆盖范围,并给出了TT声波组的灵敏度指数值(41.42)。所获得的全聚焦方式(TFM)图像也显示在图1中(左图)。上面热图中浅橙色的方块代表TFM区域,即由用户划定的关注区域。图3(点击放大):声学影响图(AIM)模型表明TTT和LLL声波组在串列模式下的覆盖范围和灵敏度:TTT声波组的灵敏度指数(SI)为13.89,LLL声波组的灵敏度指数为2.18。这些对应于图1中的TTT声波组(中图和右图)及LLL声波组的全聚焦方式(TFM)图像。声学影响图(AIM)建模工具考虑多种参数,其中包括:探头和楔块、声速、厚度、样件的几何形状、检测技术、声波组,当然还有检测人员在“影响区”菜单中输入的用于描述目标缺陷类型的参数。缺陷的方向是影响声束探测效果的主要因素。声学影响图(AIM)模型可以为用户清楚地演示针对某个特定的缺陷,使用哪个角度可使声束信号更好地探测到缺陷。使用声学影响图建模(AIM)工具确定最适合的传播模式用户配置所需的关注区域,然后输入预期的缺陷方向(单位为度),对于那些一般来说小于检测波长的缺陷,如:孔隙或其他较小的体积型缺陷,选择“全向”。调色板的不同颜色可以清晰地区分出影响区域中各部分的灵敏度性能。每种颜色覆盖3分贝范围,而且可以表明相对于最大波幅的超声响应。下图,为一个声波组的3个扫查计划屏幕截图,表明随着对缺陷方向从5度到15度再到25度的调整,声学影像图(AIM)所产生的变化。滑动查看灵敏度指数的重要性需要注意的是,每种颜色的实际值在不同的声学影响图中各不相同。这是因为在每个声学影响(AIM)模拟图中,颜色的分贝范围从归一化之后所预测的最大波幅向后测量。为了使用户在不同的声学影响图之间进行比较,我们提供了灵敏度指数(SI)值。灵敏度指数(SI)是一个以任意单位表示的值,代表在归一化之前为某个给定声波组的整个模拟图所估算的最大灵敏度。如图2和图3所示,灵敏度指数值如下:TT声波组为41.42TTT声波组为13.89LLL声波组为2.18只需参考图2和图3的热图,您就可以清楚地看到,TTT声波组在TFM区域(橙色框)中所预测的覆盖范围不足,但是,LLL声波组和TT声波组似乎是同样好的选择。在这两张图中,红色和橙色区域都充分覆盖了TFM区域。但是,如果比较TT和LLL声波组声学影响图的灵敏度指数值(分别为41.42和2.18),则可以计算出TT声波组图中红色和橙色区域的灵敏度比LLL声波组强19倍。预测的灵敏度越高,在全聚焦方式(TFM)检测中,这些区域的期望信噪比(SNR)就越好。在全聚焦方式)(TFM检测中使用声学影响图(AIM)建模工具优势特性的总结在我们给出的例子中,通过比较三个声波组(TT、LLL和TTT)的AIM模拟图,我们可以预测TT声波组会提供最高的灵敏度,并会最好地覆盖TFM区域。使用相应的声波组获得的TFM图像(图1)表明,建模工具正确模拟了这些声波组探测参考试块中缺陷的成像能力。这说明声学影响图(AIM)建模工具有助于用户在选择TFM传播模式时,消除某些不确定的猜测成分。全聚焦方式(TFM)在工业检测应用中的发展前途光明,大有作为,但是,如果没有适当的建模工具,则很难预测到实际的声波覆盖范围和灵敏度水平。OmniScan X3探伤仪的扫查计划工具带有声学影响图(AIM)建模工具,可使检测人员充满信心地确定哪种全聚焦方式(TFM)模式更适合于当前的检测。
  • 2021年度“创和亿杯全国近红外光谱数据建模竞赛”获奖名单公示
    中国仪器仪表学会近红外光谱分会于2021年3月1日—4月1日举办了首届“创和亿杯全国近红外光谱数据建模竞赛”,得到广大近红外光谱和化学计量学等相关研究和应用领域同仁的积极响应,收到来自70余家单位的109位参赛者的作品。从大部分参赛者的建模过程和预测结果来看,我国近红外光谱数据的建模水平较高,所用算法和策略先进、可靠,建模步骤规范,预测结果稳健、可信。  感谢各位参赛者的积极参与和辛勤付出,感谢上海创和亿电子科技发展有限公司为本次竞赛提供的支持。本次竞赛预测集样本浓度的化学实测值近日已以邮件形式发给了参赛者。为共同提升我国本领域人员的建模水平,拟将在2022年全国第九届近红外光谱学术会议期间研讨建模竞赛的相关情况。参赛者预测值“(MAE+SEP)/2”的统计结果  根据本次竞赛的规程,以“(MAE+SEP)/2”为评价指标,依次选出35位获奖者,其中,一等奖1名,二等奖2名,三等奖5名,优秀奖27名。现将拟获奖名单进行公示,公示期为2021年4月3日—4月9日。公示期内,如有异议,请将意见或建议发送至邮箱(cxlyuli@sina.com)或微信(13501215398)。  因首次进行此类竞赛活动,考虑不周之处,敬请理解和谅解,期待下一届竞赛再次相见。  中国仪器仪表学会近红外光谱分会  2021年4月2日2021年度“创和亿杯全国近红外光谱数据建模竞赛”拟获奖名单  一等奖  张述敏(北京工商大学)  二等奖(以姓氏汉语拼音为序)  毕一鸣(浙江中烟工业有限责任公司)  张海亮(中南大学化学化工学院)  三等奖(以姓氏汉语拼音为序)  洪士军(华东理工大学)  江 苏(天津九光科技)  刘 珂(中国石油乌石化分公司研究院)  王海朋(中石化石油化工科学研究院)  王起明(华东交通大学)  优秀奖(以姓氏汉语拼音为序)  陈曾恺(步琦实验室设备贸易(上海)有限公司)  杜娇君(华东交通大学机电与车辆工程学院)  付家顺(海南大学食品科学与工程学院)  黄扬明(中国农业大学理学院)  贾光辉(湖南大学)  焦安然(南开大学物理科学学院现场光谱实验室)  李春婷(桂林理工大学)  李 淼(首都师范大学)  李 明(云南瑞升烟草技术(集团)有限公司)  李泽鹏(海天味业(高明)股份有限公司)  林同征(华东交通大学)  刘伟男(中国矿业大学)  倪鸿飞(浙江大学)  沈 阳(中海油田服务股份有限公司)  史素娟(上海烟草集团北京卷烟厂有限公司)  孙 甲(中国石油乌石化分公司研究院)  孙 岩(南开大学化学学院)  王 箫(北京北分瑞利分析仪器(集团)有限责任公司)  王晓梅(天纺标检测认证股份有限公司)  魏康丽(海天味业(高明)股份有限公司)  熊智逸(华东交通大学机电与车辆工程学院)  徐金阳(北京工商大学)  余海东(海南大学)  云永欢(海南大学)  张 进(贵州医科大学)  张若秋(华东理工大学化学与分子工程学院)  周兆邦(山东大学药学院)
  • 2023“创和亿杯近红外光谱数据建模竞赛” 预测集实际测量值公布
    2023年9月19日,中国仪器仪表学会近红外光谱分会发布了关于开展2023年度“创和亿杯近红外光谱数据建模竞赛”的通知。通知要求参赛者于2023年10月30日前完成并提交“参赛附表”,截至目前,超过110人参加了本次竞赛。按照活动进程,中国仪器仪表学会近红外光谱分会正式公布2023年度“创和亿杯近红外光谱数据建模竞赛” 预测集实际测量值。点击下载:2023 年度“创和亿杯近红外光谱数据建模竞赛” 预测集实际测量值.xlsx测试集样本序号化学成分16.3225.95635.14445.3658.88465.96475.32886.61696.012106.828115.704126.616136.088145.788156.544165.92175.204185.672195.912205.316根据参赛者提交预测结果的准确性,本竞赛将评选出一等奖1名,二等奖2名,三等奖5名,优秀奖10名。颁发电子版获奖证书和奖金,其中一等奖奖金2000元,二等奖奖金1500元,三等奖奖金1000元,优秀奖只颁发获奖证书。本竞赛将在2023年11月5日前向参赛者公布预测集的实际浓度值,2023年11月15日前公布获奖名单。更多信息请查看:关于开展2023年度“创和亿杯近红外光谱数据建模竞赛”的通知
  • 2022“创和亿杯近红外光谱数据建模竞赛” 预测集实际类别值公布
    2022年7月25日,中国仪器仪表学会近红外光谱分会发布了关于开展2022年度“创和亿杯近红外光谱数据建模竞赛”的通知。通知要求参赛者于2022年8月20日前完成并提交“参赛附表”,截至目前,近80人参加了本次竞赛。按照活动进程,中国仪器仪表学会近红外光谱分会正式公布2022年度“创和亿杯近红外光谱数据建模竞赛” 预测集实际类别值。点击下载:2022年度“创和亿杯近红外光谱数据建模竞赛” 预测集实际类别值.xlsx序号标签1D2D3D4D5D6D7G8G9G10G11G12G13G14G15G16G17G18G19G20G21G22G23G24G25G26A27A28A29A30A31A32E33E34E35E36E37E38E39E40E41C42C43C44C45C46C47C48C49C50C51C52C53F54F55F56F57F58F59F60F61F62F63F64F65F66F67F68F69F70B71B72B73B74B75B76B本次活动最终的获奖名单将于2022年9月15日前公布。根据参赛者提交预测结果的准确性,本竞赛将评选出一等奖1名,二等奖2名,三等奖5名,优秀奖10名。颁发电子版获奖证书和奖金,其中一等奖奖金2000元,二等奖奖金1500元,三等奖奖金1000元,优秀奖只颁发获奖证书。更多信息请查看:关于开展2022年度“创和亿杯近红外光谱数据建模竞赛”的通知
  • 探知建模新方法 洞悉成像新世界——第八届亚洲近红外光谱学术会议圆满落幕
    南开大学化学学院 段潮舒 韩丽 刘煦阳(导师:邵学广)2022年11月28-30日,第八届亚洲近红外光谱会议(ANS2022)以网络会议形式召开。来自6个国家的约70位代表参加了此次大会,中国有9位代表出席。韩国汉阳大学的Hoeil Chung教授在开幕式上致辞,对所有参会的老师、同学和厂商代表表示热烈欢迎。本次会议有大会邀请报告(plenary lecture)2场,主题报告(keynote presentation)和口头报告(oral presentation)34场,墙报(poster)29篇。其中,口头报告分为4个会议单元(session),主题分别是:“农业食品材料”、“高光谱成像”、“基础科学与化学计量学”和“先进技术和药物应用”。本次会议内容丰富,从多角度展现了近红外光谱技术的最新研究和应用进展,以下从四个方面加以概述。1、化学计量学方法与应用研究化学计量学方法是历届近红外光谱会议的重要主题,本次会议安排了一场大会邀请报告,题为“Key aspects to increase the robustness of NIRs prediction models”。报告者强调了数据质量对建模的重要性,介绍了稳健模型建立的四大关键部分,分别是校正集的选择、参考值的质量、光谱数据的质量、预测模型的开发和评估(预处理方法、回归方法等)。在实际应用中,由于近红外光谱预测模型是动态的,应该定期对模型进行监控和更新;来自南开大学的邵学广教授进行了题为“Chemometric studies for analyzing temperature-dependent near-infrared spectra”的报告。报告着重讲述了利用温控近红外光谱技术结合化学计量学方法,可通过提取随温度变化的水光谱信息,从而理解水结构的复杂性以及将水作为探针可以探测溶液或生物体系中分子的定量信息和结构变化;来自日本国家农业和食品研究院的Akifumi Ikehata教授带来了题为“Extended molar absorption coefficients of confined water in reverse micelles”的报告,提出了基于浓度的扩展摩尔吸收系数分析方法,当水与表面活性剂的分子比超过一定值时,可以准确检测到反胶束中核心水的存在,有利于更好地理解限域环境中的分子行为。深度学习是化学计量学领域发展的前沿方向之一,本次会议中也有与深度学习相关的研究。来自新加坡南洋理工大学的Ying Zhu教授带来了题为“Chemometrics and deep learning models for classification of spectroscopic data with application to detection of colon polyps”的报告,介绍了基于CNN的预测模型可用于区分癌前腺瘤状息肉和增生性息肉,优于PCDA和PLSDA模型;来自韩国江原大学的Nam-Wook Kim介绍了利用可见-近红外高光谱成像技术,基于卷积神经网络(CNN)模型预测紫玉米的花青素含量,与高效液相色谱测定结果相比,深度学习模型的预测准确度可以达到93%,有利于后续智能育种技术的应用;同样来自韩国江原大学的Hong-Gu Lee利用3D-卷积神经网络进行蜂螨分类。此外,还有多场化学计量学方面的报告,研究内容涉及了各种定性定量模型的建模方法,对扩展近红外光谱的应用范围和改善模型具有重要作用。总结以上的报告,我们深切体会到:化学计量学方法种类较多,使用者应该从原理入手学习,加强对每类方法原理的理解和学习,更有利于新方法的开发和已有方法的推广应用。2、高光谱成像技术作为近红外光谱技术的发展前沿,高光谱成像技术的发展和应用越来越引起大家的关注。本次会议安排了一场题为“Spectral imaging technologies for agricultural applications” 的大会邀请报告。报告者着重介绍了高光谱成像的原理和仪器技术的发展,以及在苹果损伤、在线家禽检测、蔬菜全表面新鲜度检测等领域的应用;来自韩国忠南大学的Byoung-Kwan Cho教授带来了“Application of hyperspectral imaging for quality measurement of agricultural materials”的报告。报告首先强调了农产品质量控制对于整个农业生产行业的重要性,并介绍了高光谱成像技术在水果瘀伤检测、压力植物监测、种子活力分选和食品掺假检测等农产品质量控制中的应用,最后提出高光谱成像技术作为农产品质量控制的新兴手段,具有快速、准确、无创的检测特点,并有望代替传统检测方法;来自泰国朱拉隆功大学的Sureerat Makmuang报告了其通过改进的自组织图和近红外高光谱成像识别杂草稻的工作,首次对栽培稻种子中的杂草稻进行原位高光谱成像,并通过监督自组织图分类,达到了88%以上的分类准确率。通过以上报告,我们发现,本次会议与高光谱成像技术相关的研究多集中于食品、农产品的质量控制等,极大地拓展了近红外光谱的应用。不过,大家也认识到,虽然高光谱技术是获取综合信息的高效手段,但高光谱的测量及数据处理技术仍需要进一步发展。3、先进技术与药物应用先进技术和药物应用也是本次会议的重要主题。来自泰国农业大学的Sirinad Noypitak教授带来了“A portable moisture content meter using near infrared spectroscopy with real-time data report on a smartphone”的报告。该报告介绍了一种基于近红外光谱技术的新型便携式水分测定仪,在测量的时候可以在智能手机上显示实时数据报告。通过应用程序控制近红外光谱仪,在智能手机上实时采集、显示和处理光谱数据,非常适合在锯木工厂中的实际应用;来自韩国汉阳大学的Eunjin Jang介绍了用近红外透射光谱检测不同病变的胆汁,通过主成分聚类分析可以准确识别出患有胆囊癌的胆汁样品。这些研究大大拓展了近红外光谱技术在疾病诊断、制药方面的应用,未来可逐步实现准确控制药物中的有效成分含量、精准医疗等。4、农业食品材料农业、食品和材料一直是近红外光谱技术的重要应用领域。来自印度贾达普大学的Rajib Bandyoypadhyay教授带来题为“Estimation of total alkaloids in Cinchona bark using a developed portable NIR”的报告,该报告使用便携式近红外光谱仪测定金鸡纳树皮中总生物碱(一种抗疟疾药物)含量,对近红外光谱进行PLS回归分析,与重量法评估的结果相比,达到了很好的预测结果。不仅如此,该研究还开发了包含图形用户界面和校正程序的软件,通过对软件进行适当的修改,便携式光谱仪还可用于植物及其产品中的其他标记分子的含量测定;来自尼泊尔特里布文大学的Milka Nakarmi介绍了近红外光谱检测鸡肉中的微生物菌落的应用,该研究以标准平板计数法检测细菌的污染情况作为参考,对885-1680 nm范围的光谱建立的模型对大肠菌群预测效果最好,这为近红外光谱技术用于提取微生物信息发展了新的应用。在本次会议中,很多研究工作集中在农产品和食品质量评估,实用性的特点较为突出。理论指导实践,实际应用也将当下的需求反馈于理论方法的研究,与此同时研究工作者从需求入手,深入分析了解研究对象的特性,针对这些特性设计了更适用的仪器或测量方法,更好地满足实际的生活生产需要。本次会议利用网络平台进行在线直播,整个会议日程安排紧凑有序。全世界各地参会者通过网络平台交流与学习,无论在学校、在家、还是在公司,都可以聆听专家们的报告,而且还可以在问答区进行发言和提问。除了精彩纷呈的报告,本次会议还采用线上墙报的形式,参会人员采用录制音频配合图像的形式为大家展示墙报,以直观的图像和图表展示主要内容,再配以简洁明了的讲解说明,让大家快速了解研究内容。此外,线上墙报不受展示时间的限制,大家可以在网上多次观看。特别值得一提的是,会议中,数位中国代表给我们带来了精彩的报告,但中国参会代表还是较少,期待更多的国内学者今后为大家带来精彩的报告,继续扩大中国在国际会议的影响力。第八届亚洲近红外光谱会议圆满落幕,探知建模新方法,洞悉成像新世界!下一届亚洲近红外光谱会议将在印度加尔各答举办,让我们共同期待能与大家面对面地交流学习!
  • 2023年度“创和亿杯全国近红外光谱数据建模竞赛”获奖名单公示
    中国仪器仪表学会近红外光谱分会于2023年9月19日—10月30日举办了2023年度“创和亿杯全国近红外光谱数据建模竞赛”,得到广大近红外光谱和化学计量学等相关研究和应用领域同仁的积极响应,收到118位参赛者的作品。感谢各位参赛者的积极参与和辛勤付出,感谢上海创和亿电子科技发展有限公司为本次竞赛提供的支持。参赛者预测值“(MAE+SEP)/2”的统计结果根据本次竞赛的规程,以“(MAE+SEP)/2”为评价指标,依次选出18位获奖者,其中,一等奖1名,二等奖2名,三等奖5名,优秀奖10名。现将拟获奖名单进行公示,公示期为2023年11月2日—11月8日。公示期内,如有异议,请将意见或建议发送至邮箱(cxlyuli@sina.com )或微信(13501215398)。拟邀请取得优异成绩的选手在全国第十届近红外光谱学术会议期间(2024年9月20~24日)分享建模经验。对于本次竞赛,若有考虑不周之处,敬请理解和谅解,期待下一届竞赛再次相见。中国仪器仪表学会近红外光谱分会2023年11月2日2023年度“创和亿杯全国近红外光谱数据建模竞赛”拟获奖名单一等奖付家顺(南开大学化学学院)二等奖刘煦阳(南开大学化学学院)赵振忠(晨光生物科技集团股份有限公司)三等奖(以姓氏汉语拼音为序)邱熙文(湖南农业大学)王海朋(南开大学化学信息学实验室)王微曦(瑞典波通仪器公司)谢有超(南开大学化学学院)张博承(上海理工大学)优秀奖(以姓氏汉语拼音为序)高 冰(江苏农林职业技术学院)郭 瑶(六安职业技术学院)何晓娟(南京大学物理学院)孔金超(天津满益达科技有限公司)莫文棋(广东江门中医药职业学院)孙 冲(中国食品发酵工业研究院)谭惠珍(湖南农业大学)向超群(广东药科大学)甄宇涛(中国食品发酵工业研究院)郑训培(湖南农业大学)
  • 2022年度“创和亿杯全国近红外光谱数据建模竞赛” 获奖名单公示
    中国仪器仪表学会近红外光谱分会于2022年7月25日—8月20日举办了2022年度“创和亿杯全国近红外光谱数据建模竞赛”,得到广大近红外光谱和化学计量学等相关研究和应用领域同仁的积极响应,共收到75位参赛者的作品。感谢各位参赛者的积极参与和辛勤付出,感谢上海创和亿电子科技发展有限公司为本次竞赛提供的支持。参赛者预测值“识别准确率”的统计结果根据本次竞赛的规程,以识别准确率为评价指标,依次选出20位获奖者,其中,一等奖1名,二等奖2名,三等奖5名,优秀奖12名。现将拟获奖名单进行公示,公示期为2022年8月25日—9月2日。公示期内,如有异议,请将意见或建议发送至邮箱(cxlyuli@sina.com )或微信(13501215398)。中国仪器仪表学会近红外光谱分会拟邀请部分取得优异成绩的选手在全国第九届近红外光谱学术会议期间(2022年10月20~23日)分享建模经验。对于本次竞赛,若有考虑不周之处,敬请理解和谅解,期待下一届竞赛再次相见。中国仪器仪表学会近红外光谱分会2022年8月25日2022年度“创和亿杯全国近红外光谱数据建模竞赛”拟获奖名单一等奖朱明旺(华东交通大学智能机电装备创新研究院),识别准确率92.11%二等奖张运诗(山东新马制药装备有限公司),识别准确率81.58%王 毅(四川长虹电器股份有限公司),识别准确率77.63%三等奖(以姓氏汉语拼音为序)段潮舒(南开大学化学学院)贾利红(四川长虹电器股份有限公司)李春婷(厦门工学院)刘 宁(中国农业大学信息与电气工程学院)张国宏(四川长虹电器股份有限公司)优秀奖(以姓氏汉语拼音为序)董怡青(湖南农业大学)付家顺(海南大学食品科学与工程学院)李光尧(四川长虹电器股份有限公司)李 跑(湖南农业大学)刘畅、杨虎晨、曹晋镨(参赛小组)(山西大学激光光谱研究所;同济大学土木工程学院;斯坦福大学土木与环境工程专业)刘 帅(河南农业大学)舒 展(华东交通大学机电学院)王海朋(南开大学化学学院)魏岚天(上海巨哥科技有限公司)杨盼盼(云南同创检测技术股份有限公司)郑 郁(湖南师范大学)周文忠(云南同创检测技术股份有限公司)
  • 天池大赛-冷冻电镜蛋白质结构建模大赛圆满落幕
    随着云计算技术的加持,生命科学行业加速驶向了快车道。为更好地推动这一前沿学科的发展和人才培养,阿里云联合英特尔(中国)面向全球开发者,组织了天池大赛—“创新大师杯”冷冻电镜蛋白质分子结构建模大赛,致力于探索智能计算在生命科学领域的应用与创新。本次挑战赛吸引了全球1917支高水平队伍参赛,横跨美国、新加坡、印度等41个国家和地区,不仅有世界顶尖院校参加,还吸引了中国科学院、国家超算中心、国家数字化工程中心、字节跳动、科大讯飞等知名的科研机构和企业参加。经过数月激烈角逐,在2022年8月5日,阿里云召开的生命科学与智能计算峰会上,本届大赛颁奖典礼也如期举行。  蛋白质的空间结构是结构生物学的关键研究对象,其对于理解蛋白质功能以及相关生物学过程的工作机理有非常重要的意义。准确的蛋白质结构原子模型不仅能够帮助研究者在理论上理解生命活动的内在原理,同时也能为药物研发等诸多工程实践提供指导。  枚举每一种蛋白质可能存在的结构,需要花费大量的时间。最近,在强大的算法与算力的支持下,DeepMind将运算时间从数月缩短至了数小时。AI生物学带来了极致的效率革命,这对于人类攻克癌症等疑难杂症有着划时代的意义。要在数据洪流的时代实现重大的科学突破、分析基因组数据,应用于药物研发、疾病检测、个性化治疗,依赖于高效便捷的大数据分析技术和强大的计算平台支持。蛋白质破解的事件是一个标志,在生命科学领域取得突破性进展还需要高效的HPC系统和强大的算力,分析计算复杂、散点化、非结构化的生物医学大数据。  本次大赛基于阿里云弹性高性能计算(Elastic High Performance Computing,E-HPC)进行。阿里云E-HPC平台,基于阿里云基础设施,可灵活生产基于任何ECS实例构成的HPC集群,满足不同应用特征的性价比要求。阿里云E-HPC主要面向教育科研、企事业单位和个人,提供快捷、弹性、安全的一站式公共云HPC服务。计算实例基于intel第三代至强可扩展处理器(CooperLake),通过高效、面向未来的服务器基础设施提供卓越的性能和灵活性,推动新的业务突破和科学发现。深度学习加速和增强型AVX-512等内置优势提供了人工智能和HPC的融合以及工作负载性能。同时运用基于IceLake的Software Guard Expressions技术,通过内存中独立于操作系统或硬件配置的应用程序隔断,提供细粒度的数据保护。  本次大赛意在探索基于大数据训练的人工智能方法在由电势能分布获取蛋白质原子模型方面的潜力,为未来云计算和生命科学领域的人才储备。
  • 创新进展|单进军、谢彤团队构建模拟谱库快速表征一类特殊复杂脂质——心磷脂及其氧化产物
    创新进展近日,南京中医药大学单进军、谢彤团队在Analytica Chimica Acta(分析化学一区,IF: 6.558)正式发表了题为In-silico-library-based method enables rapid and comprehensive annotation of cardiolipins and cardiolipin oxidation products using high resolution tandem mass spectrometer的研究性论文。该文章基于Orbitrap高分辨质谱平台,创新性的通过计算机模拟方式,建立了心磷脂及其氧化产物的质谱谱库。凭借高分辨质谱平台的超高分辨率、亚ppm级质量精度,及Stepped NCE 高能碎裂模式(HCD)获得的丰富二级碎片信息,使得该方法获得模拟谱图与真实检测样本的谱图匹配一致性高。该创新分析方法的建立,对于解决以心磷脂及其氧化物为代表的、具有结构多样性及低丰度分析挑战的代谢物/脂质,进而研究其在疾病发生发展过程中的生物学效应,都有着广泛而深远的参考与借鉴价值,为探索全新的疾病生物标志物带来可能!(点击查看大图)文章赏析心磷脂(CL)是含有3-4个脂肪酰基侧链的独特磷脂。在真核生物中,它主要分布在线粒体内膜,占线粒体内膜磷脂总量的10-25%。心磷脂独特的锥状结构能稳定线粒体膜结构,参与维持线粒体正常的嵴形态。大量文献报道心磷脂参与细胞色素c、电子呼吸链蛋白的正常功能。异常的心磷脂含量、结构和心磷脂氧化会促使细胞凋亡并触发免疫炎症反应。在非靶向脂质组学研究中,发现并快速注释心磷脂及其氧化产物有助于探索心磷脂代谢在疾病发生发展过程中的生物学效应。然而,由于心磷脂及其氧化物的结构多样性及低丰度特征,给其分析鉴定带来极大的挑战。为了解决这一问题,团队在色谱和质谱条件优化的基础上,基于计算机模拟方法建立了心磷脂及其氧化产物的质谱谱库。谱库中涵盖了31578个单溶血心磷脂、52160个心磷脂以及42180个氧化型心磷脂的质谱谱图(谱图数据基于Q-Exactive-MS/MS质谱方法裂解模拟)。该模拟谱库具有较好的兼容性,且谱库中的模拟谱图与真实检测样本的谱图匹配度好,匹配度得分值高,并成功地运用于线粒体非靶向心磷脂表征以及人工氧化心磷脂的研究中。(点击查看大图)该研究列出了样品与模拟谱库的匹配结果,并附上了谱图相似性评分(所有模拟谱库的二级碎片和丰度均来源于标准品模拟)。在优化的色谱条件下,模拟谱库涵盖了三个常规前体离子[M-2H]2-、[M-H]-和[M+NH4]+的二级谱图,扩充了质谱谱库中心磷脂特异性谱图的数量。三种前体离子的模拟谱库谱图相似性评分较高,均表现出较好的匹配度,体现了该方法的优势。(点击查看大图)运用此方法,该研究对心、肝、脾、肺、肾、大脑、小脑、回肠、结肠、十二指肠以及Hep2、A549两种细胞系中的心磷脂进行了定性定量分析。为了评估匹配结果、验证该数据库的可靠性,对不同谱图相似性得分段的谱图数进行统计,结果显示谱图得分值均较高。在10种动物组织线粒体和细胞系样品中,一共鉴定出392种心磷脂。通过新建的计算机模拟心磷脂谱库,能够很好的区分样本中单溶血心磷脂和心磷脂,实现对复杂生物样本中心磷脂的准确测量。(点击查看大图)该研究还建立了心磷脂氧化产物的模拟谱库,并成功对小鼠心脏和肝脏线粒体中的氧化型心磷脂进行了归属。比较了两种人工氧化方式氧化产物的偏好,发现Fenton反应易于生成+O或者+2O的氧化产物,而过氧化叔丁醇的氧化反应倾向于产生+3O或者+4O的氧化产物。通过对氧化碎片个数的统计,发现占比最多的氧化碎片是C18-OH和C18-OOH,提示含有十八个碳的脂肪酰基更易被氧化。有趣的是,在过氧化叔丁醇的反应中,肝脏线粒体中的心磷脂似乎表现出更高的氧化产率,虽然没有进一步的验证,但是推测这种氧化效率的差异可能源于肝脏和心脏不同的代谢能力。团队介绍单进军,博士,教授南京中医药大学中医儿科学研究所副所长,江苏省儿童呼吸疾病(中医药)重点实验室副主任,南京中医药大学——UC Davis医学代谢组学联合实验室中方负责人。江苏省“333高层次人才培养工程”中青年学术技术带头人,江苏省“六大人才高峰”高层次人才选拔培养对象,NIH West Coast Metabolomics Center访问学者。研究方向:代谢组学与中医药;复杂疾病代谢调控机理及中药防治作用。先后主持国家自然科学基金、江苏省自然科学基金、江苏省“333”工程科研项目和江苏省高校自然科学研究重大项目等课题;以第yi或(共同)通讯作者在Gut Microbes,Pharmacol Res,Anal Chim Acta,Phytomedicine和药学学报等国内外期刊发表学术论文60余篇;获国家发明专利3项;获教育部科学技术进步二等奖、世界中联中医药国际贡献奖-科技进步二等奖和江苏中医药科学技术奖一、二等奖。现为世界中联儿童医药健康产品产业分会常务理事兼副秘书长、世界中联儿科专业委员会常务理事、中华中医药学会中药实验药理分会青年委员, 中国中医药信息研究会儿科分会理事、中国研究型医院学会儿科学专业委员会青年委员,《世界科学技术-中医药现代化》杂志中青年编委。谢彤,博士,副教授江苏省儿童呼吸疾病(中医药)重点实验室骨干成员。2012年毕业于中国药科大学药学(药物代谢动力学)专业。美国NIH West Coast Metabolomics Center (UC Davis)访问学者。近年来主持国家自然科学基金等厅局级以上课题研究8项;以第yi作者或者通讯作者在Anal Chim Acta,J Chromatogr A等杂志发表SCI论文10篇。现为世界中医药学会联合会儿科专业委员会理事。研究方向:运用代谢组学/脂质组学技术研究(1)呼吸疾病发病机制及中药干预作用;(2)中药复杂组分的体内外物质基础研究;(3)药物安全性。如需合作转载本文,请文末留言。
  • 阿里云携手英特尔举办“冷冻电镜蛋白质结构建模大赛” 近900参赛队伍角逐28万奖金
    仪器信息网讯 日前,阿里云携手英特尔(中国)举办办的“英特尔创新大师杯”冷冻电镜蛋白质结构建模大赛正在开放报名中,目前已有近900个参赛队伍报名,将在接下来的近三个月内角逐28万元奖金。蛋白质的空间结构是结构生物学的关键研究对象,其对于理解蛋白质功能以及相关生物学过程的工作机理有非常重要的意义。准确的蛋白质结构原子模型不仅能够帮助研究者在理论上理解生命活动的内在原理,同时也能为药物研发等诸多工程实践提供指导。2021年7月,人工智能预测蛋白质3D结构技术一声惊雷,DeepMind和华盛顿大学团队的最新成果同日抢发Nature和Science!去年年底,谷歌 AI 团队 DeepMind 的第二代 AlphaFold 算法在生物界引起了极大的轰动,它能准确地预测蛋白质的结构,以至于许多人宣布这个长达数十年的问题“已被解决”。 具体而言,AlphaFold2 在国际蛋白质结构预测竞赛(CASP)上精确地基于氨基酸序列预测蛋白质的3D结构。其准确性可以与使用冷冻电镜(CryoEM)、核磁共振或 X 射线晶体学等实验技术解析的3D结构相媲美。据介绍,本次大赛将基于阿里云弹性高性能计算(Elastic High Performance Computing,E-HPC)进行。阿里云E-HPC平台,基于阿里云基础设施,可灵活生产基于任何ECS实例构成的HPC集群,满足不同应用特征的性价比要求。阿里云E-HPC主要面向教育科研、企事业单位和个人,提供快捷、弹性、安全的一站式公共云HPC服务。计算实例基于第三代英特尔至强可扩展处理器(CooperLake),通过高效、面向未来的服务器基础设施提供卓越的性能和灵活性,推动新的业务突破和科学发现。英特尔深度学习加速和增强型英特尔AVX-512等内置优势提供了人工智能和HPC的融合以及工作负载性能。同时运用基于第三代英特尔至强可扩展处理器(IceLake)的Software Guard Expressions技术,通过内存中独立于操作系统或硬件配置的应用程序隔断,提供细粒度的数据保护。本次大赛意在探索基于大数据训练的人工智能方法在由电势能分布获取蛋白质原子模型方面的潜力。大赛组织主办单位:阿里云计算有限公司、英特尔(中国)有限公司指导单位:国家蛋白质科学中心(上海)承办单位:阿里云高性能计算、阿里巴巴达摩院、阿里云天池平台赛事链接:https://tianchi.aliyun.com/competition/entrance/531916/introduction 背景介绍蛋白质的空间结构是结构生物学的关键研究对象,其对于理解蛋白质功能以及相关生物学过程的工作机理有非常重要的意义。准确的蛋白质结构原子模型不仅能够帮助研究者在理论上理解生命活动的内在原理,同时也能为药物研发等诸多工程实践提供指导。目前解析蛋白质结构的主流方法有x射线晶体学(x-ray crystallography)、核磁共振波谱法(nuclear magnetic resonance spectroscopy)和冷冻电镜方法(cryo-electron microscopy),其中前两者具有长时间的实践积累和成熟的工作流程以及较为严苛的使用条件。今年来随着软硬件方面的突破,冷冻电镜方法,尤其是冷冻电镜单颗粒分析(single-particle cryo-EM)以其易用性和对生物样品相对宽松的要求逐渐成为获取蛋白质结构,尤其是生物大分子复合体结构的首选方案。在冷冻电镜单颗粒结构解析中,蛋白质被速冻在玻璃态的冰层里,电镜产生的电子束与其发生相互作用后被直接电子探测器捕捉,生成大量二维投影图像,之后利用专业软件重构出蛋白质的电势能分布,再基于电势能分布搭建出蛋白质的原子模型。获取蛋白质电势能分布目前已经有较为成熟的软件来完成,而从电势能分布获取原子模型则主要还是由研究人员手动操作,虽然有各种辅助软件可以利用,但是出于对准确度的要求,此项工作仍旧是整个工作流程中比较繁琐且主观性较强的环节。枚举每一种蛋白质可能存在的结构,需要花费大量的时间。最近,在强大的算法与算力的支持下,DeepMind将运算时间从数月缩短至了数小时。AI生物学带来了极致的效率革命,这对于人类攻克癌症等疑难杂症有着划时代的意义。要在数据洪流的时代实现重大的科学突破、分析基因组数据,应用于药物研发、疾病检测、个性化治疗,依赖于高效便捷的大数据分析技术和强大的计算平台支持。蛋白质破解的事件是一个标志,在生命科学领域取得突破性进展还需要高效的HPC系统和强大的算力,分析计算复杂、散点化、非结构化的生物医学大数据。本次大赛将基于阿里云弹性高性能计算(Elastic High Performance Computing,E-HPC)进行。阿里云E-HPC平台,基于阿里云基础设施,可灵活生产基于任何ECS实例构成的HPC集群,满足不同应用特征的性价比要求。阿里云E-HPC主要面向教育科研、企事业单位和个人,提供快捷、弹性、安全的一站式公共云HPC服务。计算实例基于第三代英特尔至强可扩展处理器(CooperLake),通过高效、面向未来的服务器基础设施提供卓越的性能和灵活性,推动新的业务突破和科学发现。英特尔深度学习加速和增强型英特尔AVX-512等内置优势提供了人工智能和HPC的融合以及工作负载性能。同时运用基于第三代英特尔至强可扩展处理器(IceLake)的Software Guard Expressions技术,通过内存中独立于操作系统或硬件配置的应用程序隔断,提供细粒度的数据保护。本次大赛意在探索基于大数据训练的人工智能方法在由电势能分布获取蛋白质原子模型方面的潜力。赛程安排本次大赛分为初赛、复赛和决赛三个阶段,具体安排和要求如下:报名与实名认证(即日起—2021年9月28日,UTC+8)初赛(2021年8月16日-2021年9月29日,UTC+8)复赛(2021年10月11日—2021年11月11日,UTC+8)决赛答辩(11月下旬)奖项设置相关:2020年蛋白质结构预测大赛据悉,2020年,阿里云发起“蛋白质结构预测大赛”,当时赛题由达摩院顾斐博士、天津大学博士夏启等志愿者设计,数据来源于蛋白质数据库(PDC),希望通过比赛让更多跨学科开发者参与蛋白质二级结构预测研究中,以技术抗击疫情。最终参赛队伍为242个。
  • 昆山新建模具质检实验室 认定天瑞光谱仪
    据报道,8月3日下午,昆山科技局副局长刘才喜、昆山质监局副局长潘蔚、江苏省模具质检中心主任高惠明、昆山模具协会秘书长王禄华等领导共同出席了天瑞仪器及江苏省精密模具质检中心检学研合作签约仪式。双方将联合成立实验室,从事WDX分析技术在节能建材检测中的研究。  其中天瑞公司自主研发的波长色散光谱仪系列(WDX200、WDX400)受到业界的认可,同时也获得了江苏省精密模具质检中心的赞赏,这种光谱仪系列可对新兴建筑保温材料——矿物棉进行快速检测,预处理简单,只需压片制样。而此次共建实验室,天瑞将提供仪器设备及人员,与江苏省模具质检中心共同从事矿物棉成分检测WDX方法的开发。
  • 陈皮药材如何用近红外快速鉴别分析
    陈皮药材如何用近红外快速鉴别分析陈皮作为传统中药,其药用历史悠久。以陈皮为主药的二陈汤、苏子降气汤、六君子汤、平胃散等经典名方在历代本草中都有记述。而如今药典中记载的陈皮主要来源于部分芸香科植物的干燥成熟果皮,具有理气健脾,燥湿化痰的功效。根据品种与产地来划分,目前市售陈皮主要分为广陈皮、陈皮与杂陈皮三类,广陈皮主要来源于茶枝柑,陈皮则是来源于大红袍、福橘及温州蜜柑的栽培变种,而来自杂柑类、宽皮橘类、橙柚及柠檬等果皮混杂陈皮入药的情况,市场称之为杂陈皮。杂陈皮与陈皮药材价格差异也十分悬殊,因此市场也出现相应商品混杂入药的现象,导致陈皮药材基源复杂,药材品质难以保证。成都中医药大学刘友平课题组创新性地采用近红外光谱分析技术对陈皮药材的品种识别和黄酮类成分的检测展开研究。1品种识别选取广陈皮 17 批,川陈皮 8 批,在 60 ℃ 烘箱中干燥后粉碎,过 80 目筛,取 8g 样品粉末放置样品杯中扫描近红外光谱,扫描范围 10000cm-1 – 4000cm-1,分辨率 8cm-1,扫描次数 64 次,每个样品重复装样后扫描 3 次。▲ 陈皮药材近红外光谱图采用聚类分析的算法对不同预处理方法、建模波段和潜变量进行考察,根据综合评价指标 Q 值的大小选出最优结果,前 3 个最好模型参数如下表所示。序号预处理方法建模波段潜变量数Q1SNV, db110000-7800, 6600-5400, 4800-440060.90692db1, ncl10000-7404,7144-500030.88743mf10000-400070.8836采用最佳参数建立的模型,从潜变量的立体得分图可以清楚看出两类陈皮药材在空间上相互独立,并用 12 批未参与建模的陈皮药材进行外部验证,仅有 1 批样品被误判,说明模型可以准确地识别广陈皮和川陈皮。▲ 陈皮药材前三潜变量得分空间分布图2含量分析目前针对陈皮药材中化学成分主要集中在挥发油、黄酮类和生物碱成分,而黄酮类又是一类比较重要的有效化学成分,具体还可细分为芸香柚皮苷、橙皮苷、川陈皮素和橘皮素。通过高效液相色谱法分析不同栽培品种陈皮药材种所含的 4 种黄酮类成分可以发现除芸香柚皮苷外,其余 3 种黄酮类成分在不同品种的药材种含量差异明显,且仅有川陈皮、广陈皮以及杂陈皮中的椪柑符合药典对陈皮药材的含量标准。因此仅对三种含量有明显差异的黄酮类成分进行近红外光谱分析,取 69 批不同来源的陈皮样品采集近红外光谱,参数设置与品种鉴别时类似,取样减少至 5g,仪器扫描次数改为 32 次,其余参数保持不变。▲ 陈皮药材近红外光谱图分别考察了不同的光谱预处理方式、建模波段以及潜变量对三种的影响,此外还剔除了对建模影响较大的样品,最终选取的的模型效果如下。▲ 橙皮苷模型预测散点图▲ 川陈皮素模型预测散点图▲ 橘皮素模型预测散点图最终三种黄酮成分模型对独立验证集样品预测的均方根误差分别为 0.284,0.054 和 0.014。与传统分析方法 HPLC 相比,近红外分析操作简便,快速无损,结果准确,且能够多组分同时测量,这对陈皮药材的质量控制及在线监测等方面,都有极高的应用价值。3相关仪器▲ NIRFlex N-500研究中所采用的近红外光谱仪就是来自步琦的 NIRFlex N-500,针对医药研发、生产质控等不同环节都能提供可靠的解决方案。 1偏振干涉仪NIRFlex N-500 独特的偏振干涉仪设计,相比经典傅里叶近红外光谱仪,在简化光路空间的同时,极大地提升了设备的抗震能力,更能通过实验室、生产车间、仓库等多种复杂测量环境的考验。 2模块化NIRFlex N-500 模块化的设计,4 种测量池以及多达近 20 种的测量附件,能够满足几乎所有的测量场景。更换快捷方便,一台机器就能完成多样品形态的测量分析工作。 3双灯源NIRFlex N-500 贴心的双灯源设计,一旦主灯能量降低到阈值之下,就自动切换至副灯,不会造成分析间断而影响生产效率。 4校准标准物NIRFlex N-500 内置校准标准物,搭配功能全面且强大的软件套件,保证数据安全,满足 GMP 及 21 CFR Part 11 的要求,为制药行业提供安全稳定的分析手段。有关更多详细信息,请与我们联系。4参考文献闫珂巍,. 基于近红外光谱技术快速定性鉴别广陈皮模型的建立[J]. 中草药, 2015, 46(20): 3096-3099.李旻. 不同栽培品质陈皮药材品质等同性研究[D]. 成都中医药大学, 2017.
  • 【巨哥科技】推出多光谱红外相机,快速识别材料属性
    在物料分选、材料分类、异物检测等应用领域,普通的RGB相机往往难以满足需求。多光谱红外相机探测目标对不同波段的光的吸收,形成代表材料属性的图像,提升分析的效率和准确性。巨哥科技最新推出的多光谱相机光谱响应范围900 nm至1700 nm,有效覆盖短波红外范围,适用于广泛的材料光谱分析。该相机具有7个波长通道,可提供丰富的光谱信息。一次多光谱成像时间小于0.1秒,10Hz的多光谱成像帧频确保了对动态过程的实时监控。通过收集不同波长下的光谱数据,该相机能够创建详细的材料光谱特征库,结合先进的数据处理算法构建高精度光谱模型,可实现自动化生产线上的快速材料分拣、质量控制和异物检测等任务。巨哥科技丰富的光谱分析和建模经验可以应对需要精确材料鉴别的复杂应用场景,如在复杂混合物中识别特定成分或在生产过程中实时监控材料变化。使用短波多光谱相机对不同材质的四类布料(涤纶、氨纶、棉以及使用了特殊染料的布料)进行成像。使用多光谱相机采集到的四类布料光谱数据如下图所示,可以看出不同材料在光谱上的差异。多光谱相机采集光谱通过建模算法确定图像中各点对应的材料成分后,使用伪彩色进行整体显示,可以直观看到各类布料的材质差异。多波段响应合成的伪彩色图区分不同材料基于上述原理,该款多光谱相机可用于以下领域:01 工业分拣:在生产线上,多光谱红外相机可以快速区分不同类型物质,如不同种类的纺织品或塑料,提高分拣效率。02 质量监控:通过光谱分析,实时监测PCB、水果等产品质量,快速识别并排除不合格品。03 成分分布:多光谱相机能够快速辨别材料成分,例如实时显示药物混合后的成分分布。04 异物检测:在食品加工等行业,相机能够有效识别潜在的异物,保障产品安全和消费者健康。巨哥科技多光谱红外相机的产品设计注重实用性和稳定性,确保在各种工作环境中均能提供可靠的性能。新款多光谱红外相机与现有光谱仪系列的协同作用,将为客户提供更加完善的材料属性分析工具。此外,巨哥科技为客户提供全面的技术支持和培训服务,确保客户能够充分利用我们的产品进行高效的材料分析和处理。巨哥科技致力于推动光电技术在工业和科研领域的应用,期待与客户共同探索和实现光电技术在现代工业中的更多可能。关于巨哥科技上海巨哥科技股份有限公司是专精特新和高新技术企业,自主研发光电仪器及核心芯片、智能算法和软件,获上海市科技进步一等奖。团队来自普林斯顿、清华、中科大、浙大、中科院等,获海外高层次人才、上海市优秀技术带头人等称号。巨哥科技提供全波段红外光电产品:用于电力、轨交、冶金、汽车等行业设备状态和过程监控的热像仪,用于石化等行业的气体泄漏成像仪,用于激光、半导体等先进制造领域的短波相机,用于石化、粮油、制药等领域成分分析的光谱仪等,并为材料、工程、生命科学等前沿研究提供科学级光电仪器。
  • 【瑞士步琦】近红外慧眼识“猪”——多维度快速分析比萨罗猪肉的品质
    多维度快速分析比萨罗猪肉的品质食品原材料通常都有一个或几个影响其价格的关键营养成分含量,但除此之外,有时还有一些理化指标则会间接地影响材料的品质等级,进而直接决定最终产品口感与风味。以肉类为例,主要有以下几方面影响着其质量的优劣:商业价值、肉的感官、营养与技术(加工和存储的适应性)特性。由此可以看出,营养特性只是决定其品质的冰山一角。对于企业而言,质量控制不仅涉及最终产品的质量检测,而是从原料到生产过程关键环节的全流程监控,这样才能够最有效率地生产出满足法规监管需求的产品,从而保障食品安全。相较于费时废力的传统检测方法,高效快速的近红外光谱技术在生产的过程控制中往往起着关键作用。在肉制品加工行业,不同来源地甚至不同饲养品种的肉可能其蛋白、脂肪含量接近,但实际采购价格却相距悬殊。而近红外技术在快速分析肉类的各种指标上可谓是大放异彩。尤其在市场巨大的猪肉加工中,近红外被广泛应用于测定不同部位猪肉中水分、蛋白质与脂肪的含量,也有用来分析肉的色泽、酸碱度等参数。此次分享的一项研究就是用近红外光谱技术从多个角度分析比萨罗猪肉的品质。当今人们愈加关注影响肉类品质的非构成方面的因素,如动物物种和品种等固有特征、地理来源、饮食来源、饲养方法及屠宰方式等。因此,肉制品生产商对于具有公认的来源地的优质肉类的兴趣就日益剧增。比萨罗猪肉与相关肉制品是被全球公认的优质产品,它是葡萄牙北部的一种土生品种。所以,能够快速地量化这一优质肉源的品质具有很强的现实意义。1研究数据在该研究中,共选取了 40 头饲养了 90 天以上且平均体重在 100 公斤的比萨罗猪,屠宰后储存在 4 ℃ 的冷库中 24 小时并计重。随后将其运送至布拉干萨理工大学农学院的肉制品实验室进行数据分析。测量前使用步琦 B-400 均质仪进行 5 至 10 秒的粉碎,取 100g 左右的样品进行检测,测量指标包括水活性(aW)、水分(Moisture)、灰分(Ash)、胶原蛋白(Collagen)、完整腰部持水力(WHC)、色素(Pigments)、熟肉剪切力(CT)、生肉剪切力(RT)、脂肪(Fat)和蛋白质(Protein)。其数据分布如下表所示:同时上述所有样品使用了步琦 N-500 傅里叶变换近红外光谱仪采集其近红外光谱数据用于后续分析,其原始光谱与各种预处理光谱图如下所示:作者分别采用了偏最小二乘(PLS)和支持向量机(SVM)两种算法对上述数据进行建模分析,40 个样品通过 KS 算法将 32 个(80 %)选为校正集,8 个(20 %)选为独立验证集,建模对校正集采用8折交互检验并执行 10 个循环进行模拟选出最优模型,然后对独立验证集的数据进行预测。2研究结果通过校正集数据在每种算法下的 80 次模拟建模,最终得到的模型参数如下表所示:作者在尝试了不同的参数发现,这些指标在使用PLS时往往需要的潜变量比较高(大于14 PCs),可能是这些指标大多与样品的近红外光谱之间的关系是非线性的,所以对于能够描述非线性关系的SVM在建模时就更低均方根误差。随后用上述模型预测独立验证集中数据结果如下表所示:验证结果也表明 PLS 对于所建的指标,部分指标的预测值和参考值之间是有较低误差与良好的线性关系,但也存在较大验证误差与较差的线性关系的指标。而 SVM 几乎可以较好地解释样品光谱与指标间的非线性关系,但也有诸如色素和持水力这两个线性关系较差的指标。该研究尽管收集的样品有限,但也为快速分析特定品种肉的质量给出了解决方案,同时为近红外光谱分析非线性参数提供了思路,展示了近红外在食品质量控制中的无尽潜力。3参考文献Foods 2023, 12, 470. https://doi.org/10.3390/foods12030470
  • 建模成功!Nature子刊:成功建立新冠肺炎重症模型,揭示新冠病毒感染的分子机制
    自2019年年底开始,新型冠状病毒(SARS-CoV-2)引起的新冠肺炎(COVID-19)疫情一直在全球范围内流行,全球死亡率居高不下,已经导致全球的公共卫生危机。COVID-19的临床症状多样,从发烧、乏力、干咳到呼吸困难,从轻度肺炎到急性肺损伤(ALI)和严重病例的急性呼吸窘迫综合征均可出现。  与SARS-CoV类似,SARS-CoV-2属于冠状病毒科β冠状病毒属,是一种包膜单链阳性RNA病毒。人血管紧张素转换酶2 (hACE2)已被证实是SARS-CoV-2的功能性受体。目前在各个国家都已开展对SARS-CoV-2的相关研究,一些hACE2表达小鼠模型,如hACE2转基因小鼠,AAV-hACE2转导小鼠和Ad5-hACE2转导小鼠已经被开发出来。然而,大多数模型只会对小鼠造成轻度至中度的肺损伤。一种能够重现COVID-19最严重呼吸道症状和高病死率的小动物模型仍然是当务之急。  近日,中国军事科学院军事医学研究院秦成峰/王慧团队联合中科院生物物理所王祥喜团队在国际期刊《Nature Communications》上在线发表了题为“Characterization and structuralbasis of a lethal mouse-adapted SARS-CoV-2”的研究论文,公开表示团队成功建立新冠肺炎重症模型并揭示新冠病毒跨种感染分子机制。  首先,研究团队在之前的研究中已经生成了一株SARS-CoV-2 (MASCp6)小鼠适应株,能对小鼠造成中度肺损伤。在此基础上,研究人员进一步连续传代30次,以产生更强毒力的小鼠适应株,最终在第36代产生了SARS-CoV-2(命名为MASCp36)。  实验表明,对不同月龄、性别的BALB/c小鼠进行不同剂量的鼻内注射后,9月龄小鼠对MASCp36毒性高度敏感,且对MASCp36毒性呈剂量依赖性。所有9个月大的小鼠受到高剂量MASCp36的攻击后,均出现典型的呼吸道症状,并表现出皮毛皱褶、驼背和活动减少等特征。此外,雄性小鼠比雌性小鼠对MASCp36更敏感。  (图注:MASCp36对不同性别、年龄的小鼠的毒性不同)  为了进一步确定MASCp36感染小鼠的病理结果,研究团队收集了肺组织进行组织病理学和免疫染色分析。裸眼观察发现,与未感染的对照动物相比,MASCp36感染小鼠的肺损伤严重,双侧呈红色,肺内有黏液。镜下观察可见细支气管管内大量脱皮上皮细胞(黄色箭头),肺泡上皮细胞大面积坏死,肺泡壁融合炎性细胞浸润,以中性粒细胞为主。血管周围严重水肿(青色箭头),散在出血(蓝色箭头),这都表明MASCp36感染诱发了坏死性肺炎和广泛弥漫性肺泡损伤。  (图注:MASCp36感染引起的小鼠急性肺损伤)  最后,研究团队就此模型进行了一系列深入的研究,深度测序发现MASCp36在连续传代中共检测到12个氨基酸突变位点,其中3个(N501Y、Q493H和K417N)位于S蛋白受体结合区(RBD),进一步实验证实,这一结构使得MASCp36病毒和鼠源ACE2亲和力显著增加,通过电镜发现,致死株MASCp36的RBD与鼠源ACE2可形成稳定结合的致密结构,这与野生型病毒RBD与人源ACE2的结构高度类似。  (图注:不同小鼠模型的RBD突变以及与hACE2的亲和力)  综上所述,这一研究产生了一种新的小鼠适应的SARS-CoV-2毒株MASCp36,该毒株会导致严重的呼吸道症状和死亡率。模型也显示了与严重COVID-19类似的年龄和性别相关死亡率。在体内传代过程中,通过对MASCp36受体结合区域(RBD)的深度测序,发现了N501Y、Q493H和K417N三个氨基酸替换。本研究为明确SARS-CoV-2发病机制提供了平台,并揭示了其快速适应和进化的分子机制。
Instrument.com.cn Copyright©1999- 2023 ,All Rights Reserved版权所有,未经书面授权,页面内容不得以任何形式进行复制