视频号
视频号
抖音号
抖音号
哔哩哔哩号
哔哩哔哩号
app
前沿资讯手机看

我要投稿

投稿请发送邮件至:weidy@instrument.com.cn

邮件标题请备注:投稿

联系电话:010-51654077-8129

二维码

我要投稿

投稿请发送邮件至:weidy@instrument.com.cn

邮件标题请备注:投稿

联系电话:010-51654077-8129

首届“创和亿杯全国近红外光谱数据建模竞赛”活动总结及建议

分享到微信朋友圈

打开微信,点击底部的“发现”,

使用“扫一扫”即可将网页分享到朋友圈。

分享: 2021/04/12 17:48:32
导读: 一套合适的数据集是竞赛成功的关键,也是共同提升建模能力的重要生产资料,呼吁业内人士积极提供近红外数据集,逐步形成中国近红外光谱竞赛集数据库,公开公布相关信息,供国内外同行开展相关研究工作长期下载使用。

  中国仪器仪表学会近红外光谱分会举办的首届“创和亿杯全国近红外光谱数据建模竞赛”成功举办,本网特邀请我国分析化学和化学计量学专家南开大学邵学广教授,本届竞赛的组织者中石化石油化工科学研究院褚小立教授级高工,以及本届竞赛支持单位上海创和亿电子科技发展有限公司的张军工程师对本届竞赛进行评述,并对未来竞赛活动提出一些设想。

  一、基本情况

  开展近红外光谱建模竞赛是中国仪器仪表学会近红外光谱分会计划已久的一项工作,但因各种原因一直未举办,直到遇到这套建模数据。这套数据来源于真实的应用现场,是便携式近红外光谱仪器,采用漫反射方式测量烟草烟碱的数据集,样品数量多,烟碱浓度分布也相对较宽,具备较好的光谱与浓度定量统计意义。首次进行建模竞赛,选一套稳健的数据集至关重要。这套数据集的稳健之处在于建模算法(线性或非线性)对预测结果的影响较小,光谱变量选取方法影响较小,采用常规的预处理方法便可在很大程度上提高模型的预测能力。可以说,只要参赛者的建模步骤规范,具备基本的建模技巧,通过细心和耐心选择常用的建模算法(包括光谱预处理方法、波长选择方法和定量校正方法)及其参数,采用商品化的化学计量学软件,不需要自己编程,就可以得到优秀的成绩。

  从来自70多个单位,100多名参赛者的结果来看,达到了这个基本目标,尤其是一些来自应用企业一线工程师的建模结果非常优秀,这是近红外光谱技术应用落地的重要基础。本次比赛共收到109个模型的预测结果,通过对200个预测集光谱的预测结果与参考值之间的偏差,即MAE(平均绝对误差)和SEP(预测集均方根误差),进行计算,采用了二者的均值进行了模型评价。小于0.30的76个,小于0.25的54个,小于0.22的19个,本届的参赛模型大都具有较好的预测结果。

图片1.png

  开展竞赛之前,近红外光谱分会曾小范围对这套数据组织了盲测,数据提供方(上海创和亿)也长时间在公司内部进行盲测,这次竞赛的最优结果已接近了前期盲测的最优值,但没有预想的“实质性”突破。在竞赛前,曾有预想出现“黑马”,把这套数据的MAE降低到0.15以下,把SEP降低到0.20以下,这一目标尚没有实现,希望有兴趣的同行,继续尝试新的建模策略和算法,进一步提高建模能力。

  二、定量建模算法

  多数参赛者的模型采用的建模方法是最常用的PLS回归,部分模型采用了SVM和神经网络等,神经网络方法还包括BP、CNN,但CNN方法的模型并不很多,与当前的人工智能研究热潮有点不符。当然与这套数据集的特点有很大关系,据了解有不少参赛者尝试了很多算法,但PLS效果好,所以只提交了PLS结果。也有采用自行提出的一些算法,预测结果也较好。

  值得说明的是,PLS模型采用的算法和实现方式不尽相同,多数采用了普通的NIPALS和SIMPLS算法,也有人采用了MATLAB系统中的plsregression,或使用了Python scikit-learn包中的PLSRegression,也有采用商业化学计量学软件或仪器公司配套的软件。这些不同的计算方法会导致结果上稍有不同。

  在模型参数的确定与模型验证方面,多数模型采用了各种形式的交叉验证,也有采用K-S分组的方式划分了验证集进行模型验证。不同验证方式的结果都具有合理性和科学性,但也都有各自的局限性。某些模型采用了不同的多种方式同时进行验证,但由于篇幅的限制,提交的报告中几乎没有系统的讨论。

  校正集光谱的考察是建模的首要步骤,如奇异样本的识别与删除,但只有少数模型在建模前进行了数据的考察。模型的适用性考察几乎没有讨论,极少有人对预测集的奇异光谱给予关注。

  三、光谱数据处理方法

  数据处理是建模的关键步骤之一,本次参赛模型几乎全部采用了信号处理技术对光谱进行了散射校正和背景扣除处理,MSC、SNV、SG/CWT求导(1阶、2阶)等常用方法都得到了尝试。某些模型采用了光谱变量选择方法,如MC-UVE、CARS、SPA、波段选择(iPLS)等。对于这套竞赛数据,从预测结果来看,变量选择的作用没有得到体现。上述这些结果具有理论和实践上的合理性。漫反射光谱的散射校正一般认为是必要的,但背景信号是否对模型具有贡献一直没有得到确切答案。对于大多数校正集,当校正集光谱数量大于光谱变量数时,变量选择应该不再是影响模型准确性的关键因素,但变量选择对精简模型和提高模型的解释性等仍具有意义。

  四、建议

  此次建模比赛的参与积极性很高,对促进建模技术的交流与提高具有积极作用,很多专家和同行都建议把这项竞赛持续办下去。由于是首次进行建模比赛,还有许多值得提高改进的地方,例如,本次竞赛只把预测结果的“MAE”和“SEP”作为准确性评判标准,没有考虑界外样本的影响,也没有考虑预测值与参考值的相关性(散点图)、预测结果的相对偏差(包括除奇异点以外的最大偏差)等参数。另外,建议进一步完善参赛文档的完整性,例如建模方法的描述要尽量详细,从原理到计算过程和相关参数,保证模型的可重复性。建议以后竞赛对建模过程的描述赋予一定的权值(例如占20%),专家小组对此进行评审打分。此外,竞赛方式也有待进一步改进,目前是以个人的形式参赛,存在同一个研究小组多人(5人以上)同时参赛的情况,这是值得鼓励的,但如果其预测水平基本相当且都较为优秀,就会影响所有参赛者的排名,有失竞赛的公平性和多元化,如何规避有待商榷。建议采用初赛和复赛的方式进行,同时进一步提高竞赛的奖金,吸引更多行业高手参与。

  一套合适的数据集是竞赛成功的关键,也是共同提升建模能力的重要生产资料,在此呼吁业内人士积极提供近红外光谱数据集,逐步形成中国近红外光谱竞赛集数据库,公开公布相关信息,供国内外同行开展相关研究工作长期下载使用。


[来源:仪器信息网] 未经授权不得转载

用户头像

作者:叶子

总阅读量 694w+ 查看ta的文章

网友评论  2
全部评论(2条)
用户头像
1232021-04-14 07:58:28
了解一下啊
0回复
用户头像
泉溪水2021-04-13 15:31:43
稳健的数据集至关重要。
0回复
为您推荐 精选资讯 最新资讯 新闻专题 更多推荐

版权与免责声明:

① 凡本网注明"来源:仪器信息网"的所有作品,版权均属于仪器信息网,未经本网授权不得转载、摘编或利用其它方式使用。已获本网授权的作品,应在授权范围内使用,并注明"来源:仪器信息网"。违者本网将追究相关法律责任。

② 本网凡注明"来源:xxx(非本网)"的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,且不承担此类作品侵权行为的直接责任及连带责任。如其他媒体、网站或个人从本网下载使用,必须保留本网注明的"稿件来源",并自负版权等法律责任。

③ 如涉及作品内容、版权等问题,请在作品发表之日起两周内与本网联系,否则视为默认仪器信息网有权转载。

使用积分打赏TA的文章

到积分加油站,赚取更多积分

谢谢您的赞赏,您的鼓励是我前进的动力~

打赏失败了~

评论成功+4积分

评论成功,积分获取达到限制

收藏成功
取消收藏成功
点赞成功
取消点赞成功

投票成功~

投票失败了~