您好,欢迎访问仪器信息网
注册
无锡谱视界科技有限公司

关注

已关注

已认证

粉丝量 0

当前位置: > 最新动态 > 谱视界 | 基于显微荧光高光谱结合传统机器学习对癌细胞判定研究

谱视界 | 基于显微荧光高光谱结合传统机器学习对癌细胞判定研究

2022/12/23 15:13

阅读:34

分享:



前言

现有数据表明,平均每年大约有1410万例新登记的癌症患者,全世界有9000多万人被诊断出患有癌症。由于其高转移率,癌症很难预防和治疗。截至2017年,癌症死亡率大于 17.5%。高光谱成像(Hyperspectral Imaging,HSI)技术在癌细胞观察和鉴别的应用最为广泛,对于其他先进光电技术,高光谱成像系统相对简单,无需对样品进行复杂的前处理,测试过程对样品无损无接触,因此备受科研人员的关注。

荧光高光谱成像技术可以同时获取样品的光谱信息(Spectral  information)和空间信息(Spatial information)。在疾病诊断方面,主要通过荧光光谱成像技术对人体组织或者细胞的荧光物质成分浓度及结构进行分析研究,可以为医生提供更多客观、可靠的诊断信息,为疾病诊断提供快速、准确的新方法;此外,通过特定的荧光图像进行分析,鉴别病变组织或细胞为医生手术提供有力的指导。在癌症诊断方面,荧光高光谱成像技术主要应用于肿瘤诊断及手术切缘判断。根据产生是否需要荧光增强和标记分为外源性荧光物质成像和自发性荧光成像。在脑肿瘤手术中,手术的切缘判断准确与否关系到患者的预后及癌症复发的概率。


材料与方法

1.1试验材料

本文使用DAPI(一种能够与DNA强力结合的荧光染料,常用于荧光显微镜观测。因为DAPI可以透过完整的细胞膜,它可以用于细胞和固定细胞的染色。)癌细胞进行染色,然后使用显微荧光高光谱仪数据采集,使用中心波长为360nm的紫外氙灯作为激发光源,然后再探测前加上420nm的高通滤光片放在探测器前面采集样品的荧光光谱。

显微高光谱数据伪彩色图

显微荧光第16波段数据


1.2试验设备

显微荧光高光谱数据采集采用无锡谱视界科技有限公司自主研发的lambda显微荧光高光谱成像系统,该系统主要是由显微镜、卤素光源、氙灯、lambda相机等组成。

Lambda显微高光谱成像仪参数

图3 Lambda显微荧光高光谱成像系统


1.3试验方法

本文使用PLS-DA和SVM分别对正常细胞和癌细胞进行分类研究。PLS-DA(Partial Least Squares Discriminant Analysis),即偏最小二乘法判别分析,是多变量数据分析技术中的判别分析法,经常用来处理分类和判别问题。通过对主成分适当的旋转,PLS-DA可以有效的对组间观察值进行区分,并且能够找到导致组间区别的影响变量。PLS-DA采用了经典的偏最小二乘回归模型,其响应变量是一组反应统计单元间类别关系的分类信息,是一种有监督的判别分析方法。因无监督的分析方法(PCA)对所有样本不加以区分,即每个样本对模型有着同样的贡献,因此,当样本的组间差异较大,而组内差异较小时,无监督分析方法可以明显区分组间差异;而当样本的组间差异不明晰,而组内差异较大时,无监督分析方法难以发现和区分组间差异。另外,如果组间的差异较小,各组的样本量相差较大,样本量大的那组将会主导模型。有监督的分析(PLS-DA)能够很好的解决无监督分析中遇到的这些问题。

支持向量机(support vector machine)是一种分类算法,但是也可以做回归,根据输入的数据不同可做不同的模型(若输入标签为连续值则做回归,若输入标签为分类值则用SVC做分类)。通过寻求结构化风险最小来提高学习机泛化能力,实现经验风险和置信范围的最小化,从而达到在统计样本量较少的情况下,亦能获得良好统计规律的目的。通俗来讲,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,即支持向量机的学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。


1.4模型参数评价

在PLS-DA和SVM诊断模型中,准确率、特异性、灵敏度是模型重要的评价指标。准确率(Accuracy)、特异性(TPR)和灵敏度(FPR)越接近于1,表明建模诊断的效果越好。各参数计算公式如下所示:                                   



在公式中,True positive rate(TPR)为灵敏度,False positive rate(FPR)为特异性,TP表示被正确分类的阳性样本个数,FN 表示被错误分类的阳性样本个数,FP表示被错误分类的阴性样本个数,TN表示被正确分类的阴性样本个数。式中,M表示正类样本的数目,N表示负类样本的数目。


结果与讨论

3.1数据预处理

如图4显微荧光高光谱伪彩图,图5是标定的显微荧光光谱数据。本文运用Python对raw格式的应该高光谱数据以及标定的显微荧光光谱数据转换为mat格式,以便接下来的分析。

原始显微荧光光谱数据

标定显微荧光高光谱数据

公开高光谱数据集和标定数据

显微荧光数据集和标定数据


首先根据标定的掩膜数据进行正常细胞的光谱和癌细胞的光谱进行提取,本文使用scikitlearn中的train_tesr_split的函数对校正集和预测集进行划分,为了具有重复性,设置random_state=1,其中13927条光谱进行训练,5927条光谱进行预测。

利用PLS-DA对训练集光谱进行训练分析,基于网格化寻找最优参数(也就是最佳主成分数)并对预测集的光谱进行判别,判别精度评价如表2所示,正常细胞判别的准确率为0.69,癌细胞的判别准确率为0.81,总体准确率为0.81,AUC(Area Under Curve)被定义为ROC曲线下与坐标轴围成的面积,经过计算可得为0.78。图8为PLS-DA得分散点图,其X轴坐标为第一主成分得分,Y轴坐标为第二主成分得分,Z轴坐标为第三主成分得分。从图8上癌细胞光谱和正常光谱虽然有部分重叠,也是有一定的区分度的。图9为PLS-DA预测集的ROC曲线,其横坐标为假阳性率,纵坐标为真阳性率,其曲线下方围成的面积也就是AUC。

PLS-DA判别精度评价表


癌细胞和正常细胞判别散点图

PLS-DA癌细胞判别ROC曲线


利用支持向量机对光谱进行训练,并对预测集的光谱进行分类判别,判别结果如表3所示。从表3可知正常细胞预测准确率为0.67,癌细胞的准确率为0.82,总体准确率为0.82,其SVM的下的AUC为0.77。图10为SVM预测集的ROC曲线,其横坐标为假阳性率,纵坐标为真阳性率,其曲线下方围成的面积也就是AUC。

SVM判别精度评价表

SVM癌细胞判别ROC曲线



总结与展望

本文使用PLS-DA和SVM对正常细胞光谱和癌细胞进行分类判别研究,其中PLS-DA的正常细胞判别的准确率为0.69,癌细胞的判别准确率为0.81,总体准确率为0.81,AUC为0.78。SVM的正常细胞预测准确率为0.67,癌细胞的准确率为0.82,总体准确率为0.82,AUC为0.77。文中正常细胞与癌细胞的标定通过目视解译进行判别,存在一定的人为误差,另外传统的机器学习只是基于光谱进行分类判别,后续将考虑结合空谱联合和深度学的方法对专业人员标定的数据进行进一步的分类研究,以期进一步提高正常细胞和癌细胞的判别精度。


无锡谱视界科技有限公司

沟通底价

提交后,商家将派代表为您专人服务

获取验证码

{{maxedution}}s后重新发送

获取多家报价,选型效率提升30%
提交留言
点击提交代表您同意 《用户服务协议》 《隐私政策》 且同意关注厂商展位
联系方式:
主营产品:
友情链接:

仪器信息网APP

展位手机站