一种近红外光谱和拉曼光谱波长的筛选方法,把采集的近红外或拉曼光谱及对应的被测成分浓度数据分成训练集、检验集和预测集;利用原始光谱和被测成分浓度建立PLS模型,得到真实PLS模型系数;将被测成分浓度随机排序,利用被测成分浓度向量与原始光谱矩阵建立大量PLS模型;根据这些模型,分别统计单个波长模型系数大于其真实PLS模型系数的次数,可得到对应概率值;概率值小于域值的波长被保留;利用保留的波长建立最优模型,对预测集样本被测成分浓度进行预测。该方法可准确提取含有光谱信息的波长,简化了定量分析模型,提高了定量分析模型的预测精度,为近红外光谱和拉曼光谱多元校正分析提供了一种新的波长筛选技术。
1.一种近红外光谱和拉曼光谱波长的筛选方法,其特征在于包括以下步骤:
1)采集被测物样本的近红外光谱或拉曼光谱数据,随机分成三部分,包括训练集、检验集和预测集样本,用常规方法测定训练集和检验集中样本的被测成分浓度含量,得到训练集样本和检验集样本的被测成分浓度向量,其中训练集样本用来建立模型、检验集样本用来确定模型参数、预测集样本用来检验模型的预测能力;
2)利用训练集样本的光谱和被测成分浓度,进行偏最小二乘回归,得到真实模型回归系数向量b(1×p),p指波长点总数;
3)将上述训练集样本的被测成分浓度向量随机排序,即被测成分浓度不再与样本光谱呈一一对应的关系,利用这种随机化后的被测成分浓度向量Y与训练集样本的原始光谱矩阵X进行偏最小二乘回归,得到随机模型;
4)重复步骤3,得到系列偏最小二乘回归随机模型及其模型回归系数矩阵B;
5)对于每个波长,比较其对应的随机模型回归模型系数与其真实模型回归系数的大小,统计随机模型回归系数值大于真实模型回归系数的次数,计算每个波长对应的概率值;
6)将波长根据其概率值的升序进行排列,得到概率向量f;
7)保留概率值小于最优域值的波长;
8)根据保留的波长点位置,仅保留训练集光谱矩阵相应的波长列,得到新的光谱矩阵X1,并且与训练集样本被测成分浓度向量建立偏最小二乘回归模型,利用这个模型,测定预测集样本被测成分的浓度含量。
2.根据权利要求1所述近红外光谱和拉曼光谱波长的筛选方法,其特征在于:所述系列偏最小二乘回归随机模型为1000个,模型回归系数矩阵为B(1000×p)。
3.根据权利要求1所述近红外光谱和拉曼光谱波长的筛选方法,其特征在于:所述最优域值是指:首先根据概率值从小到大对波长进行排序;然后每次保留不同数目的排序后的波长分别建模对检验集样本被测成分浓度进行测定;最后考察预测均方根误差(RMSEP)值与建模所用波长数的关系,得到预测均方根误差(RMSEP)值最小时对应的波长数N,从而确定概率向量f的第N个值为最优域值。
技术领域
[0001]本方法发明属于分析化学领域的无损分析技术,特别涉及一种近红外光谱和拉曼光谱波长的筛选方法。
背景技术
[0002]近红外光谱(NIR)是一种无损分析技术,具有处理简单、分析速度快、稳定性好等优点,已被广泛应用于农业、石化、医疗等行业。然而,由于近红外光谱谱带重叠现象严重,信号吸收较弱,且背景干扰严重等问题,必须借助于化学计量学方法才能进行定性定量分析。拉曼光谱分析法可提供快速、简单、可重复、无损伤的定性定量分析,在生物学、考古学和天文学等领域具有很好的应用前景。目前,拉曼光谱的分析主要还是利用典型物质的光谱或标准谱图对未知光谱实现比较、鉴别和定性分析。由于标准谱库建立的难度和光谱数据处理与分析的复杂性,多组分混合物样品拉曼光谱的定量分析还存在很多困难,而利用计量学方法就可以使拉曼光谱定量分析变得简单快速。因此,化学计量学方法已成为近红外光谱以及拉曼光谱分析中的研究热点,其中主成分分析方法(PCA)、偏最小二乘法(PLS)就是常用的多元建模方法。实践证明,多元建模方法结合近红外光谱分析方法非常实用有效,已被用于无创血糖浓度的定量分析的全新领域(U.S.Pat.No.4,975,581)。利用PCA方法结合拉曼光谱分析,可以实现在线分析和控制流化床反应器中的聚合物性能(U.S.Pat.No.7,116,414)。
[0003]在近红外光谱和拉曼光谱分析中,波长筛选一直是多元校正分析中的重要内容,可以解决波长中背景、噪声等信息对模型的干扰。波长筛选的基本方法之一就是找到一种评价波长对模型定量分析重要性的方法,根据波长评价值来筛选波长,保留对建模贡献较大的波长。大量的研究工作表明,有效的波长筛选可以改善模型的预测能力和减少模型的复杂程度。目前,光谱分析中波长筛选的方法主要包括:遗传算法(GA)、无信息变量消除法(UVE)、间隔偏最小二乘法(iPLS)以及连续投影算法(SPA)等。但是这些方法中,比如遗传算法(GA)计算周期较长而且容易陷入局部最优的局限;无信息变量消除法(UVE)中采用留一交叉验证法,使模型具有过拟合的风险。因此,如何建立预测能力好、稳健性强的模型,且在模型构建中避免过拟合现象都是以后研究中需要解决的问题和努力的方向。
[0004]统计学是研究如何有效地运用数据收集与数据处理、多种模型与技术分析等对数据进行推理,以便对问题进行推断或预测,从而为决策和行动提供依据和建议的应用广泛的基础性学科。由于统计分析是基于大量数据进行分析,通过统计得到的规律往往比较具有全局代表性和真实可靠性。波长筛选与统计分析结合的思想将会是以后的研究发展趋势。
[0005]本方法发明是通过统计学方法与化学计量学相结合,来实现对近红外光谱的波长选择。本方法通过建立大量的模型来实现,与单一模型相比可以从更多方面考虑光谱与浓度间的关系,所以可以减少模型过拟合风险,且根据模型的系数统计得到的结论更加可靠。
发明内容
[0006]本发明的目的是针对上述存在问题,提供一种近红外光谱和拉曼光谱波长的筛选方法,该方法可改善模型的预测能力、增强模型的稳健性、避免过拟合现象,使根据模型的系数统计得到的结论更加可靠。
[0007]本发明利用计量学方法建立多模型,结合统计学方法,通过对模型系数的统计分析来评价波长,实现近红外光谱和拉曼光谱波长筛选。
[0008]一种近红外光谱和拉曼光谱波长的筛选方法,包括以下步骤:
[0009]1)采集被测物样本的近红外光谱或拉曼光谱数据,随机分成三部分,包括训练集、检验集和预测集样本,用常规方法测定训练集和检验集中样本的被测成分浓度含量,得到训练集样本和检验集样本的被测成分浓度向量,其中训练集样本用来建立模型、检验集样本用来确定模型参数、预测集样本用来检验模型的预测能力;
[0010]2)利用训练集样本的光谱和被测成分浓度,进行偏最小二乘回归,得到真实模型回归系数向量b(1×p),p指波长点总数;
[0011]3)将上述训练集样本的被测成分浓度向量随机排序,即被测成分浓度不再与样本光谱呈一一对应的关系,利用这种随机化后的被测成分浓度向量Y与训练集样本的原始光谱矩阵X进行偏最小二乘回归,得到随机模型;
[0012]4)重复步骤3,得到系列偏最小二乘回归随机模型及其模型回归系数矩阵B;
[0013]5)对于每个波长,比较其对应的随机模型回归模型系数与其真实模型回归系数的大小,统计随机模型回归系数值大于真实模型回归系数的次数,计算每个波长对应的概率值;
[0014]6)将波长根据其概率值的升序进行排列,得到概率向量f;
[0015]7)保留概率值小于最优域值的波长;
[0016]8)根据保留的波长点位置,仅保留训练集光谱矩阵相应的波长列,得到新的光谱矩阵X1,并且与训练集样本被测成分浓度向量建立偏最小二乘回归模型,利用这个模型,测定预测集样本被测成分的浓度含量。
[0017]所述系列偏最小二乘回归随机模型为1000个,模型回归系数矩阵为B(1000×p)。
[0018]所述最优域值是指:首先根据概率值从小到大对波长进行排序;然后每次保留不同数目的排序后的波长分别建模对检验集样本被测成分浓度进行测定;最后考察预测均方根误差(RMSEP)值与建模所用波长数的关系,得到预测均方根误差(RMSEP)值最小时对应的波长数N,从而确定概率向量f的第N个值为最优域值。
[0019]本发明的优点是:该筛选方法可准确提取含有光谱信息的波长,简化了定量分析模型,提高了定量分析模型的预测精度,为近红外光谱和拉曼光谱多元校正分析提供了一种新的筛选技术,具有较高的实用价值。
附图说明
[0020]图1为烟草样本近红外光谱尼古丁模型第200个波长点(对应波数:8234.7cm-1)的模型回归系数的频数分布直方图。
[0021]图2为烟草样本近红外光谱尼古丁模型波长的概率分布和保留波长分布图。
[0022]图3为烟草样本近红外光谱总糖模型波长的概率分布和保留波长分布图。
[0023]图4为代谢物样本拉曼光谱肌氨酸模型波长的概率分布和保留波长分布图。
[0024]图5为代谢物样本拉曼光谱甘氨酸模型波长的概率分布和保留波长分布图。
具体实施方式
[0025]实施例1:
[0026]本实施例是应用于近红外光谱分析,对烟草样本中的尼古丁成分含量值进行测定。具体的步骤如下:
[0027]1)通过测定800个烟草的近红外光谱建立定量分析模型,光谱采用MPAFT-NIR光谱仪(Bruker,Germany)测定,波数范围为3999.7-9002.3cm-1(2500.2-833.7nm),采样间隔约为4个波数,共1298个波长点,在建模前把烟草样本随机分成三部分,包括训练集、检验集和预测集,其中训练集样本数为400,检验集和预测集样本数均为200,样本中尼古丁的含量采用AAIII型连续流动分析仪(BRAN+LUBBE,Germany)按照标准方法测定;
[0028]2)利用训练集样本的光谱和尼古丁成分浓度,进行偏最小二乘回归,模型因子数为10,得到真实模型回归系数向量b(1×1298);
[0029]3)将上述训练集样本的尼古丁成分浓度向量随机排序,利用这种随机化后的尼古丁成分浓度向量Y与训练集样本的原始光谱矩阵X进行偏最小二乘回归,模型因子数为10,得到随机模型;
[0030]4)重复步骤3,得到1000个偏最小二乘回归随机模型及其模型回归系数矩阵B(1000×1298);
[0031]5)对于每个波长,比较其对应的随机模型回归模型系数与其真实模型回归系数的大小,统计随机模型回归系数值大于真实模型回归系数的次数,计算每个波长对应的概率值;
[0032]6)将波长根据其概率值的升序进行排列,得到概率向量f;
[0033]7)保留概率值小于最优域值的波长;
[0034]8)根据保留的波长点位置,仅保留训练集光谱矩阵相应的波长列,得到新的光谱矩阵X1,并且与训练集样本尼古丁成分浓度向量建立偏最小二乘回归模型,利用这个模型,测定预测集样本尼古丁成分的含量。预测的精确度的评价采用相关系数(R)和预测均方根误差(RMSEP)这2个参数来表示。
[0035]所述最优域值是指:首先根据概率值从小到大对波长进行排序;然后每次保留不同数目的排序后的波长分别建模对检验集样本尼古丁成分浓度进行测定;最后考察预测均方根误差(RMSEP)值与建模所用波长数的关系,得到预测均方根误差(RMSEP)值最小时对应的波长数N,从而确定概率向量f的第N个值为最优域值。该实施例中通过计算得到N=101。
[0036]图1所示为第200个波长点(对应波数:8234.7cm-1)的模型回归系数的频数分布直方图,即取步骤4所得的随机模型回归系数矩阵B(1000×1298)的第200列做频数分布直方图。图2所示为烟草样本近红外光谱预测尼古丁含量模型波长的概率分布和保留波长分布图。图2中的棒状图横坐标对应步骤7保留的概率值小于最优域值的波长。从图2可以看出,采用该方法可以有效的进行波长筛选,只需要保留少量的波长,从而使模型更加精简。利用模型对尼古丁成分含量未知的检测集样本进行浓度测定,结果显示:利用传统PLS建模,需要1298个波长点,对烟草中尼古丁成分含量进行预测分析,其预测均方根误差RMSEP=0.097,相关系数R=0.9909;通过该方法仅需要保留101个波长,对烟草中尼古丁成分含量进行测定,其预测均方根误差RMSEP=0.087,相关系数R=0.9932。通过比较可以得出,该方法可以使模型更加简单而且预测精度提高,尼古丁成分预测结果与化学测定结果之间的线性关系提高。
[0037]实施例2:
[0038]本实施例是应用于近红外光谱分析,对烟草样本中的总糖成分含量值进行测定。具体的步骤如下:
[0039]1)通过测定400个烟草的近红外光谱建立定量分析模型,光谱采用MPAFT-NIR光谱仪(Bruker,Germany)测定,波数范围为3999.7-9002.3cm-1(2500.2-833.7nm),采样间隔约为4个波数,共1298个波长点,在建模前把烟草样本随机分成三部分,包括训练集、检验集和预测集,其中训练集样本数为200,检验集和预测集样本数均为100,样本中总糖的含量采用AAIII型连续流动分析仪(BRAN+LUBBE,Germany)按照标准方法测定;
[0040]2)利用训练集样本的光谱和总糖成分浓度,进行偏最小二乘回归,模型因子数为10,得到真实模型回归系数向量b(1×1298);
[0041]3)将上述训练集样本的总糖成分浓度向量随机排序,利用这种随机化后的总糖成分浓度向量Y与训练集样本的原始光谱矩阵X进行偏最小二乘回归,模型因子数为10,得到随机模型;
[0042]4)重复步骤3,得到1000个偏最小二乘回归随机模型及其模型回归系数矩阵B(1000×1298);
[0043]5)对于每个波长,比较其对应的随机模型回归模型系数与其真实模型回归系数的大小,统计随机模型回归系数值大于真实模型回归系数的次数,计算每个波长对应的概率值;
[0044]6)将波长根据其概率值的升序进行排列,得到概率向量f;
[0045]7)保留概率值小于最优域值的波长;
[0046]8)根据保留的波长点位置,仅保留训练集光谱矩阵相应的波长列,得到新的光谱矩阵X1,并且与训练集样本总糖成分浓度向量建立偏最小二乘回归模型,利用这个模型,测定预测集样本总糖成分的含量,预测的精确度的评价采用相关系数(R)和预测均方根误差(RMSEP)这2个参数来表示。
[0047]所述最优域值是指:首先根据概率值从小到大对波长进行排序;然后每次保留不同数目的排序后的波长分别建模对检验集样本总糖成分浓度进行测定;最后考察预测均方根误差(RMSEP)值与建模所用波长数的关系,得到预测均方根误差(RMSEP)值最小时对应的波长数N,从而确定概率向量f的第N个值为最优域值。该例子中通过计算得到N=117。
[0048]图3所示为烟草样本近红外光谱预测总糖含量模型波长的概率分布和保留波长分布图。图3中的棒状图横坐标对应步骤7保留的概率值小于最优域值的波长。从图3可以看出,采用该方法可以有效的进行波长筛选,只需利用少量的波长建模,从而使模型更加精简。利用模型对总糖成分含量未知的检测集样本进行浓度测定,结果显示:利用传统PLS建模,需要1298个波长点,对烟草中总糖成分含量进行的预测分析,其预测均方根误差RMSEP=1.46,相关系数R=0.9049;通过该方法仅需要保留117个波长,对烟草中总糖成分含量进行测定的预测均方根误差RMSEP=0.91,相关系数R=0.9220。通过比较可以得出,该方法可以使模型更加简单而且预测精度提高,总糖成分预测结果与化学测定结果之间的线性关系提高。
[0049]实施例3:
[0050]本实施例是应用于拉曼光谱分析,对生物代谢物样本中的肌氨酸、甘氨酸成分含量值分别进行测定。通过测定86个生物代谢物样本的拉曼光谱建立定量分析模型,拉曼光谱采用RP-1Raman Identification System(Spectracode Inc.,Purdue Research Park,West Lafayette,Indiana,USA)测定,波数范围为473.59-2636.3cm-1,采样间隔约为5个波数,共含有422个波长点。在建模前把生物代谢物样本随机分成三部分,包括训练集、检验集和预测集,其中训练集样本数为36,检验集和预测集样本数均为25。生物代谢物样本中肌氨酸、甘氨酸成分含量按照常规方法配制。实施步骤与实施例1和2基本相同,其中偏最小二乘回归的模型因子数为10。
[0051]图4和5分别表示生物代谢物样本拉曼光谱预测肌氨酸、甘氨酸成分含量模型波长的概率分布和保留波长分布图。图中的棒状图横坐标表示模型最后保留的波长点位置。从图4和5可以看出,采用该方法可以有效的进行波长筛选,只需利用少量的波长建模,从而使模型更加精简。利用模型对生物代谢物样本肌氨酸成分含量未知的检测集样本进行浓度测定,结果发现,采用传统PLS建模,需要422个波长点,对肌氨酸成分含量测定的预测均方根误差RMSEP=1.7899,相关系数R=0.7137;通过该方法仅需要保留37个波长,对肌氨酸成分含量测定的预测均方根误差RMSEP=0.1278,相关系数R=0.8954。利用模型对生物代谢物样本甘氨酸成分含量未知的检测集样本进行浓度测定,结果表明:采用传统PLS建模,需要422个波长点,对甘氨酸成分含量进行测定的预测均方根误差RMSEP=0.9984,相关系数R=0.7762。通过该方法仅需保留30个波长,对预测集样本甘氨酸成分含量进行测定的预测均方根误差RMSEP=0.2839,相关系数R=0.9529。与传统PLS方法比较发现,利用该方法对肌氨酸、甘氨酸成分的预测结果和化学测定结果之间的线性关系均得到很大的提高,且模型更加精简、预测精度更高。
[0052]上述实施例所采用的波长筛选方法结合了统计学知识,结果更加可靠;而且能够更好的发掘光谱中的特征信息,从而提高烟草近红外光谱和代谢物拉曼光谱定量分析模型的预测精度,具有较高的实用价值。