正文 近紅外光譜數據分析(1 / 2)

近紅外光譜分析是一種快速分析技術,能夠在很短的時間內完成樣品的分析,但這一切須建立在良好的分析模型基礎上。在近紅外光譜分析中,最為耗時的是近紅外光譜的數據分析。光譜分析的目的是將樣品的近紅外光譜特征與樣品的組成或有關性質關聯起來。根據分析結果類型的不同,可將光譜分析方法分為定量分析和定性判別分析兩大類,這裏主要介紹定量分析方法。

一、近紅外光譜的定量分析

近紅外光譜的定量分析是指利用化學分析數據和近紅外光譜構成一個模型,確定模型參數,然後以這個模型定量預測某些信息(如濃度)的方法。其數據分析一般涉及以下幾個步驟。

(一)具有代表性的建模樣品的收集

建模樣品為從總體中抽取的有限個(一般是幾十個)能代表研究對象總體的適合分析的樣品。這裏說的代表性指的是同一材料(如同一種作物)中的不同類型、不同品種、不同來源以及待測組分含量分布等。待測組分含量範圍應覆蓋被測樣品中該組分的含量範圍,而且在這範圍內建模樣品的分布盡量是均勻的。如果有足夠的數量,同一類型的品種可做單獨建模,這樣會得到更好的效果。

(二)建模樣品被測組分化學分析值的測定

校正模型是由建模樣品被測組分的化學值和相關近紅外光譜的吸光度或光密度值經回歸得到的,因此模型預測結果的準確性很大程度上取決於標準方法測得的化學值的穩定性,隻有準確的化學值才能得到可靠的回歸模型,從而保證未知樣品的預測的準確性。保證化學值的準確性,必須注意下列各點:①選用國際或國內標準方法測定建模樣品;②在不同時間測定2~3個平行樣品,平行樣之間的相對誤差不能大於方法允許的誤差範圍;③測定結果建議以幹基含量表示,這樣表示的結果不會因空氣濕度的變化而波動。

(三)光譜數據的測量

在測定光譜數據時,應注意到儀器狀態和環境因素的變化,測量條件盡量保持一致。另外,根據樣品的物化性質,選擇最佳采譜方式。

(四)光譜數據的預處理

檢測器檢測到的光譜信號除含樣品待測組分信息外,還包括各種非目標因素,如高頻隨機噪聲、基線漂移、雜散光、樣品背景等。因此,在數據分析前,首先應針對特定的光譜測量和樣品體係,對測量的光譜進行合理的處理,減弱或消除各種非目標因素對光譜信息的影響,為穩定、可靠的校正模型的建立奠定基礎。常用的預處理方法包括:高頻噪聲濾除(卷積平滑、傅裏葉變換、小波變換等),光譜信號的代數運算(中心化、標準化處理等),光譜信號的微分,基線校正,對光譜信號的坐標變換(橫軸的波長、波數等單位變換,縱軸的吸光度、透過率、反射率等單位變換)等。下麵簡單介紹幾種常見預處理方法,具體數學算法參閱《化學計量學》。

Savitzky-Golay卷積平滑法基於最小二乘法原理,能夠保留分析信號中的有用信息,消除隨機噪聲,但是過度的平滑將會失去有用的光譜信息。

數據中心化(Mean Center)方法的目的是改變數據集空間的坐標和原點,這樣處理後的光譜數據充分反映了變化信息,對於以後的回歸運算可以簡化並使之穩定。

數據標準化(Normalization)處理是將原始數據矩陣中各元素減去該列元素均值後再除以所在列元素的方差。其特點是權重相同(一列元素),均值都為零,方差和標準差都為1。

基線校正主要是扣除儀器背景或漂移對信號的影響,可以采取峰穀點扯平、偏置扣減、微分處理和基線傾斜等方法。采用微分可以較好的淨化譜圖信息,應該注意的是光譜微分變換會將噪聲放大引入光譜,所以微分窗口數據點的大小也應作出合理的選擇。

(五)校正模型的建立

建立校正模型是近紅外光譜分析中最為重要的一步。多元線性回歸(MLR)、主成分回歸(PCR)和偏最小二乘回歸(PLS)是常用的三種建立校正模型的方法。區域權重回歸(LMR)和人工神經網絡(ANN)則是常見的非線性校正模型建立技術。多元線性回歸、主成分回歸和偏最小二乘回歸、區域權重回歸和人工神經網絡等算法的基本原理及運算過程參閱《化學計量學》,下麵簡單介紹常用兩種算法基本原理。

1.主成分分析法

主成分分析法的中心目的是將數據降維,以排出眾多化學信息共存下的相互重疊的信息。它是將原變量進行轉換,用少數幾個新變量作為原變量的線性組合,同時,這些新變量應盡可能多的表征原變量的數據結構特征而不丟失信息。

通過主成分回歸,可以去除噪聲,而且由於主成分間的相互正交,解決了回歸中的共線性問題,有效地提高了信息利用,提高了模型的穩定性。