正文 第二章 水體環境背景值研究方法(二)(3 / 3)

二、數據處理

1.異常值的剔除

由於環境是一開放係統,時刻與周圍環境要素發生著作用,表現出明顯的區域差異,因此水體元素背景含量不是一固定值,而是一個範圍值。此外,樣品在采集、分析中難免有個別樣品受到玷汙,使分析結果偏離背景範圍,會使均值偏向離群值存在的方向,並增大標準差。對這些離群值首先分析出現的原因,在未判明原因之前,不得隨意取舍。為保證環境背景值數據的可靠性,必須對離群值進行檢驗、分析和判斷,去偽存真。

對於離群值,首先根據汙染源的分布、研究區地球化學特征及水體動態關係審核數據,;園定、分析離群值,分析其產生的原因。

對由於非標準化布點、采樣、運輸、保存及分析化驗所造成的離群值,無須檢驗應予易除。若離群值是由於樣點處於區域地球化學異常區或礦點,應將該樣點以適當的方式表示或單獨處理。

上述幾種情況以外的離群值,應采用統計方法進行檢驗,決定其取舍。這幾種方法均有優點和不足,有其特定的適用範圍,可選其中兩種以上方法進行檢驗,找出遠離樣本中心的離群值。一般取顯著性水平a=0.05判定離群值為可疑值;取a=0.01判定離群值為異常值。

2.背景值樣本數據的概率分布類型判別

在環境背景值研究中,通常用數值表示環境中元素的含量與分布特征。表示環境各要素背景值的方法,目前並無統一規定,如果不考慮數據的分布特征,一律用某一統計值來表示是不盡合理的。在剔除異常值後,應按照各統計單元元素含量的概率分布特征選擇不同的表示方法。本項研究中,選用概率檢驗方法。由於各種方法各有利弊,可選用兩種以上的方法來檢驗元素含量的概率分布類型,取其綜合結果作為確立概率分布類型的依據。

(1)如果三種方法檢驗的結果一致,則認為該樣本的分布類型就是檢驗結果。

(2)如果有兩種檢驗方法判定為正態或對數正態分布,則認為該樣本的分布類型為正,態或對數正態,否則為偏態分布。

(3)同一置信度水平上,若有兩種分布類型,則正態分布優先,對數正態次之,最後考慮偏態分布。

在進行正態和對數正態檢驗時,以置信概率P>0.10為判斷界限,若用P>0.10仍不能做出判斷時,按下述方法處理:

(1)正態及對數正態檢驗結果置信概率均大於0.10,但置信概率不同時,取置信概率大者。

(2)正態及對數正態檢驗置信概率均小於0.10,兩者置信概率相同時,取正態分布,或者不論其置信概率是否相同,均看作偏態分布。根據直方圖,偏向正態時,用概率尺度轉換正態化法;偏向對數正態時,用百分位數法。

(3)正態及對數正態的置信概率均大於0.10,且兩者的置信概率相同時,對於KS法用值進行比較,取小者;對於雙檢驗,用識值進行比較,取大者;對於兩者的自由度下較小者。

三、背景值統計結果的表示方法

水體環境背景值是水體環境的係統屬性,反映了水環境諸要素的組成、結構與含量特征,它是一個範圍值,其數學表征是以特征值為基礎的一組統計參數的集合體。

從地學、環境科學、係統論和統計學的綜合觀點來看,環境背景值的內涵有以下意義:

①環境背景值集中反映了統計單元內元素背景含量的典型水平或集中趨勢,可用數學期望表征,在統計學上通常由樣本的均值和中位數得出。

②樣本數據的離散程度,一般由樣本的標準差給出,反映了元素分布的隨機性和離散性。

對統計單元原始數據分布類型的檢驗,可以判定元素背景值數據的質量和統計分布特征。

1.幾種統計量及其意義

(1)算術統計量

當樣本服從正態分布時,通常以算術均值代替隨機變量的數學期望,它表征了這組數據的集中位置。算術統計量有算術均值叉、標準差及變異係數。

標準差反映正態分布下樣本的絕對離散程度,而變異係數則表示樣本的相對離散程度。-算術均值易受樣本中特大和特小值的影響,對於不對稱(偏態)的樣本,它並不反映數據的典型水平。

(2)幾何統計量

幾何統計量是用來表征對數正態分布樣本集中位置和離散程度的統計量,幾何均值、幾何標準差。

對數正態分布是一種非對稱的偏態分布,其樣本在對數尺度上轉換後的概率分布是對稱的正態分布。幾何均值即是反映樣本為對數正態分布下的數據典型水平。

(3)中位數財,及百分位數

對於呈偏態分布的樣本,算術統計量、幾何統計量均無法準確反映數據的典型水平和離散程度。中位數及百分位數則能較好地代表數據的集中位置。

首先將樣本內的數據從小到大排序。

由於6表示數據在數學期望和附近的聚散程度,而可能與相差較大,因此用6表示呈偏態分布的樣本的離散程度是不合理的。若將中位數看作偏態分布的數

學期望值,則其標準差、表示數據在附近的離散程度,這樣範圍基本與百分位數接近。一般置信度a取0.1,則用10%、90%位數來表示偏態分布樣本的離散程度。

對偏態分布的樣本,也可采用求樣,的理論密度函數,並由密度,數求出樣本的均值和方差再通過估計。用表示樣本的集中位置,用表示離散程度。

數學期望在離散的情況下對原始樣本分別相當於算術值和標準差,一般情況下適用於任何分布類型。而當樣本呈對數正態分布時。

修剪後均值對於存在個別極大或極小值的樣本較為有效,它是將樣本按由小至大或由大至小的順序排序後,修剪掉極大、極小的數據,對剩餘的數據進行加權平均。

2.背景值統計結果的表示方法

由於背景值樣本的分布類型有三種,其集中位置和變異範圍也各不同,因而需根據樣本正態、對數正態及偏態的顯著性水平來確定背景值及其範圍。

(1)對於正態分布宜選用算術統計量,其背景範圍選用±1.29表征,其占樣本總量的80%。

(2)對於對數正態分布選用幾何統計量或密度函數的數學估計值表征。

(3)偏態分布樣本選用中位值或修剪均值及10%、90%位值來表征。

上述三種均為數值法,在此基礎上尚可用圖示法、等值線法等多種形式來表征某一水域水體環境背景值。