×○

○×

出行OD射頻識別×

○○

車輛OD車輛號牌識別×

○○

車輛OD無人飛機×

○○

交通密度注:—直接檢測;○—間接檢測;×—不能檢測。

3.基於車路協同的檢測器的數據特點車路協同檢測技術是一種新型先進的檢測技術,目前各國對其係統的內容和功能都有不同的描述。車路協同可理解為是基於無線通信、傳感探測等技術進行車路信息獲取,並通過車車、車路信息交互和共享,以實現車輛和基礎設施之間智能協同與配合,達到優化利用係統資源、提高道路交通安全、緩解交通擁堵的目標[8]。

車路協同係統的交通信息采集主要是由智能車載係統和智能路側係統完成的。智能車載係統包括各種車輛運行參數傳感器、車載攝像頭和雷達、GPS衛星定位裝置以及車載微處理單元等。智能路側係統主要由安裝在道路上的固定檢測器構成,如環形線圈檢測器、微波雷達檢測器、視頻檢測器等。智能車載係統主要采集車輛定位信息、車輛運動狀態信息(車輛速度、車輛加速度和刹車踏板深度等)和交通環境信息(行人信息、路麵狀況信息和交通標·16·第2章交通數據融合的基礎理論與方法誌等),智能路側係統主要檢測交通流狀態、路麵狀態及環境等信息,並通過製定好的網絡通信協議進行信息的交互。

從上述分析可知,每種交通數據采集技術都有性能和應用上的優勢與不足,沒有任何一種檢測技術能夠單獨地向城市道路交通控製與管理係統提供所需的全部交通參數。因此,需要從道路路網建設和交通的特性出發,結合交通綜合管理係統的建設來優化交通數據采集方式的選擇。

2.2交通數據融合的基本內容與框架2.2.1數據融合的基本概念數據融合又稱信息融合或多傳感器信息融合,不同的學科背景對其有著不盡相同的解釋。目前,文獻中普遍采用以下兩種定義[9]:(1)數據融合是利用計算機技術對按時序獲得的若幹傳感器的觀測信息在一定準則下加以自動分析、優化綜合,以完成所需的決策和估計任務。按照這一定義,傳感器是數據融合的基礎,多源數據是加工對象,協調優化和綜合處理則是數據融合的核心。

(2)數據融合是從多個級別上對傳感器數據進行綜合處理的過程,每一處理級別都反映了對原始數據的抽象程度,其結果表現為:在較低級別的處理是對狀態和屬性的評估,在較高層次的處理則是對整個態勢的估計。

簡而言之,數據融合就是對不同來源信息的綜合處理,進而得出更為準確、可靠的結論。目前,數據融合的相關研究主要集中在以下四個層麵[10]:(1)信息表示。由於不同傳感器采集的數據在時間、空間和模式上有所不同,因此需要將這些數據以一定方式轉換,以表達一致性的信息,如事件校準、空間標定、矢量表示等。

(2)數據關聯。數據關聯是指為了保證數據之間的相關性、避免數據幹擾、控製和降低計算複雜性的一項技術,如數據匹配、時間同步、空間同步等。

(3)融合計算。融合計算是數據融合理論與方法的核心,它包括多傳感器采集數據的取舍、補充、修改、分析和決策等,並生成融合計算結果。

(4)態勢評估。態勢評估是根據融合計算的結果,得到更為直觀、深入、準確的結論,和對觀測對象發展態勢的估計。

數據融合因其優點被越來越多的應用於軍事、通信、交通、汽車等領域,具體參見表25。

表25數據融合的優點[11]優

點例

證利用多種傳感器能夠更加準確地獲得分析目標的某一特征或一組相關提高精度特征增加了目標特征矢量的維數不同類型傳感器能夠實現功能相補,增加了目標特征中的不相關信息擴大了時空覆蓋範圍多種傳感器有利於全天候、網絡化的數據采集·17·基於多源數據融合的城市道路交通控製與管理(續表)優

點例

證信息獲取時間短、處理速度快通過多組數據的相互關聯,可最大限度地利用有效信息,縮短係統處理的總時間提高了係統容錯能力多源數據的融合減少了單一數據源出現的差錯提高了係統性價比一組一般性能的傳感器可達到一個高性能傳感器的工作能力,但成本低得多決策更可靠多源數據的融合得到的結論更可靠、更全麵2.2.2交通數據融合的特點交通領域的多源數據融合可理解為充分利用不同時間和空間的檢測器數據資源,采用計算機技術與相關融合方法,對多源異構的交通數據進行篩選、互聯、相關、估計等多層次多緯度的綜合處理過程,以便獲得比任何單個數據源更全麵、更準確的交通信息,並為不同層次的交通決策提供更為堅實的基礎。

隨著交通信息化、智能化水平不斷提高,多種檢測器、不同數據係統、多個交通部門等為城市道路交通係統提供了海量的數據,形成了交通數據的新特征[12]。

1.多源性交通數據的多源性是指獲得的數據種類繁多、來源廣泛、分布分散,可歸納為主體要素、時間空間、參與層次、獲取途徑、狀態類別等方麵,具體如圖21所示。

圖21交通數據的多源性2.異構性交通數據的異構性主要表現在不同來源數據的表現形式、確定性、標準格式等方麵的不·18·第2章交通數據融合的基礎理論與方法同。如表現形式不同主要體現在獲得的交通數據中既含有交通量、車速、信號配時等定量信息,也有擁擠程度、服務水平等定性信息,還包括視頻圖像等多媒體信息。

3.層次性依據數據抽象的程度,可將交通數據由低到高依次分為基礎數據層、特征屬性層和狀態描述層。基礎數據層是指從各類信息源獲取的基本交通參數,如交通流數據、道路環境數據等;特征屬性層是交通目標(車輛、行人等)和交通現象(如交通狀態)的各類模式及其統計數據,側重於識別判斷,如對交通流是自由流還是擁擠流的判別;狀態描述層是對各種交通狀態的描述與統計,側重於交通係統運行分析和預測,如對交通事件影響程度的分析。

此外,信息化、智能化交通環境下的交通數據還具有冗餘性和互補性等特征。

交通數據的新特征也為交通信息處理提出了新挑戰,有效地整合豐富的數據資源成為滿足不同層次交通控製與管理需求的關鍵。在此情況下,多源交通數據融合理論與方法得到了廣泛關注和迅速發展,多源數據融合在交通數據處理中的優勢與應用主要包含以下方麵:(1)獲得更全麵的交通特征信息。不同的交通數據采集方法能夠獲得多樣的特征信息,采用多源數據融合處理可以增加交通特征信息的維度。如基於環形線圈檢測器與車輛號牌識別檢測技術,不僅能獲得斷麵和路網的動態交通參數,還可以實現對車輛行駛軌跡的估計。

(2)獲得更準確的交通運行狀態評價。由於受到檢測設備、天氣、環境等客觀因素的影響,單一交通檢測技術采集的數據往往存在著異常或缺失,而數據融合技術通過對多源數據的關聯與分析,保證了交通流信息的準確性,有利於提供更準確的交通運行狀況評價。如浮動車和定點檢測器數據分別可以提供小樣本的車輛連續軌跡數據和大樣本的定點交通數據流參數數據,這兩類數據的融合,可以獲取更加準確和可靠的實時路況和行程時間。

(3)更有效地進行交通控製與管理。基於多源數據處理的綜合交通管理平台,構建起了立體、直觀、多維的交通監測係統,有利於交通控製方案與管理策略的製定。如基於浮動車和高清視頻的多源數據融合可以實現交通事件的檢測,並通過及時的信息發布和信號配時調整,降低交通事件對整個交通係統的影響。

2.2.3交通數據融合的基本內容與框架交通數據融合是一個多層次、多緯度的數據處理過程。目前,按國內外通行的分類方法,將數據融合按照融合對象的抽象層次分為數據級融合(也被稱為“像素級融合”)、特征級融合和決策級融合[10]。

1.數據級融合數據級融合是直接在采集到的原始數據層上進行融合,在各種檢測器的原始信息未經預處理之前就進行數據的綜合與分析,是最底層的融合。

2.特征級融合特征級融合屬於中間層次的融合,它先對來自各檢測器的原始信息進行特征提取(如車輛行駛方向、速度等指標),然後對特征信息進行綜合分析和處理。

3.決策級融合決策級融合是一種高層次的融合,它從具體決策問題的需求出發,充分利用從檢測對象·19·基於多源數據融合的城市道路交通控製與管理中提取的各類特征信息,采用適當的處理方法來實現指揮、控製和決策。在多源交通數據融合中,決策級融合的工作過程是首先利用多種檢測器采集交通數據並在本地完成基本處理(包括預處理、特征抽取、識別或判決等),以建立對觀察目標的初步結論,然後通過關聯處理進行決策層融合,最終獲得聯合的推斷結果。

圖22描述了數據融合的3個層次。

圖22數據融合的3個層次[13]各數據融合層次得到的信息具有不同的特性,在多源數據融合的應用中應根據實際需求選擇。關於這3個數據融合層次的特性與對應的數學方法見表26。

表26數據融合各層次的特性與對應的數學方法特性融合層次數據級融合特征級融合決策級融合數據量最大中等最小信息損失最小中等最大容錯性最差中等最好抗幹擾性最差中等最好融合難度最難中等最易預處理最小中等最大分類性能最好中等最差係統開放性最差中等最好主要數學方法加權平均法、卡爾曼濾波Dempster-Shafer貝葉斯估計法、專家係統法、聚類分析法、法、參數估計法等證據理論、模擬退火法等神經網絡、模糊邏輯法等·20·第2章交通數據融合的基礎理論與方法數據融合的體係結構按照融合發生的位置和數據流的傳送方式,一般分為集中式融合、分布式融合、混合式融合和反饋式融合[10]四類。

1.集中式融合集中式融合結構將來自不同檢測器的原始數據都送入融合中心進行處理。該融合結構的優點是可以實現時間和空間的融合,處理精度高,其缺點是對硬件資源的要求高,可靠性較差。

2.分布式融合分布式融合是指在各檢測器處完成一定量的計算和處理任務之後,將壓縮後的檢測數據傳送到融合中心,並在融合中心將接收到的多維信息進行組合和推理,最終完成多源數據的融合(圖23)。這種結構適合於遠距離配置的多檢測器係統,其不需要過大的通信帶寬,但會有一定的信息損失。

圖23分布式融合3.混合式融合混合式融合綜合了前兩種體係結構,根據特定的任務需求,采用集中式或分布式融合,既有將未經處理的檢測器數據送到融合中心,也有將經處理後的檢測器數據送到融合中心。這種融合結構在處理速度、通信帶寬、精度和可靠性之間取得平衡,但其係統性能的穩定性較差。

4.反饋式融合當融合係統對數據精度和實時性都要求較高時,融合計算速度將成為關鍵影響因素。當計算速度難以滿足要求時,利用原始積累的相對穩定信息對融合數據反饋後,再進行處理將是一種非常有效的途徑,其原理是當融合係統經過一段時間對外部環境感知後,已獲得環境大部分信息特征,利用已掌握的環境特征啟發原始數據融合,既可以減小計算量,又能保證較高的融合精度。

2.3交通數據的預處理方法檢測器采集到的原始數據基本都會存在一定質量問題,因此在數據融合之前要對原始數據進行整理,這被稱為數據的預處理。數據預處理是必不可少的步驟,其可以改進原始數據的質量,提高數據融合後的精度。交通數據的預處理主要包括兩個步驟,分別是對問題數據的判別和修正。本節首先對常見的4種問題(不規則時間點數據、異常數據、缺失數據、冗·21·基於多源數據融合的城市道路交通控製與管理餘數據)的交通數據進行分析,然後分別介紹了這4種交通數據的預處理方法。

2.3.1交通數據的問題分析1.不規則時間點數據(也稱為“時間點漂移”)正常情況下,大多數交通檢測器會遵循一定的時間間隔進行數據的采集和傳輸,而在實際運行中,由於檢測設備故障、通信網絡異常、交通信息中心的軟件或硬件問題等原因,致使數據中心記錄的采集數據並不是固定周期,或記錄的數據順序發生變化。如當浮動車檢測器以5min的間隔上傳數據,而數據中心實際收到的數據間隔卻小於或大於5min。不規則時間點數據會影響到數據的實時性。

2.異常數據異常數據是指用客觀標準不能解釋為合理的,明顯偏離測量總體的個別測量值。異常交通數據可能是檢測器和傳輸線路故障造成的,也可能與車輛未按交通管製行駛等原因有關。異常數據會影響到數據的準確性。

3.缺失數據缺失數據主要表現為檢測器沒有采集到數據、檢測器采集到但傳輸終端未能獲得的數據、獲得的單條數據的記錄(時間字段、車牌字段、流量字段、速度字段、占有率字段等)存在缺失或不完整。缺失數據可以分為直接缺失和間接缺失。直接缺失往往是由檢測器或網絡故障等客觀原因引起的,而間接缺失則是未能通過不規則時間點和異常數據檢驗而舍棄的數據。表27以環形線圈檢測器為例介紹了其數據直接缺失的典型原因和缺失數據的時空特點。缺失數據主要影響數據的完整性。

表27環形線圈檢測器直接缺失數據的典型原因與時空特點分析[14]典型原因特點分析空間性質時間性質頻繁的施工建設破壞了檢測設備同一地點或同一路徑上的連續幾時間相當長(如幾個月,取決於施個地點工建設的類型)檢測器掃描頻率不穩定,無法正常檢測車輛時間可能較短,也可能較長(如幾檢測器車輛過度密集造成檢測一個或幾個孤立的地點故障器無法工作分鍾到幾周)檢測器連續工作,出現間歇性工作故障檢測器和數據中心間通信中斷一個或幾個孤立的地點時間較短(如少於幾分鍾)數據存儲係統故障(硬件或軟件所有地點時間較短(如幾小時到少於一天)失靈)4.冗餘數據冗餘數據是指數據中心得到的數據同時指向某一交通目標,並且數據有相同或相似的·22·第2章交通數據融合的基礎理論與方法時空和數值。交通冗餘數據可分為單檢測器冗餘和多檢測器冗餘。單檢測器冗餘主要是指檢測器檢測到的數據集的記錄在某些交通參數上的值相等或足夠相似,即一條數據被多次記錄或重複上傳。多檢測器冗餘通常是因為檢測器布設不合理造成采集到的交通數據相互重疊。冗餘數據會影響到數據的有效性。

針對交通數據存在的問題,需要通過數據處理方法進行檢查和校正。原則上,交通數據的檢查和校正應遵循以下步驟[15]:(1)數據檢查。基於一定的判定規則,檢查各類檢測器獲得的數據是否存在問題,如利用閾值法識別異常交通數據。

(2)數據重構。對不規則時間點數據、異常數據和缺失數據進行處理,一般情況下是通過合適的數據對問題數據進行代替,如利用曆史平均法對異常數據修正。

(3)數據校正。對重構後數據的有效性和一致性重新檢查,如果存在問題,則返回到步驟(2),直到滿意為止。

2.3.2不規則時間點數據處理不規則時間點數據會對數據的時間點判別造成障礙,影響後續數據的同步應用,所以須進行正確的時間點修複[16]。

不規則時間點數據是通過將所采集到的原始數據樣本中的時間記錄值字段與正常情況下采集時間點進行對比完成識別。

Tt-s=n(

)T

21式中,Tt-s為s檢測器在t時刻的時間記錄值;T為檢測器采集周期。

若n為整數,則原始樣本為規則時間點數據;反之,則為不規則時間點數據。不規則時間點具體表現為,樣本采集時間左偏於正常周期時刻,或者右偏於正常周期時刻。

假設T為檢測器采集周期,Tp-s是Tt-s時刻相距最近的正常采集周期時間點,則Tt-s滿足:Tp-s-TTt-sTp-s+T2

2()當Tt-s∈(Tp-s-T,Tp-s)時,Tt-s為左偏時間點;當Tt-s∈(Tp-s,Tp-s+ΔT)時,Tt-s為右偏時間點。

設Td為容許左(右)偏最大值,當Tt-s滿足式(23)時:≤

23

Tt-s-Tp-sTd()則認為該時間點在容許偏離的範圍,將時間點記錄值改為Tp-s;反之,則該樣本不予使用,視為丟失數據。

其中,Td是由用戶期望保留原始數據的比例及原始樣本時間記錄值總體分布確定的。設數據使用者保留原始數據的比例期望為P,以一天的原始樣本時間記錄值為例,其中數據采集周期為T,則一天的樣本數量為n,對於容許左(右)偏最大值的計算可以采取從0開始,以b為步長,依次遞增的方式連續取值到Td,直至滿足式(24):·23·基於多源數據融合的城市道路交通控製與管理n

P(

-|

d)p=Tp-s≤

Tθ|Tt-s(

)n

≥1

,=

()-

d。

*為在Tps時刻滿足在T偏差範圍內的原始樣本數目式中n86400θT

2.3.3異常數據處理異常數據處理時應盡可能地保留原始數據的特征,最大限度地減低誤判率。在剔除異常數據時要慎重,最好能分析出明確的理論或技術原因,因為某些異常數據是交通擁堵、交通事故等特殊狀況的正確反映,對交通狀態分析有較大影響。在一組檢測數據中,異常值應當占很小的部分,如果識別的異常數據較多則可能是由於檢測係統的工作不正常,此時測量的數據是不可信的,應重新安排檢測工作。

異常數據的處理方法主要有特征字段類型與格式檢驗、閾值法、交通流機理法、置信距離檢驗法、有序樣本聚類、數據濾波、閾值法和交通流機理法的結合運用等。

2.3.3.1特征字段的類型與格式檢驗[17]檢測器采集的原始數據包含有多個特征字段,如定點檢測器采集的原始數據常包括檢測時間、車流量、車速、時間占有率等,這些特征字段都有特定變量類型及特定格式。對於上傳至數據中心的原始數據,首先要進行特征字段類型與格式的檢驗。

特征字段的類型檢驗主要針對數據變量類型是否符合規定,如字符串類型、日期類型、整數類型、實數類型等。特征字段的格式檢驗主要針對字段具體格式的檢驗,比如字符串長度、日期格式、數字有效長度、小數點長度等。

2.3.3.2閾值法閾值法對異常數據的識別是基於交通參數的取值必然在一個合理的數據區間的原理。當采集的某種單一信息(如交通流量)不在上下閾值所規定的區間內,則認為是異常數據,所以該方法的關鍵是閾值的確定。閾值法控製的交通參數主要有交通流量、速度、占有率、平均有效車輛長度、行程時間、道路擁擠長度,具體的判別規則如下[11,14]。

1.交通流量由於受到道路最大通行能力的限製,所以路段和交叉口存在允許的最大交通流量。因此當檢測到的交通流量超過允許的最大值,則認為該數據為異常數據。定義交通流量qd有效範圍是0≤qd≤fccT式中,qd為交通流量,veh\/h;fc為交通流量的修正係數;c為道路通行能力,veh\/h;T時間,h。

2.速度對於固定交通檢測器的速度參數vd,其取值範圍一般位於如下區間:0≤vd≤fvvm式中,vm為路段規定的限製速度,km\/h;fv為修正係數,一般取1.3~1.5。

·24·

(25)為觀測(26)第2章交通數據融合的基礎理論與方法3.占有率對於固定交通檢測器檢測到的占有率參數Od,其值一般滿足下列條件為0≤Od≤100%或

()

270≤Od≤3600TS式中,T為檢測的時間間隔,h;S為檢測器的掃描頻率,即每秒脈衝次數。

4.平均有效車輛長度對於固定檢測器檢測得到的車輛長度,一般應滿足式(28)和式(29):AVEL=×V×O(

)1000Q

28AVEL∈

[AVELmin,AVELmax]2

9(

)式中,AVEL為平均有效車輛長度,m,根據經驗,AVEL取值範圍為[2,22];V為平均車速,km\/h;O為占有率,%;Q為流量,pcu\/h。

5.行程時間行程時間的最小值定義為在自由流狀態下,車輛以最大合理速度行駛通過特定路段所用的時間;行程時間的最大值則因道路的等級、控製類型、道路交通狀態而不同。

高速公路行程時間的合理範圍為l

tl

()

fv≤v+ε≤

p210vmb

式中,t為行程時間,s;l為路段長度,m;vm為路段規定的限製速度,m\/s;fv為修正係數;vbp

為當路段的下遊發生阻塞時,沿此路段行駛的平均行程速度,m\/s;ε為大於0的一個極小實數,以免當vb=0時,算法溢出。

城市主幹道行程時間的合理範圍為l

l2

11≤

≤lcfvt

+τmax()vmp

Q式中,tp為行程時間,s;l為路段長度,m;fv為修正係數;vm為路段規定的限製速度,m\/s;lQ為排隊中車輛的平均長度,即排隊長度與排隊車輛數之比,需通過實地調查得到;c為道路通行能力,veh\/s;τmax為紅燈信號時間,s,對於有信號控製路段,取值為最大紅燈時長,對於無信號控製路段,可根據實地觀測車輛在交叉口的延誤時間確定該指標。

6.道路擁擠長度道路擁擠長度是指車輛以低於擁擠狀態時的臨界速度(v

212lcl+ε1()·25·基於多源數據融合的城市道路交通控製與管理式中,lc為道路擁擠長度,m;l為路段長度,m;ε1為路段長度測量所產生的最大誤差,m。

閾值法的特點是計算簡單,適合在線計算,但異常數據的識別率比較低,且落在閾值規定區域內的點並不一定是正確數據。

2.3.3.3交通流機理法[11,17]基於交通流機理法的異常數據判別,以交通流理論為基礎,判斷采集到的交通流參數之間的關係是否符合既有規律,對兩個甚至多個參數進行同時考察。根據交通流機理法確定的判定規則主要有交通流參數的一致性檢驗、流量和占有率關係模型、流量和速度關係模型、行程時間和擁擠長度關係模型等(如可根據圖24的交通流流密速基本圖進行異常數據的判別)。如果檢測器獲得的數據不能滿足這些規則中的一個或者幾個,則這些數據可能是異常值。

圖24交通流流密速基本圖1.交通流參數的一致性檢驗若交通數據的流量為0,地點車速為0,時間占有率大於0且小於95%時,可歸類為異常數據樣本;若交通數據的流量不為0,地點車速為0,可歸類為異常數據樣本;若交通數據的流量為0,地點車速不為0,可歸類為異常數據樣本;若交通數據的流量大於q,地點車速不為0,時間占有率為0,可歸類為異常數據樣本,q的取值大小與實際道路車流量及檢測器有關,通常取5輛\/(min·車道)。2.流量和占有率關係模型2

≤≤

2213(

)aOd+bOd-kσssqdaOd+bOd+kσss式中,a和b為模型參數,由曆史數據回歸分析得到;Od為時間占有率;σs為流量的標準偏,

s;d,

差pcu流量和速度關係模型pcuk

為標準偏差的修正係數q為交通流量3.

1fb1

1fb+

-kσ+

+kσ()?

q?

qvv≤v≤?

q?

qvv214?

dd

?

daè1-c?

1-λSaè1-c?

1-λS式中,a和b為模型參數;c為道路通行能力,pcu\/h;f為每公裏道路信號交叉口數;λ為綠信比;S為飽和流率,pcu\/h;vd為車輛速度,km\/h;σv為速度的標準差,km\/h;kv為標準偏差的修正係數;qd為交通流量,pcu。

·26·第2章交通數據融合的基礎理論與方法4.

行程時間和擁擠長度關係模型l

-kσ1

1+kσ≤

()Nll-laaNll-laa≤t215a

ca

ca

pa

ca

ca

1c+2v+31c+2v+3m

m式中,a1、a2和a3為模型參數;Nl為車道數;l為路段長度,m;lc為道路擁擠長度,m;c為道路通行能力,pcu\/h;vm為路段規定的限製速度,km\/h;tp為行程時間,h;σa為行程時間的標準偏差,h;ka為標準偏差的修正係數。

交通流機理法算法簡單,適合在線數據處理,但該方法的規則製定非常關鍵,且交通參數的關係難以確定。

閾值法與交通流機理法相結合也是異常數據處理的常用方法之一,首先采用閾值法剔除不合理的數據,然後用交通流機理法對剩餘數據進行相關檢驗。該組合方法使得異常數據剔除率大大提高,但由於這兩種方法都隻是針對某一時刻單個點的數據檢驗,所以仍會有異常數據被漏掉。

2.3.3.4置信距離檢驗法[11]對於同一斷麵多檢測器檢測到的同一參數可以應用置信距離檢驗法(也被稱為“決策距離比較法”)進行異常數據處理。置信距離檢驗法將多個檢測器的決策值按照一致性融合的思路,先求“決策距離”,尋找最大檢測器連接組,再求最優融合解,並得出最終結果。

假定檢測器i的測量值的概率分布由高斯概率分布函數描述()[

i2()](

)exδ

216i

ip

-i2Px=1

21x-x,a;xaδ;δ。

i式中為模型參數i為檢測器的測量值i2為對應的方差,δ≠

ij,P(x)Pj(x),δ

現有兩個檢測器和

概率分布為i

和兩者的測量方差不相同即i2,xx

ij

,P

j2i和j表示檢測器和的測量值定義條件概率函數ij形式如下(

)P=P(x|x)iji

ji

217類似地,定義PjiPji=Pj(x|x)2

18()i

jPij=Pi(xj|xi)表示基於檢測器i的測量值xi下的檢測器j的測量值的概率精度;Pji=Pj(xi|xj)表示基於檢測器j的測量值xj下的檢測器i的測量值的概率精度。它們的大小分別表示兩檢測器之間的相互支持度,即若Pij>Pji,表示檢測器i對檢測器j強支持,檢測器j對檢測器i弱支持;反之,亦然。

因為多檢測器得到的數據有不確定性存在,必須在不同檢測器中找到一定的關係,如果檢測器獲得的數據互相接近,就可以把它們融合在一起。基於以上分析,定義決策距離dij和dji作為檢測檢測器數據是否可以用於融合的判斷標準。

d=

∫()P(x|x)P(x)xij2

iiiid

219·27·基於多源數據融合的城市道路交通控製與管理d=∫

(x|x)P(x)x()P

ji2

jjjj

d2

20通過決策距離可以衡量各檢測器之間的相互支持度,但由於檢測器的決策值是由概率來描述的,需要給出在測量值xi下隨機量x的條件概率密度Pi(x|xi),這在工程中往往是不可能的。可以根據經驗,將任意兩個檢測器之間的決策距離dij和dji采用式(221)描述:d=2?

i-

1?

u-u)

è?

?

(iju

ji

d=2-

1?

u-u)

?

è?

ji?

j2

÷(

ij

u式中,ui和uj分別為檢測器i和檢測器j的獨立決策值。據此,可以得到m個檢測器的決策距離矩陣Dé

…d1mù

êd11ú

D=ê?

?

úê

úê

…ú

?dm1dmm?

通過對每個決策距離dij的評價,可以進一步得到關係矩陣Rérr

…rmùê

11121

úêr21r22…r2múR=ê?

?

úê

?úê

r2…

r1?

mm

mm?

式中,rij的值表示決策距離dij是否滿足預期要求,滿足為1,不滿足為0,即ij0,i=j或dij>rr

={ij

式中,r為根據經驗確定的閾值,用它與決策距離dij比較以確定rij的值。

(221)(222)(223)(224)(225)關係矩陣R可以用有向圖表示,以所選的檢測器作為節點,如果rij=1,那麼,畫一個從節點i到節點j的箭頭。完整的有向圖是表示所有被使用的檢測器之間關係的直觀圖形。

對於檢測器i和檢測器j,共存在三種關係:①rij=rji=0,表明檢測器i與檢測器j相互獨立;②ri=1,ri=0,表明檢測器i對檢測器j強支持,檢測器j對檢測器i弱支持;③ri=jjjrji=1,表明檢測器i與檢測器j相互強支持。由此便可以確定有向圖的最大檢測器連接組,融合其中的檢測器數據將得到較精確的估計值。所有與最大檢測器連接組相互獨立的檢測器被剔除,所有被最大檢測器連接組弱支持的檢測器被懷疑。確定了檢測器連接組之後,就可以采用各種最優融合方法合並這些檢測器的測量數據,以達到對被測對象全麵一致的估計。

置信距離檢驗法主要用來判斷來自同一斷麵的多檢測器信息是否可以融合,排除較大的誤差值,以提高融合後數據的精度。

2.3.3.5有序樣本聚類[11]聚類算法的基本思想是將類似的值組織成群,稱為“聚類”。如果值落在聚類幾何之外·28·第2章交通數據融合的基礎理論與方法則被視為孤立點,如可以把一天的交通流量曲線、占有率曲線和速度曲線分成許多小的具有相同交通特性的時間段,然後在這些小的時間段中根據交通特點來定位異常的交通數據。

由於交通數據按時間采集,是有序的,因而對於交通數據的聚類算法是有序樣品的聚類分析,也稱為分割法。分割法按照不同的分割規則可分為多種,下麵介紹最優分割法。

將有序樣品X1,X2,…,Xn分割成k段,稱為對該有序樣品的k分割,表示為Sn(k|a1,a2,…,ak-1)。第一段包含的樣品為X1,X2,…,Xa,其平均值為1

a1

X(1,a1)=Xi\/a1i=1第二段為Xa+1,Xa+2,…,Xa,其平均值為112a

2X(a1+1,a2)=Xi\/(a2-a1)i=a+11

(226)(227)第k段為Xa-1+1,Xa-1+2,…,Xn,其平均值為kkn

X(a-1+,n)=X\/(n-a-1)(

)iak

1i

k228=k-1+1如果X(i,j)為樣品Xi,Xi+1,…,Xj的平均值,V(i,j)為樣品對(稱為變差),則有j

X(i,j)=Xc\/(j-i+1)c=ij

V(i,j)=[Xc-X(i,j)]2c=i

X(i,j)的離差平方和(229)(230)設一樣品序列有n個因子,進行k分割,那麼分割方法有多種,總數為Ck-1。

n-1在所有的k分割中,使總變差達到最小的分割稱為最優k分割。其中,總變差為=

(,1)(1,2)…(1

,)()V

V1

a+Va1

a++Va-1

n2

31總

k經過有序樣本聚類後,流量、占有率、速度曲線分別被分成若幹個類,類與類之間的分界點恰恰是可能異常值的所在位置,因為它們與相鄰點的特性有較大差別。當然,這些分界點也有可能是交通事件發生點,所以需要結合相應的事件檢測信息來確定這些可疑點是否為異常數據。

2.3.3.6數據濾波法各種檢測器采集的交通數據中的異常值也可能是由采集過程中的大量的、微小的、不可控製的隨機性因素或短時交通波動造成的,這類異常交通數據也被稱為噪聲數據,該類數據在交通采集中是難以避免的。數據濾波處理的目的就是在保留原始數據變化規律的同時去除數據中的隨機成分。數據濾波的常用方法包括限幅濾波法、中位值濾波法、算術平均濾波法、遞推平均濾波法、中位值平均濾波法、消抖濾波法等。

1.限幅濾波法(程序判斷濾波法)根據經驗判斷,確定兩次采樣允許的最大偏差值(設為A),每次檢測到新值時進行判·29·基於多源數據融合的城市道路交通控製與管理斷:如果本次值與上次值之差小於或等於A,則本次值有效;如果本次值與上次值之差大於A,則本次值無效,放棄本次值,並用上次值替代本次值。

優點:能有效克服因偶然因素引起的脈衝幹擾;缺點:無法抑製周期性的幹擾,平滑度差。

2.中位值濾波法連續采樣N次(N取奇數),把N次采樣值按大小排列,取中間值為本次有效值。優點:能有效克服因偶然因素引起的波動幹擾;缺點:對流量、速度等快速變化的參數不宜。

3.算術平均濾波法連續取N個采樣值進行算術平均運算。N值較大時,數據平滑度較高,但敏感度較低;N值較小時,數據平滑度較低,但靈敏度較高。

優點:適用於對一般具有隨機幹擾的數據進行濾波,這樣數據的特點是在某一數值範圍附近上下波動;缺點:對於測量速度較慢或要求數據計算速度較快的實時控製不適應,比較浪費隨機存取存儲器(RandomAccessMemory,RAM)。

4.遞推平均濾波法(滑動平均濾波法)把N個連續采樣值看成一個隊列,隊列的長度固定為N,每次采樣到一個新數據放入隊尾,並扔掉原來隊首的一個數據(先進先出原則)。把隊列中的N個數據進行算術平均運算,就可獲得新的濾波結果。

優點:對於周期性幹擾有良好的抑製作用,平滑度高,適用於高頻振蕩的係統;缺點:靈敏度低,對偶然出現的脈衝性幹擾的抑製作用較差,不易消除由於脈衝幹擾所引起的采樣值偏差,不適用於脈衝幹擾比較嚴重的場合,比較浪費RAM。

5.中位值平均濾波法(防脈衝幹擾平均濾波法)相當於“中位值濾波法”+“算術平均濾波法”。連續采樣N個數據,去掉一個最大值和一個最小值,然後計算N-2各數據的算術平均值。

優點:融合了兩種濾波法的優點,可消除由於偶然出現的脈衝性幹擾所引起的采樣值偏差;缺點:測量速度較慢,比較浪費RAM。

6.消抖濾波法設置一個濾波計數器,將每次采樣值與當前有效值比較,如果采樣值等於當前有效值,則計算器清零;如果采樣值不等於當前有效值,則計算器加上1,並判斷計數器是否大於或等於上限N(溢出),如果計算器溢出,則將本次值替換當前有效值並清空計算器。

優點:對於變化緩慢的被測參數有較好的濾波效果;缺點:對於快速變化的參數不適宜,如果在計算器溢出的那一次采樣到的值恰好是幹擾值,則會將幹擾值當作有效值導入係統。

對於判定的不規則時間點數據和異常數據,一般可采取以下兩種處理方法:一是將其剔除,這種方法適用於可以得到大量實測數據而有少量問題數據的情況;二是對數據進行修補,根據數據之間的相關性,如相鄰的檢測器數據、曆史檢測數據等,將數據處理成沒有偶然因素影響時本該·30·第2章交通數據融合的基礎理論與方法表現的數值或近似值,這種處理方法的基本原理和算法與缺失數據的處理是相同的。

2.3.4缺失數據處理缺失數據可能造成交通流信息不能被完全提取,使得後續交通流數據分析與深層次的數據挖掘更加複雜,容易導致研究目標最終結果的偏倚。

對缺失數據的識別可以通過對一定時段內的數據進行掃描,如果在該段時間內沒有得到數據或數據不完整,則可判斷數據缺失。對於缺失數據可以直接忽略,也可以通過一定的方法進行修補。忽略缺失數據一般隻有在缺失數據數量較少,且實測數據對於交通狀態的描述是比較可靠的情形才會選擇。

在應用過程中對缺失數據的修補需要遵循以下兩條原則:一是基礎數據完整性原則。采集到的原始數據保存時不應作修改或調整,以便用於數據補齊保證足夠的未經修改過的基礎數據,且補齊數據與基礎數據應分別存儲;二是補齊流程的真實性原則,做好整個補齊操作流程的文檔記載工作,將有助於增強補齊工作的透明度以便於取舍[18]。

缺失數據的修補主要考慮兩個重要因素,即用於修正的數據來源和修正方法。主要劃分為基於時間序列的數據修補、基於曆史數據的數據修補、基於空間位置的數據修補和基於時空相關性的數據修補。在對缺失數據的修補過程中,應針對不同的數據缺失類型及缺失程度,選擇合適的數據修補方法。

2.3.4.1基於時間序列的數據修補交通數據是按一定時間順序連續采集的,從本質上來說屬於時間序列數據。因此,時間序列法適合於交通缺失數據的修補。時間序列法將當前采集的交通變量看作時間序列,並結合曆史數據對丟失的數據進行預測估計。時間序列法主要包括移動平均法、加權移動平均法、線性內插法、自適應指數平滑法及相關分析法[17]。

1.移動平均法移動平均法,認為各時期的曆史數據對未來的數據影響是相同的,用一定間隔的曆史數據的平均值填充缺失數據。

S=t-nXi(

)n

232t

i=t-1式中,St為t時刻丟失樣本中的待修補數據;Xi為t-1至t-n時刻采集的有效數據。

2.加權移動平均法加權移動平均法認為各時期的曆史數據對缺失數據的影響不相同,離預測期越近的采樣時刻,數據的影響越大,應在移動平均中賦予更大的權重。

t-nWiXiSt=i=t-1(233)n

Wii=1式中,St為t時刻丟失樣本中的待修補數據;Xi為t-1至t-n時刻采集的有效數據;Wi為·31·基於多源數據融合的城市道路交通控製與管理權重值,一般取n=5,Wt-1=5,Wt-2=4,Wt-3=3,Wt-4=2,Wt-5=1。

3.線性內插法該方法是根據交通狀態隨時間存在漸變過程這一原理,認為t時刻的交通流狀態介於已知的t-1時刻和t+1時刻的交通狀態之間。所以當時間間隔較短,交通數據變化較小時,可以通過前後兩個時刻數據對缺失數據進行估計。

t=

(x-1+x+1)()Y

tt

2342

式中,Yt為t時刻下的交通流參數估計值;xt-1和xt+1分別是檢測器在t-1和t+1時刻采集的實際交通數據。

該方法由於使用到t+1時刻的數據,所以隻能在離線狀態下使用。

4.自適應指數平滑法[16]指數平滑法是一種特殊的加權移動平均法,對離預測期近的曆史數據給予較大的權重,離預測期遠的曆史數據給予較小的權重,權重由近到遠按指數規律遞減。

一次指數平滑法的基本公式是1

()1

()1

235Yt=yt=axt-+-ayt-式中,xt-1和yt-1為t-1時刻的實測值與預測值;yt為t時刻的平滑值;Yt為t時刻的預測值;a為平滑係數,又稱加權因子,取值範圍為[0,1]。

與傳統指數平滑模型進行預測時a值預先根據經驗給定不同,對於交通時變過程往往采用動態權重因子a。

假設在t時刻指數平滑預測誤差et為et=xt-Yt式中,xt為t時刻的實測值;Yt為t時刻的預測值。取加權平均,即綜合了所有誤差,記為EtEt=βet+β(1-β)et-1+β(1-β)2et-2+…+β(1-β)t-1e1其遞推形式為Et+1=βet+1+(1-β)Et同時,t時刻絕對平滑誤差為t-1Mt=β(1-β)jet-jj=0

(236)(237)(238)(239)自適應參數a的求取步驟如下。

(1)模型初始值。由於經過多次平滑遞推計算,初始值β對預測產生的影響將會越來越小,因此隻需取經驗值(0.1或0.2)即可;初值Y1和Y2一般取x1;相應地,e1和E1取為0;初值M1一般為經驗值0.1x1。(2)求綜合預測誤差:E=βe+(-β)E-1t=,,,…()tt1

t2342

40·32·第2章交通數據融合的基礎理論與方法()求絕對平滑誤差:3

Mt=βe+-βM-1t=,,,…()1

234241t

()

t()得到自適應權重參數:4

,,,…()a=E\/Mt=t

tt

2342

42求出自適應平滑參數後,就可以用動態的at代替恒定的a,從而得到自適應指數平滑預測模型:1

y1()()Yt+=t+=ax1

=y+ae2

43+-ayttttt

tt5.相關分析法[11]以上四種方法並沒有實時動態的分析時間間隔內曆史數據與當前缺失數據的相關關係,而是根據經驗賦予一定的權重,這將造成修補精度較低。相關分析法是測量時間序列中各數據之間的相關關係的方法,並根據相關關係填補缺失數據,相關關係的大小用自相關係數來表示。自相關係數範圍在-1~1之間,-1表示完全負相關,1表示正相關,0表示不相關。

設x1,x2,…,xi,…,xn是一個時間序列,共有n個觀測值,把它組成n-1對數據,(x1,x2),(x2,x3),…,(xi,xi+1),…,(xn-1,xn),一階自相關係數用r1表示r=n-1(x-x)(x+1-x+1)i

ii

11

2441

=1(

)n-n-i

2i

2i

ii

i=1(x-x)(x+1-x+1),

=1r

nk,k同理把這個時間序列組成-

對數據其階自相關係數k為r=n-k(x-x)(x+-x+)i

iikk

=1245n-kn-k(

)(xi

-x)(x+-x+)=1i

i2

=1ikik2

0n

n?

?

由自相關分析理論可知在區間é

ù之間的自相關係數與無顯著差ê-1.96+1.96ú別,即在這種情況下,時間序列中各觀測值之間的自相關性非常弱。因此,應根據數據個數n選取自相關係數1.n96時的k值,由此確定與t時刻數據有緊密相關關係的點,即t的前k個時刻和後k個時刻的數據。那麼t時刻丟失的數據就可以由前後的2k個數據來估計。估計公式為q(t)=r1[q(t-1)+q(t+1)]+r2[q(t-2)+q(t+2)]+…+rk[q(t-k)+q(t+k)]2(r1+r2+…+rk)(246)·33·基於多源數據融合的城市道路交通控製與管理基於時間序列的數據修補方法,算法建模簡單,沒有複雜的參數計算,對曆史數據的依賴性較小。因此,算法的計算速度快,並且不用存儲大量曆史數據,很適合計算機編程計算;但是該方法精度較低,僅限於短時間段內缺失數據的修補。

2.3.4.2基於曆史數據的數據修補交通數據存在時間相關性,即曆史同期的交通數據呈現出相似規律,如城市交通量在相同周期的同一時段的相似性較為明顯。因此可以采用同檢測器的有相似規律的曆史同期數據對缺失數據進行補充。

其一般性的表達如式(247)[14]x^=x()iih2

47式中,x^i為缺失數據的估計值;xih為曆史數據。

而在實際的應用中會基於采集數據的特征采用不同的形式,如采用曆史趨勢數據與實測數據的加權估計值y(k)(t),補充缺失數據,y(k)(t)的計算如式(248)[19]y

()y()()()()1

248(k)t=αt+-αy(k-1)t式中,y(k-1)(t)表示第k-1天t時段的曆史趨勢值;y(t)為實測數據;α為加權係數,一般0≤α≤1,反映了不同時期當前時段數據在曆史趨勢數據中的作用,α越大,實測數據對修補後的數據的影響越大,反之亦然。

此類方法十分簡單,能夠解決基於時間序列預測方法對於連續缺失數據處理能力不足的問題。但是它也存在一些缺陷,如不能反映交通數據的自然波動特性,特別是交通狀況發生變化時,基於曆史數據的數據修補將大大降低估計精度。

2.3.4.3基於空間位置的數據修補交通數據在空間上存在相似特性,如某一定點檢測器與其檢測位置的不同車道之間、上下遊之間的檢測器采集數據存在一定的相關關係,因此可利用這一特性對缺失數據進行修補。對於移動檢測技術,由於得到的數據在空間上相關性差,所以其缺失數據一般不采用基於空間位置的數據修補。

基於空間位置的數據修補方法主要有相鄰車道數據的回歸估計和上下遊相鄰檢測器數據的回歸估計。

1.相鄰車道數據的回歸估計[17]假設道路斷麵的n''''車道的交通流數據缺失,而同一斷麵的其他相鄰車道的數據均已采集得到,則n''''車道t時刻的流量估計q'''',=αq,+β2

49()tn''''tn,,;,tn,

式中q''''tn''''q

車道的實際采集交通流參數其tn''''為時刻車道的交通流量估計值tn為時刻中n;,車道是與n''''車道關聯度最高的車道αβ是由車道n和n''''的曆史交通流量數據回歸計算得到的。n''''車道的速度、占有率采用相似的方式進行估計。

2.相鄰檢測器數據的回歸估計[16]相鄰檢測器數據的回歸估計是利用一個道路斷麵的檢測器采集到的交通流數據來估計·34·第2章交通數據融合的基礎理論與方法另一個相鄰道路斷麵檢測器的缺失數據,建立的相應的回歸估計模型如式(250)Yt,d''''=αxt,d+β2

50()式中,Yt,d''''為t時刻d''''檢測器所采集的交通流數據的估計值(流量、速度或時間占有率);xt,d為t時刻d檢測器所采集的實際交通流數據,其中,d檢測器是d''''檢測器上遊或下遊交通流;α,dd''''。

數據相關度最高的檢測器β是由檢測器和的曆史交通流數據回歸計算得到的基於空間位置的數據修補能夠避免采用曆史數據進行修補時不能反映實際交通狀態的缺點,提高了補充數據的實時變化特性。

表28以環形線圈檢測器為例,對以上三種缺失數據修補方法進行了綜合對比。

表28環形線圈檢測器缺失數據修補方法比較[16]補缺方法數據來源數據相關性使用限製條件方法優先基於時間序列同檢測器時間較高存在有效的曆史較優先序列數據時間序列數據基於曆史數據同檢測器曆史較高曆史數據庫較優先同期數據相鄰車道數據同檢測器相鄰高

存在有效的相鄰優先回歸估計車道數據車道數據基於空間位置相鄰檢測器相鄰檢測器存在有效的相鄰高

優先回歸估計同期數據檢測器數據2.3.4.4基於時空相關性的數據修補[20]檢測器采集的交通數據在時間和空間上存在相關特性,這種特性主要表現在交通流參數之間存在數學上的相關關係。利用這種關係,就可以用已知的檢測數據來估計缺失的檢測器數據。

考慮一元回歸中自變量的變化對結果會造成很大的影響,因此采用二元回歸作為缺失數據預測的主要方法。此外,考慮到交通流的隨機變化大,作為預測的檢測器也可能出現數據缺失的情況,基於中值的魯棒特性,建立缺失數據的回歸預測模型如下^

01()2()(,,)Xijmn=a+aXim+aXin^

()^

((,,))Xij=medianXijmn

(251)(252)^

0,1,2,(,,)式中Xijmn為與j位置相關的檢測器m和n對j位置數據的預測值aaa為回;(),()m

n;()j

歸係數XimXin為

和Xij為缺失檢測器的預測值位置的實際檢測流量^median(*)為中值函數,即取所有數據的中間值。

該缺失數據修補方法通過建立多個檢測器之間的相關關係,得到了預測數據的多個回歸方程,再利用這多個回歸方程得到預測值的中值作為最終的恢複數據。采用中值魯棒特性建立的模型,可以避免檢測器損壞對預測結果產生的影響,大大提高了算法的抗幹擾能力。

2.3.4.5組合模型[11]對於缺失數據的處理,可以采用多種方法,而每種方法都有各自的優點和缺陷,為了充·35·基於多源數據融合的城市道路交通控製與管理分發揮各種修補方法的優勢,可以組合應用不同的方法,但權重的選擇成為組合模型的關鍵。

設對同一個缺失數據對象,可以采用m種修補方法,各方法的修補結果為Y=(y1,y2,…,ym),其中,yi為第i種模型的修補值。根據m種方法的修補結果可建立組合模型的形式為m

n=

,=

1,≥0;,

iy

i=piyii=*

1*

其中1

**

*為組合模型的最優修補值*為第種模型在組合模型中的最優權重。

,;

=()×設數據矩陣Aa

ap

ijns的行表示時間列表示屬性kl表示缺失數據i*的求解模型為n

ém

ù2min(

)(

?iijx

?

253E

p=

êú

py-

()

j=1=1i

≠jk(

)peT=1{p≥02

54式中,n為A的行數;m為不同模型數;yij為第i種模型對ajl的預測值;xj=ajl。

(,,…,),(1,1,…,)()e=111

p=PPPm2

55等價模型為()p

()max0≤≤

256Fpe

式中,F(p)=-E(p)-λg2(p);g(p)=1-peT;λ>0,充分大。最優權可以通過遺傳算法求得。

實踐表明,組合方法在大多數情況下比使用單一算法更精確,但因需要利用各單一算法的估計結果,計算複雜,所以在精度要求不是很高的情況下,一般不采用該方法。

以上的5種方法是對常用缺失數據處理方法的概括。缺失數據的處理方法較多,但大多是基於采用最近似的值替換缺失值的原理,其他方法還包括神經網絡、k最臨近分類、粗糙集法等。

2.3.5冗餘數據處理由於檢測器調試不正確、同一路段檢測器布設過多等原因,檢測器輸出的數據極易存在信息冗餘的問題。冗餘數據造成交通數據量的大幅增加,不利於關鍵信息的凸顯,對後續的數據融合和交通狀態分析產生的影響較大,因此,有必要對冗餘數據進行約簡處理。

對於多檢測器的冗餘處理常在數據融合過程中進行,如可以采用粗糙集法實現對多檢測器交通冗餘數據的屬性約簡和值約簡。本節主要介紹了王曉原等提出的單檢測器冗餘數據的處理方法———等級分組法[18]。

2.3.5.1等級分組法基本定義設數據集合X={x1,x2,…,xn},交通參數向量F={F1,F2,…,Fp},Fk表示數據表第k個交通參數;對於任意記錄xi={xi1,xi2,…,xip},其中1≤i≤n;xip表示記錄xi第p維的值;為敘述方便,將日期、時間等也記為一交通參數,用Wk表示交通參數Fk的權值,代表交·36·第2章交通數據融合的基礎理論與方法通參數在對象中的重要程度,稱為交通參數的權重,權重向量W={W1,W2,…,Wp}。

定義1Tik是第i個操作用戶為交通參數Fk所指定的等級(從1開始,使用連續正整數表示等級,1表示最高等級,數值越大,等級越低);Tk表示第k個交通參數的最終統一等級,k∈{1,2,…,p},i∈{1,2,…,N},交通參數的最終統一等級Tk表示為é

Tk=êú

êTikú?i=1N?

定義2采用RC(Rank-Centroid)轉換方法,交通參數Fk的權重可以表示為1T1Wk(RC)=Ti=Ttk

(257)(258)式中,Tk表示Fk最終統一等級;T表示最低等級(即數值最大的等級);k∈{1,2,…,p}。

如果任意兩參數的最終統一等級不相同,那麼T=p;如果存在兩個或兩個以上的交通參數,它們的最終統一等級相同,則式(258)應變成Wk=Wk(RC)(

)W''''259定義3對任意記錄xi和xj,它們的第k維參數為xik與xjk,xik與xjk的相似度表示為q

max{score(a,xjk)}SimField(xik,xjk)=t=1x(260)ik式中,score(a,xjk)表示xik中的數字a與xjk中的每個數字匹配的分值,0≤score(a,xjk)≤1;|xik|表示xik的長度;q表示xik的數字的數量。

定義4給定兩條記錄xi和xj,則xi和xj的記錄相似度表示為p

SimRecord(xi,xj)=SimField(xik,xjk)Wk(261)k=1定義5Xa代表原數據集實際的重複記錄集合,Xb代表識別出來的重複記錄集合,查準率是正確識別出來的重複記錄占識別出作為重複記錄的比率,則查準率表示為()(

)XbScanAccuracyX=Xa∩

Xb查全率是正確識別出來的重複記錄占數據集中實際的重複記錄比率,則查全率表示為()(

)XaScanCompleteX=Xa∩

Xb2.3.5.2等級分組法基本思想1.等級法計算權值采用RC等級轉換法計算各交通參數的權重。等級法是一種計算各記錄參數權重的方法,其基本思想是:首先各用戶根據實際經驗為各個交通參數指定等級,即最重要參數的等·37·基於多源數據融合的城市道路交通控製與管理級指定為1,第二重要的參數等級指定為2,以此類推;然後根據定義1中式(257)計算各參數的最終統一等級;最後根據定義2式(258)或(259)再計算它們相應的權重。表29為參數等級表。

表29交通參數等級用戶指定等級交通參數等級U1U2…

Ui…

UNF1T11T21…

T1…

T1T1i

NF2T12T22…

T2…

T2T2i

N?

?

?

?

?

?

?

FT1T2…

T…

TT

pp

pipNpp

2.數據分組不斷被檢測到的交通數據構成了海量數據庫,為提高冗餘數據的識別效率,需對大數據集作一定處理。根據分組思想,把大的數據集分割成很多不相交的小數據集,然後在各個小數據集中查找冗餘數據,為提高識別精度,實行多趟查找。基本思想為:(1)首先選擇能明顯區別記錄間特征的交通參數,把大數據集分割成很多個不相交的小數據集。不同領域數據集大小的判斷標準不同,就交通檢測器同一天檢測記錄的條數而言,由於采樣間隔(如30s,2min,5min等)不同,得到的數據記錄條數也不同。采樣間隔越短,記錄條數越多,數據集越大,反之亦然。另外,采樣間隔相同時,采樣時間長度不同,數據集的大小不同,時間長度越大,數據集越大,反之亦然。例如,數據庫中有若幹天的數據,可取日期作為分割依據,把大數據集分割成數個不相交的集合。

(2)分割後,若某些數據集仍然十分龐大,則選擇另外關鍵參數,對這些數據集再次分割。如每天有24個小時,構成的數據集仍然較大,則對這些數據集進行二次分割,取時間段,把比較大的數據集再次分割成數個小數據集。

(3)若有些數據集仍很大,可重複第(2)步,直到數據集分割比較合理為止。另外,引入多趟查找技術,即把數據集劃分成合理的小數據集並查找冗餘記錄,這一輪結束後,再選定另外關鍵參數或關鍵參數某些位,重新對數據集進行劃分,並查找相似重複記錄,根據實際情況決定是否進行下一輪劃分查找,直至結果滿意。

然後對冗餘數據進行約簡。冗餘數據的約簡常采用兩種方法:當記錄完全重複時,刪除多餘重複記錄,隻保留一條記錄;當記錄相似時,對流量、速度、占有率等交通參數取平均值,最終隻含一條約簡後的記錄。

對於等級分組法的冗餘數據處理,采用等級法計算各交通參數的權重,對不同的參數使用不同的權重,從而提高了單檢測器冗餘數據的識別精度;采用分組法,有效地解決了大數據量的冗餘數據識別問題,分組後在各個小數據集中進行冗餘數據的識別,降低了時間複雜度。

·38·第2章交通數據融合的基礎理論與方法2.4交通數據融合的方法數據融合方法有不同的分類方式。根據數據融合的基本功能可以將其分成相關處理技術(如最大似然法等)、估計理論(如卡爾曼濾波法等)、識別技術(如Dempster-Shafter證據理論等);根據應用目的不同,將數據融合方法分為直接對數據源操作(如加權平均法),利用對象的統計特性對概率模型進行操作(如卡爾曼濾波法等),基於推理模型對置信度、隸屬度等進行操作(如Dempster-Shafter證據理論等);也可以根據數學原理的不同,劃分為概率統計法、邏輯推理法、人工智能法等三類[21]。本節主要依據數學原理不同的劃分方法進行介紹,對應的具體融合方法和原理見表210。

表210交通數據融合的分類與主要方法分類融合方法原

理加權平均法將來自不同交通檢測技術的冗餘信息進行加權,得到的加權值即為融合結果概率統計法卡爾曼濾波法利用線性係統的狀態更新方程和狀態預測方程進行數據的融合貝葉斯估計法將各種交通檢測技術提供的不確定信息表示為概率,利用貝葉斯條件概率公式對其進行融合處理Dempster-Shafter利用證據理論的基本概率函數和證據合成規則進行多源交通數據證據理論的融合邏輯推理法模糊邏輯法建立模糊命題和隸屬函數,利用模糊關係對獲取的多源交通數據進行推理融合支持向量機通過非線性映射,並尋求最優劃分或回歸線性超平麵,從而解決多種數據的融合問題人工智能法遺傳算法基於生物遺傳理論的隨機搜索與優化的方法,通過遺傳操作進行數據融合人工神經網絡通過對輸出信息進行學習、確定權值的分配從而完成信息的獲取與融合2.4.1概率統計融合方法概率統計法有很長的曆史和豐富的理論支撐,已形成了係統的理論體係,它成功地處理了許多與不確定性有關的問題,是最早應用於數據融合的方法之一。概率統計法是交通數據融合的經典方法,具有易於理解、計算量小等優點,但是需要較多的先驗知識,因此使用條件較為嚴格。

2.4.1.1加權平均法[11]加權平均法是一種簡單、直觀的融合多檢測器底層數據的方法,利用由一組檢測器提供的冗餘信息進行加權平均計算,並將加權平均值作為數據融合值。其基本過程如下:·39·基於多源數據融合的城市道路交通控製與管理設用n個檢測器對某個交通參數進行測量,第i個檢測器輸出的數據為Xi,i=1,2,…,n。對每個檢測器的輸出測量值進行加權平均,加權係數為wi,得到的加權平均融合結果為n

=i

()X

wX264=1iin

wi=1(265)i=1應用該方法必須先對數據采集係統和檢測器進行詳細分析,以確定正確的權值。確定權值的常用方法有:根據測量次數確定;根據數據精度參數確定;根據經驗確定。

2.4.1.2卡爾曼濾波法[11]卡爾曼濾波法用測量模型的統計特性遞推決定統計意義下的最優融合數據估計,可用於實時融合動態的低層次冗餘多源數據。如果數據係統具有線性的動力學模型,且係統噪聲和交通檢測器噪聲是高斯分布白噪聲模型,則卡爾曼濾波為融合數據提供唯一的統計意義下的最優估計,卡爾曼濾波的遞推特性使得係統數據處理不需要大量的數據存儲和計算。卡爾曼濾波應用的關鍵是:①確定狀態變量;②建立狀態方程和觀測方程;③濾波求解。

常見的卡爾曼濾波法主要有協方差卡爾曼濾波、信息濾波、推廣卡爾曼濾波,還有基於矩陣因式分解的濾波方法、狀態與偏差分離的濾波方法、並行濾波和分散濾波、基於矩陣因式分解的平滑方法、自適應濾波方法等。

卡爾曼濾波器中最基本的應用是標量卡爾曼濾波。所謂標量卡爾曼濾波,就是在線形最小均方誤差準則下的一維隨機信號最優遞歸型估計器。其具體的計算過程描述如下:假設待估隨機信號的數學模型是一個由白噪聲序列{ω(τ)}驅動的一階自遞歸過程,其動態方程為xτaxτ+ωτ-)

()

()=(-)(1

12

66式中,參數a;x(τ)為時刻τ的信號值;ω(τ)為過程噪聲或動態噪聲。

<1-1信號量測過程的數學模型,可用如下的量測方程給出:(

)y()=()()τ

cxτ+υτ267式中,y(τ)為τ時刻對x(τ)進行測量所得到的信號測量樣值;υ(τ)為此時在測量過程中引入的量測噪聲;c為量測參數,是一個由測量係統和測量方法所確定的不隨時間變化的常數。

一維隨機信號的遞歸型估計器的表達式可以表示為()()()()()(

)1

268^xτ=aτ^xτ-+bτyτ在信號數學模型為式(266)、測量過程的數學模型為式(267)的條件下,有式(268)中表述的遞歸型,估計器在τ時刻對信號x(τ)的估計誤差為()=()()(

)eτxτ-^xτ2

69均方估計誤差為()(

)()=()PτE[xτ-^xτ]2270·40·第2章交通數據融合的基礎理論與方法將式()代入式(),可得268270()()()(1)()()Pτ=E[xτ-aτx^τ--bτyτ]2令P(τ)對a(τ)和b(τ)的偏導數為零,即P(τ)2

{[]

}0

aτ()()(1)()()(1)=

?

=-Exτ-aτx^τ--bτyτx^τ-?()P(τ)2

{[()()(]

}0

bτ1)()()()=

?

=-Exτ-aτx^τ--bτyτyτ?()272273由式()、式()經過推導,可以得到1

a(τ)=a[-cb(τ)]bτ=[2(-1)ω2]()caPτ+σ2

22

22συ+cσω+caP(τ-1)即為最優解。

因此,標量卡爾曼濾波的遞推算法可以總結如下:(1)濾波估計方程:x^(τ)=a^x(τ)-1+b(τ)[y(τ)-ac^x(τ-1)](2)濾波增益方程:b(τ)=2

cP1(τ)2

1()υ

cPτ+σ式中,P1(τ)=a2P(τ-1)+σω2(3)均方濾波誤差方程:P(τ)=P1(τ)-cb(τ)P1(τ)

(271)(272)(273)(274)(275)(276(a))(276(b))(276(c))卡爾曼濾波算法是用遞推法計算的,不需要知道全部過去的值,且用狀態方程描述狀態變量的動態變化規律,因此卡爾曼濾波法適用於非平穩過程。

2.4.1.3貝葉斯估計[10]貝葉斯估計適用於具有高斯噪聲的不確定信息處理,是融合靜態環境中多檢測器底層數據的一種常用方法,主要用來進行決策層融合。在數據融合時,將多檢測器提供的各種不確定性信息表示為概率,利用概率論中的貝葉斯條件概率公式進行處理。當檢測器組的觀測坐標一致時,可以用直接法對檢測器測量數據進行融合。在大多數情況下,多檢測器是從不同的坐標結構框架對同一交通參數進行采集,這時檢測器測量數據的融合要采用間接的貝葉斯估計。

1.貝葉斯法則貝葉斯估計法是英國學者貝葉斯(ThomasBayes)於1763年提出的。貝葉斯法則的基本原理是:假設在新的觀測樣本或試驗之前,對未知參數的統計信息總有一定的了解,可以用一定的分布概括,成為關於參數的先驗分布。當獲得新的樣本數據或信息後,調整對參數的估計,從而隨著新的觀測值的加入,從給定假設的先驗概率給出後驗概率,可表示為·41·基於多源數據融合的城市道路交通控製與管理i

P(Aj|E)P(E)|Aj)=()P(EPAji

i()式中,Ei,i=1,2,…,n,為假設的事件空間;Aj,j=1,2,…,m,為觀測值組成的事件空間;P(Ei)為先驗概率,即不同觀測情況下觀測到事件Ei的概率總和;P(Aj)為歸一化常數,m

P(Aj)=P(Aj|Ei)P(Ei);P(Aj|Ei)為在假設事件Ei發生的情況下,獲得觀測值Ai的概率。i=12.貝葉斯推理使用貝葉斯估計進行數據融合主要分為以下三步:(1)檢測器1,2,…,m得到某觀測對象的觀測值,關於觀測對象有n個可能的假設事件,這n個假設事件必須相互獨立,並且構成一個完備集。

(2)每一個檢測器都會根據自己的觀測值得到一個判決,選擇一個關於觀測對象的假設事件。根據檢測器k已建立的分類算法,已知實際發生事件為Er的條件下,判斷為事件Ed的概率為Pk(Ed|Er),k=1,2,…,m。對於每個檢測器而言,所有的Pk(Ed|Er)構成一個n×n的矩陣,所以對於m個檢測器,共有m個這樣的矩陣;(3)根據式(278)融合各檢測器得出的判斷,得到一個新的聯合概率P(Er|Ed1,Ed2,…,Edk,…,Edm)=P(Ed1,Ed2,…,Edk,…,Edm|Er)(

)PEEEkEm)

278(d1,d2,…,d,…,d式中,Edk,k=1,2,…,m,為第k個檢測器的判斷結果。由於各假設相互獨立,所以得式(279):n

P(Ed1,Ed2,…,Edk,…,Edm|Er)=∏P(Edk|Er)k=1,2,…,m(279)i=1一旦得到了聯合概率分布P(Er|Ed1,Ed2,…,Edk,…,Edm),就要根據這個分布函數對各種候選事件進行評價,找出最優的選擇。選擇最優的方法很多,下列是假設事件是離散情況下最常用的方法:(1)極大似然概率(MaximumLikelihood)假設:^

=armaxP(Ed1,Ed2,…,Edk,…,Edm|Er)OMLgr(2)極大後驗概率(MaximumAPosteriori)假設:^

=armaxP(Er|Ed1,Ed2,…,Edk,…,Edm)OMAPgr(3)極小誤差平方(MinimumMeanSquareError)假設:^

MMSEy^()()·()=argmaxT

EPy|x{

y^-yy^-y}

O,^。

式中O為得到的最優選擇

(280)(281)(282)貝葉斯估計的缺點是對先驗概率比較敏感,而要找到一個合適的先驗分布並不容易,並且要求所有假設的事件相互獨立。在實際情況中,絕大多數情況難以滿足該條件,比如在交·42·第2章交通數據融合的基礎理論與方法通量檢測中,“有車”和“無車”兩個假設事件是互斥的,並不相互獨立。

2.4.2邏輯推理融合方法2.4.2.1Dempster-Shafter證據理論[11]Dempster-Shafer證據理論(簡稱D-S理論)是由A.PDempster提出,並由G.Shafer進一步發展起來的一種不確定性推理方法。D-S理論是目前數據融合中比較常用的一種方法,它實際上是廣義的貝葉斯方法。

D-S理論根據人的推理模式,采用概率區間和不確定區間決定的多證據假設的似然函數來進行推理。各檢測器檢測到的信息提取的特征參數構成了該理論中的證據,利用這些證據構造相應的基本概率分布函數,對於所有的命題賦予一個信任度。基本概率分布函數及其相應的辨識框架合稱為一個證據體。因此,每個檢測器就相當於一個證據體。D-S理論的數據融合實際上就是在同歸辨識框架下,用Dempster合並規則將各個證據體合並成一個新的證據體的過程。該過程可以用圖25描述。

圖25基於D-S理論的數據融合框圖1.基本概率分配函數m在D-S理論中,一個樣本空間稱為一個辨識框架,用Θ表示。Θ由一個完備且互不相容的陳述集合組成θ1,θ2,…,θ()Θ={

n}2

83式中,θ,稱為Θ的一個單子,1≤i≤N。

iΘ中的所有子集構成的冪集記為2Θ。當Θ中的元素個數為N時,其冪集2Θ的元素個數為2N,其中每一個元素都對應於一個關於θ取值情況的命題A。

2={θ1},{θ2},…,{θ},{θ1,θ2},…,{θ1,θ2,…,θ}

()284Θ{N

N其中隻包含一個單子的命題稱為基元命題。

:,

():

[,],2→01①

0?

=;

設函數mΘ且滿足下列條件的映射不可能事件的基本概率是即m,

,()。

20②21

即mA1

Θ中全部元素的基本概率之和為=

則稱m是Θ上的概率分配函數BasicProbabilityNumberm(A)稱為A的基本概率數(),表示對A本身的信任大小。

條件①表明了對於空命題不產生任何信任度;條件②表明雖然可以給一個命題賦予任意大小的信度值,但要求給所有命題賦予的信度數的和(總信度)等於1。

2.命題的信任函數Bel對於任意的命題集,D-S理論還提出了信度函數的概念·43·基於多源數據融合的城市道路交通控製與管理Bel(A)=m(B)(A)

()

BA?

?Θ285?

即A的信度函數為A中的每個子集的信度值之和。由信度函數的概念,可以得到()0

()Bel?=286{Bel()=Θ

1對於一個命題A的信任度僅用信度函數來描述是不夠的,因為Bel(A)不能反映出懷疑A的程度,即信任A的非為真的程度。所以為了全麵描述對A的信任度還必須引入對A的懷疑程度的量。

3.命題的似真度函數plBelAA

H定義DouA,

()?

∈()=

lABelAp

=-(

)()1

()則稱Dou為Bel的懷疑函數pl為Bel287的似真函數DouA稱為A的懷疑度plA為A的似真度。

;

();()),可以用Bel對應的m來重新表示pl:根據式(2

87A

HlABelA=

mB-

mB=

mBp

=-()()??

,()1

()()B?A()A∩B≠?

B?Θ288若AB則稱A與B相容式

說明plA包含了所有與A相容的那些命?,。()

,()(

∩≠288題)幾何的基本可信數。

由於A

AA

AH因此有BelABelAmx=

∩?,∪?

,()()≤x()1

?Θ即

BelABelA

lA=p()(

)()()實際上BelAplA≤1-289表示了對A的不確定區間也稱為概率的上下限BelA,[(),()],

。[,()]是完全可信的區間表示對命題A為真的支持程度plA0

是對命題A為真的不,

“”

。[,()]“

”0

懷疑程度,表示證據不能否定“A為真”的程度。顯然pl(A)—Bel(A)區間越大,未知程度就越高。

4.合成規則如果將命題看作識別框架Θ上的元素,對於?m(A)>0,稱A為信度函數Bel的焦元。設Bel1和Bel2是同一識別框架Θ上的兩個信度函數,m1和m2分別是其對應的基本可信度分配,焦元分別為A1,A2,…,Ak和B1,B2,…,BL。Bel1和Bel2的聯合作用就是將m1(Ai)m2(Bj)確切地分配到Ai∩Bj上。

給定A?Θ,若有Ai∩Bj=A,那麼m1(Ai)m2(Bj)就是確切地分配到A上的部分信度,而分配到A上的總信度為m1(Ai)m2(Bj)。但是當A=

AB?時,將有部分信度i∩im1(Ai)m2(Bj)分配到空集,這顯然是不合理。為此,可在每一信度上乘一係數Ai∩Bi=?

1使信度滿足的要求至此實際已給出了兩個信度合成法則-

m1(Ai)m2(Bj),1

。,1

ABi∩i=?

·44·第2章交通數據融合的基礎理論與方法m(A)=mi

m1(Ai)m2(Bj)()m=Ai∩Bi=?

290-

m1(Ai)m2(Bj)1

ABi∩i=?

對於多個信度的合成(融合),令m1,m2,…,mn分別表示n個信息的信度分配,如果它們是由獨立的信息推得的,則融合後的信度函數m=m1⊕m2⊕…⊕mn可表示為n

∩∏m(A)=mi(Ai)()n

Ai=Ai=12

91-

mi(Ai)1

∩∏AAii==1將各個檢測器采集的信息作為證據,每個檢測器提供一組命題,對應決策x1,…,xi,…,xm,並建立一個相應的信度函數,這樣,多檢測器信息融合實質上就成為在同一識別框架下,將不同的證據體合並成一個新的證據體的過程。

如果數據融合係統的決策目標集由一些互補相容的目標構成,即前述的Θ,當檢測器對環境實施觀測時,每個檢測器的信息均能在目標集上得到一組信度,當係統有N個檢測器時,便有N組信度,這些信度是決策的依據。

運用D-S理論進行多檢測器信息融合的一般過程是:(1)分別計算各檢測器的基本概率分布函數、可信函數和似真度函數;(2)利用合並規則,求得所有檢測器聯合作用下的基本概率分布函數、可信函數和似真度函數;(3)在一定決策規則下,選擇具有最大支持度的目標。

D-S理論的優點主要有:滿足比貝葉斯估計更弱的條件,即不需要知道先驗概率,並具有直接表達“不確定”和“不知道”的能力,並能夠有效地解決不同來源中的衝突數據。

D-S理論的局限性主要體現在:要求證據必須是獨立的,而這在實際應用中不易滿足;證據合成規則沒有非常堅固的理論支持,其合理性和有效性還存在較大的爭議;計算上存在著潛在的組合爆炸問題。

2.4.2.2模糊邏輯[11]模糊理論是以模糊集合為基礎,首先將模糊不確定的事物量化為可被計算機識別的信息,采用隸屬函數表示信息的不確定性,利用模糊變換進行處理。根據已有的知識和經驗以IF.THEN的形式建立規則庫,然後運用推理機將現有的狀態與規則庫裏的規則進行匹配,確定規則的可信度,而後應用模糊變量描述實際的變量,最後通過解模糊將模糊變量轉變為實際變量。模糊邏輯通過建立的模糊命題(即各檢測器提供的數據)和模糊隸屬函數,利用多值邏輯推理,根據各種模糊演算對各種命題進行合並,從而實現多源數據的融合。

1.模糊集理論01模糊集合是帶有隸屬度的元素集合。在論域U上的一個模糊集A可以用單位區間[,]上取值的隸屬度函數μA表示,即U|[,]()μA:→

012

92·45·基於多源數據融合的城市道路交通控製與管理∈

,()。

對於任意uUμAu稱為u對於A的隸屬度,

01

,顯然當A的值取或

時μA便退化為一個普通集合的特征函數A便退化為一個普通集合。

S隸屬函數μA可根據具體情況選取,如正態函數、三角函數、梯形函數、形函數等。

模糊集合最基本的運算是並、交、補三種。設A、B為論域上的模糊集合A={a1,a2,…,am}()n

293B={b1,b2,…,b}

記A與B的並集為A∪B、A與B的交集為A∩B,A的補集為?,它們分別定義如下:μ(∪)()max((),())∈

ABx=μAxμBx任意xU

()μ(∪)()((),())ABx=minμAxμBx任意x∈

U2

94μ?(x)=1-μA(x)任意x∈UA和B上的模糊關係定義為笛卡兒積AB的一個模糊子集。若用隸屬函數來表示模糊子集,模糊關係可用矩陣RA×B表示:×

…μ1n?

?μ11?

÷RA×B=??

?

÷(

)?

÷295èμm1…μmn?

式中i表示了二元組ij隸屬於該模糊關係的隸屬度滿足ijμ

jabμ

,,(,),

0≤,

模糊關係函數的融合≤12.

xy和xy融合結以兩個模糊關係函數為例進行討論考慮兩個模糊關係函數果將是兩個輸入的函數,即μ(,)η(,),fμxyηxy=Φxy((,),(,))(,)(

)296由於η

將f用泰勒級數表示並忽略高價項得到,

,μ,0≤≤1Φ=c00+c10μ+c01η()由於希望輸出隻與兩個輸入有關,故忽略常數,並歸一化輸出得到2

97()Φ=αμ+βη,α+β=

12

98當從一個檢測器獲得了某個目標的一些信息,可能還希望得到該目標的其他附加知識,該附加知識使用該檢測器可能無法測到,而另一種檢測器能夠提供該信息,也就是說,這兩種檢測器中的哪一種都能提供彼此不能提供的必要信息,在這種情況下,不是除去那些隻被一種檢測器未證實的信息,而是增加信息,這稱為知識源證實理論。

為應用知識源證實理論,應使(x,y)盡可能接近其最大值,這可通過使1-Φ最小來實現?

[(-?)xy](

)minΘ

1dd2992

·46·第2章交通數據融合的基礎理論與方法假設兩個檢測器S1和S2,如果S2的意見與S1的信任函數一致,則可以說S2的意見使S1的信任增強;反之,如果S2的意見與S1的信任產生矛盾,則S2的意見使S1撤銷它的信任。在兩種情況之間是一個連續過程,需要做出選擇究竟如何處理,該規則稱為信任增強\/撤銷原理。用公式表示為=?

y[

Θ(

)dd]

()min?α-

2xyμ

βη2

100(

,)

?

????

lxl

由以上3

個約束條件可得到?2AαAαC

αAα+

+=

+1

x2

y3

x+xy+y?2+?2-

ημημη式中,A1=2μ+η;A2=2μ+η;A3=μη-2()2。

μ+ηλ

()

μ+η2101由式()可解出α,則最終融合函數為(

)()

?2C=η-μ-η+

η1

)2

(2

μ+ηλμ+η?(x,y)=α(x,y)μ(x,y)+(1-α(x,y))η(x,y)(2101)(2102)模糊邏輯適用於靜態環境,可以解決信息或決策衝突問題,具有信息損失小,易於實現等優點,但是模糊規則不易建立,隸屬函數難以確定。

2.4.3人工智能融合方法人工智能融合方法主要有支持向量機、遺傳算法、人工神經網絡、粗糙集法、小波分析理論、專家係統等。該類多源數據融合方法的優點是對觀測對象的先驗知識要求不高或無要求,有較強的自適應能力;缺點是運算量大,規則的學習時間長且建立困難,因而不容易實現。人工智能融合方法在很多領域得到了較好的應用,如遺傳算法用於消除局部極值和噪聲的影響,粗糙集法用於處理不確定信息,人工神經網絡用於識別數據,小波分析用於處理信號的局部特征信息[22]。

2.4.3.1支持向量機[18,23]支持向量機(SupportVectorMachines,SVM)通過訓練學習確定的非線性映射將多檢測器的多個信息映射到一個高維特征空間中,並在高維特征空間進行線性回歸,從而取得原空間非線性回歸的結果,實現多源數據的融合。

SVM方法的基本思想是以結構風險最小化(StructuralRiskMinimization,SRM)為理論基礎,通過某種特定的非線性映射把樣本空間映射到一個高維乃至無窮維的特征空間(Hilbert空間),並在特征空間中尋求最優劃分或回歸線性超平麵,把此平麵作為分類決策麵,從而解決樣本空間中的高度非線性分類和回歸等問題。

在線性可分的情況下,SVM就是建立一個超平麵,使得可分的兩類數據到該平麵的距離最大,通常該平麵為最優分類超平麵。對於非線性問題,SVM首先把模式空間(訓練樣本所在空間)映射到更高維的特征空間,並在特征空間中尋找最優超平麵(該超平麵在原模式·47·基於多源數據融合的城市道路交通控製與管理空間中實際對應著非線性的分類麵)。SVM通過具有特殊性質的核函數巧妙地避免了直接在高維空間中處理問題。SVM方法的主要構成如下。

1.線性最優分類超平麵SVM是從線性可分情況下的最優分類麵發展而來的,基本思想可用圖26來說明。對於一維空間中的點,二維空間中的直線,三維空間中的平麵,以及高維空間中的超平麵,圖中實心點和空心點代表兩類樣本,H為它們之間的分類超平麵,H1,H2分別為過各類中離分類麵最近的樣本且平行於分類麵的超平麵,它們之間的距離叫做分類間隔(margin)。

圖26最優分類麵示意圖所謂最優分類麵要求分類麵不但能將兩類正確分開,而且使分類間隔最大。將兩類正確分開是為了保證訓練錯誤率為0,也就是經驗風險最小(為0)。使分類空隙最大實際上就是使推廣性的界中的置信範圍最小,從而使真實風險最小。推廣到高維空間,最優分類線就成為最優分類麵。

假設兩類線性可分的訓練數據樣本{(x1,y1),(x2,y2),…,(xN,yN)},xi∈Rd(d代表樣本xi的長度),yi∈{-1,+1},i=1,2,…,N。其線性判別函數的一般表達式是f(x)=ωx+b,該函數對應的分類麵H為ωx+b=0

2103(

)使得ωxi+b≥1,yi=1(){ωxi+b≤-1,yi=-12

104,

(,),,,…,,=12N

現在將判別函數進行歸一化使得對線性可分的樣本集xyi滿足i

i)

y(+),

,,…,(

1≥0i=12N

2105iωxb-根據最優分類超平麵的定義,分類間隔可表示為ρ=xiyi=ωxi+b+xyi=-ωxj+b=

2()minimin2

106ω

ωω

{,1}{,1}要使分類間隔ω2最大,等於使ω22或者ω2最小。這樣線性SVM的最優化分類麵問題可以表示成如下的約束優化問題。

·48·第2章交通數據融合的基礎理論與方法min()1

()

ω2

2107Φω=2

約束條件為式(2105)。

其最優解可通過拉格朗日函數得到N

(,,)2

[()1]Lωba=1ω2

-ayωx+b-

=1i

ii

,a,a≥0。

式中i

為拉格朗日乘子i對ω,b,a分別求導有N

ìL

0?

?

ω=

iayx?

ω=?

iii?

=1?

LN

?

0?

?

?b=

0?iay=?

í=1iiL

?

=0?

[()1]0

?a??

ayωx+b-=

?

ii

i解上述問題得到的最優分類函數為fx=

g{

y(,)}

()sv*

xx*

sna

+bi

ii

2.

廣義的最優分類麵

(2108)(2109)(2110)當有少數樣本使得原來線性可分的問題變成不可分問題,從而影響了分類器的性能,可以在條件中加入一個鬆弛因子ξ,即-ξi,i=,,…,n()yi[ωx+b]n

≥1122

1112

,,

,將目標函數改為求1ω2i=1ξ+ci的最小值其中c為懲罰函數c越大表示對錯誤分類的懲罰越大,其最優分類麵的對偶問題與線性可分的情況幾乎完全相同,隻是拉格朗日乘子的約束條件為0≤ai≤c。

對於非線性問題,做非線性映射Ф:Rd→H,將輸入空間的樣本映射到高維(可能是無窮維)的特征空間H中,當在特征空間H中構造最優超平麵時,訓練算法僅使用空間中的點積,即?(xi)·?(xj),而沒有單獨的?(xi)出現。因此,如果能夠找到一個函數K,使得K(x·x)=?(x)·?(x)()iji

j2

112這樣在高維空間實際上隻需進行內積運算,而這種內積運算是可以用原空間中的函數,

,K(x·實現的甚至沒有必要知道變換中的形式根據泛函的有關理論隻要一種核函數i

x)Mercer(

),j滿足,

條件即任何半正定的函數都可以作為核函數它就對應某一變換空間中。

K(x·x),的內積因此在最優超平麵中采用適當的內積函數i

j就可以實現某一非線性變換後的線性分類,而計算複雜度卻沒有增加。此時目標函數變為n

n()2

(·)

()

i=ij=Qa=a-1

aayyKxx1

i,

1ijiji

j·49·基於多源數據融合的城市道路交通控製與管理使得0≤ai≤c{Naiyi=0(2114)i=1由此可構造在輸入空間中的非線性決策函數n

y=sgn{aiyiK(x·xi)+b}(2115)i=1概括地說,SVM就是通過某種事先選擇的非線性映射將輸入向量映射到一個高維特征空間,在這個特征空間中構造最優分類超平麵。在形式上,SVM分類函數類似於一個神經網絡,輸出是中間節點的線性組合,每個中間節點對應於一個支持向量,如圖27所示。在SVM中,構造的複雜程度取決於支持向量的數目,而不是特征空間的維數。

圖27SVM示意圖3.核函數SVM的特點之一在於核函數的引入。低維空間向量集通常難於劃分,解決的方法是將它們映射到高維空間,但這個辦法帶來的困難就是計算複雜度的增大,而核函數正好巧妙地解決了這個問題。在SVM理論中,采用不同的核函數構成不同的SVM,這樣也形成了不同的算法。目前研究的核函數主要有以下幾種形式。

(1)線性函數:K(x,x)=()i

i2

116()多項式函數:2

()(,)=Kxxxx1

2117i

[i

]d(3)高斯徑向基核函數(RadialBasisFunction,RBF):{-i2}

K(x,x)=x-x(

)2

iexpσ

2118·50·第2章交通數據融合的基礎理論與方法()神經網絡核函數():4

Sigmoid()(,)=tanhKxxvxx+a2119i

[i

]式中,d為多項式的階數;σ為RBF函數的寬度參數;v,a為常數。

由這四種核函數可以構造出線性SVM、多項式SVM、RBFSVM和感知SVM。滿足Mercer條件核函數很多,這樣又帶來另外一個問題,即SVM的核函數如何選擇。目前沒有明確的標準來指導核函數的選擇。在模型不確定的情況下,RBF核函數是一個不錯的選擇。SVM具有以下優點:(1)基於統計學習理論中結構風險最小化原則和VC維(Vapnik-ChervonenkisDimension)理論,具有良好的泛化能力,即由有限的訓練樣本得到小的誤差能夠保證使獨立的測試集仍保持小的誤差。

(2)求解問題對應的是一個凸優化問題,因此局部最優解一定是全局最優解。(3)核函數的成功應用,將非線性問題轉化為線性問題求解。(4)分類間隔的最大化,使得該算法具有較好的魯棒性。

由於SVM自身的突出優勢,因此被越來越多的研究人員作為強有力的學習工具,以解決模式識別、回歸估計等難題。

2.4.3.2遺傳算法[18,24]遺傳算法(GeneticAlgorithms,GA)是基於生物遺傳理論的原理發展起來的一種廣為應用的、高效的隨機搜索與優化的方法。該算法模擬了自然界遺傳和生物進化中發生的繁殖、交配和變異現象,根據“適者生存,優勝劣汰”的自然法則,搜索到較優的個體。選擇、交叉、變異是遺傳算法的三個重要操作算子,它們構成了所謂的遺傳操作。

遺傳算法通過各個檢測器信息之間的關係近似最優地確定選擇、交叉、變異算子的參數,使算法在信息源的可靠性、信息的冗餘度\/互補性以及進行融合的分級結構不確定的情況下,以近似最優的方式對多源數據進行融合。

1.選擇、交叉和變異1)選擇算子為了將已有群體變為下一個群體,遺傳算法仿效“自然選擇,適者生存”的原則,從當前群體中選擇優良個體進行複製,選擇依據是個體適應值的大小,適應度大的個體接受複製,使之繁殖,適應度小的個體予以刪除,使之死亡。選擇算子的操作方法主要有比例選擇、最優保存策略等。(1)比例選擇最常用和最基本的選擇算子是比例選擇算子。所謂比例選擇(ProportionalModel)是指個體被選中並遺傳到下一代群體中的概率與該個體的適應度大小成正比。

設群體大小為M,個體i的適應度為Fi,則個體i被選種的概率Pis為i

iF

,i=,,…,M()Ps=Mi

122120F

i=1·51·基於多源數據融合的城市道路交通控製與管理(2)最優保存策略使用最優保存策略進化模型(ElitistModel)來進行優勝劣汰操作,即當前群體中適應度最高的個體不參與交叉運算和變異運算,而是用它來替換掉本代群體中經過交叉、變異等遺傳操作後所產生的適應度最低的個體。

選擇算子還包括其他的方法,如確定式采樣選擇(DeterministicSampling)、期望值選擇(ExpectedValueModel)、無回放餘數隨機選擇(RemainderStochasticSamplingwithReplacement)、排序選擇(Rank-basedModel)、隨機聯賽選擇(StochasticTournamentModel)等。

2)交叉算子交叉操作使遺傳基因發生重組,在遺傳算法中起核心作用。通過按變異概率隨機反轉某位基因的二進製字複值,即由“1”變為“0”或由“0”變為“1”。交叉算子的設計和實現與所研究的問題密切相關,一般要求它既不要太多地破壞個體編碼串中表示優良性狀的優良模式,又要能夠有效地產生出一些較好的新個體模式。另外,交叉操作數的設計要和編碼設計統一考慮。

遺傳算法中,在交叉運算之前還必須先對群體中的個體進行配對,對於占主流地位的二值編碼而言,各種交叉算子都包括兩個基本內容:①從由選擇操作形成的配對庫(MatingPool)中,對個體隨機配對並按預先設定的交叉概率來決定每對是否需要進行交叉操作;②設定配對個體的交叉點(CrossSite),並對這些點前後的配對個體的部分結構(或基因)進行相互交換。

適合於二進製編碼個體或浮點數編碼個體的交叉運算主要有:①單點交叉(One-pointCrossover)。單點交叉又稱為簡單交叉,它是指在個體編碼串中隻隨機設置一個交叉點,然後在該點相互交換兩個配對個體的部分染色體。

②雙點交叉(Two-pointCrossover)。雙點交叉是指在個體編碼串中隨機設置了兩個交叉點,然後再進行部分基因交換。

③多點交叉(Multi-pointCrossover)。多點交叉有時又被稱為廣義交叉(GeneralizedCrossover),是指在個體編碼串中隨機設置了多個交叉點,然後進行基因交換。

另外,還有均勻交叉(UniformCrossover)、算術交叉(ArithmeticCrossover)等交叉算子。

3)變異算子變異操作能對群體中的個體串的某些基因座的基因值作變動,以保證遺傳過程的隨機擾動性。變異算子通過選擇複製產生的新一代群體,性能明顯得到了改善,但不能產生新的個體。為了產生新的個體,交叉模仿自然界性繁殖的基因重組過程,對群體中的個體串的某些基因座的基因值作變動,隨機地選擇一個個體,並按一定的概率隨機地改變字符串中某一位或某幾位字符的值,將原有的優良基因遺傳給下一代,並生成包含更複雜基因結構的新個體。

一般來說,變異算子操作的基本步驟如下:①在群體中所有個體的碼串範圍內隨機地確定基因座;②以事先設定的變異概率Pm來對這些基因座的基因值進行變異。

變異算子主要有以下形式:(1)基本位變異(SimpleMutation)。基本位變異操作是指對個體編碼串以變異概率Pm隨機指定的某一位或幾位基因座上的基因值作變異運算。

·52·第2章交通數據融合的基礎理論與方法(2)均勻變異(UniformMutation)。均勻變異操作是指分別用符合某一範圍均勻分布的隨機數,以某一較小的概率來替換個體編碼串中各個基因座上的原有基因值。

(3)逆轉算子(InversionOperator)。逆轉算子也稱倒位算子,是指顛倒個體編碼串中隨機指定的兩個基因座之間的基因排列順序,從而形成一個新的染色體。

(4)自適應變異算子(AdapitiveMutationOperator)。自適應變異算子與基本位變異算子的操作內容類似,唯一不同的是交叉概率不是固定不變而是隨群體中個體的多樣性程度而自適應調整。

2.編碼方式由於遺傳算法的進化過程是建立在編碼機製上的,編碼對於算法性能(如搜索能力和種群多樣性等)的影響很大。常見的遺傳算法編碼方式有二進製編碼和實數編碼兩種。就二進製編碼和實數編碼比較而言,一般實數編碼比二進製編碼在變異操作上能夠保持更好的種群多樣性,但操作比較複雜;二進製編碼比實數編碼搜索能力強。

遺傳算法有很多種具體的實現過程,以下介紹標準的遺傳算法的主要步驟(圖28):第一步,選擇編碼策略,把參數集合轉換成染色體結構空間;第二步,定義適應函數,便於計算適應值;第三步,確定遺傳策略,包括群體大小,選擇、交叉、變異方法以及交叉概率、變異概率等遺傳參數;第四步,隨機產生初始化群體;第五步,計算群體中的個體或染色體解碼後的適應值;第六步,按照遺傳策略,運用選擇、交叉和變異算子作用於群體,形成下一代群體;第七步,判斷群體性能是否滿足某一指標,或者是否已完成預定的迭代次數,不能滿足則返回第五步,或者修改遺傳策略再返回第六步。

圖28遺傳算法的具體步驟·53·基於多源數據融合的城市道路交通控製與管理遺傳算法的特點有:(1)自組織、自適應和學習性(智能性)的進化算法消除了算法設計中的一個最大障礙,即需要事先描述問題的全部特點,並要說明針對問題的不同特點算法應采取的措施,因此它可用來解決複雜的非結構化問題,具有很強的魯棒性;(2)直接處理的對象是參數的編碼集而不是問題參數本身;(3)搜索過程中使用的是基於目標函數值的評價信息,搜索過程既不受優化函數連續性的約束,也沒有優化函數必須可導的要求;(4)具有顯著的隱並行性。進化算法按並行方式搜索一個種群數目的點,而不是單點。它的並行性表現在兩個方麵:一是進化算法是內在並行的;二是進化算法的內含並行性。

2.4.3.3人工神經網絡[11]人工神經網絡和數據融合的某些相似性,決定了人工神經網絡是多源數據融合的主要方法之一。第一,融合模型中數據處理單元和神經網絡的對應結構相似;第二,數據融合模型的全並行結構和神經網絡的跨層連接相似;第三,數據融合模型層內環路和前向神經網絡中的反饋網絡相似;第四,數據融合模型中的層間環路與神經網絡中高層對低層反饋機製相似。

人工神經網絡是由大量的處理單元(即人工神經元)廣泛互聯而成的網絡,它試圖以一定的程度和方式,模擬人腦的細胞結構、神經結構和思維特征,來獲得近似於人類的思維能力,特別適用於很難用常規數學方法表達的信息處理過程。人工神經網絡的應用過程有兩個階段組成———學習期和工作期。學習期也稱為設計期,通過對樣本的學習,逐漸調整神經元之間的連接權值,直到實現預定的精度為止,這一階段往往需要較長的時間。在工作期內,網絡的權值不再發生變化,在給定輸入的情況下,網絡按照其內部機製快速計算出指定變量的結果。

人工神經網絡有兩個顯著的性能特點:第一,神經網絡是自適應的和可以被訓練的,有自我修改能力;第二,神經網絡結構本身就決定了它是大規模並行機製。神經網絡拓撲結構如圖29所示。

圖29神經網絡拓撲結構圖神經網絡的結構設計主要涉及網絡層數、輸入層節點數、隱層節點數、激勵函數確定,現將主要參數確定方法進行簡要說明。

·54·第2章交通數據融合的基礎理論與方法(1)網絡層數。已有的理論分析表明,隱層數最多兩層。唯當要學習不連續函數時,才需要兩個隱層;具有單隱層的神經網路能隱射一切連續函數。

(2)輸入層節點數。在數據融合構造中,以同一斷麵檢測同一種交通參數的檢測器的檢測值作為輸入,則神經網絡的輸入層節點數根據檢測器的數目而定。

(3)隱層節點數。對於多層前饋神經網絡來說,隱層神經元個數的確定是成敗的關鍵。如果數量太小,則網絡所能獲得的用以解決問題的信息太少;若數據太多,不僅增加訓練時間,難以在人們所能接受的時間內完成訓練,而且可能出現“過大吻合”的問題。

(4)激勵函數確定。激勵函數是神經元核心所在,它決定神經元的運動功能。選好激勵函數及其參數極為重要,不同激勵函數,或者帶有不同參數的同一類激勵函數,表示的運動過程也不一樣,目前常用的是Sigmoid函數。

()(

)1-xfx=2121人工神經網絡中,1+eBP)

(以采用誤差反向傳播算法的多層感知器簡稱神經網絡應用最為廣泛BP算法的基本思想是:學習過程有信號的正向傳播與誤差的逆向傳播兩個過程組成。正向傳播時,模式作用於輸入層,經隱層處理後,傳向輸出層。若輸出層未能得到期望的輸出,則轉入誤差的逆向傳播階段,將輸入誤差按照δ法則,通過隱層向輸入層逐層返回,並“分擔”給各層的所有單元,從而獲得各層單元的參考誤差或稱誤差信號,以作為修改各單元權值的依據。這種信號正向傳播與誤差逆向傳播的各層權矩陣的修改過程,是周而複始地進行的。權值不斷修改的過程,也就是網絡學習的過程。此過程一直進行到網絡輸出的誤差逐漸減小到可接受的程度或達到設定的學習次數為止。

多層神經網絡的δ法則:對輸出層''''

,kjkjkjjkj)(j

kj))(

)δ=y-yfnet-fnet(

)((

12122對隱含層,

kjj

kjj

kjkllj(

=f(net)(-f(net))δω1

l2123BP神經網絡的數據融合主要應用於交通參數的預測、不完備交通參數信息融合等。BP神經網絡在多源數據融合中主要有以下優點:(1)神經網絡的信息統一存儲,其檢測器信息采用統一的樣式,知識庫更容易進行建立和後期管理;(2)神經網絡處理信息的過程具有很強的容錯性,當係統結構中某一部分失效時,仍然可以輸出可靠信息;(3)神經網絡以其強大的自學習和自組織能力,在不斷變化的環境中仍然適用;(4)神經網絡信息處理速度快,可以在短時間內處理大量的實時信息,滿足快速實時的要求。然而,BP神經網絡算法也存在尋找全局最優解時較為困難,在求解過程中往往會陷入局部最優解,訓練耗時大等缺點。

2.4.4交通數據融合方法比較不同的融合方法有不同的適用性,應根據常用的應用領域、應用環境和融合層次等進行·55·基於多源數據融合的城市道路交通控製與管理選擇。對交通數據融合方法性能和特性對比總結見表211和表212[25]。

表211多源交通數據融合方法性能對比算法優

點缺

點典型應用領域加權平均法簡單、直觀權值難以確定,精度低多檢測器底層數據融合處理多維非平穩隨機過程需要給出初始狀態等先驗基於空間相關性的交通參卡爾曼濾波法的估計問題,數據存儲量信息,要求係統噪聲是高斯數融合小,實時性強白噪聲要求給出先驗概率和概率車輛類型的識別、交通事件貝葉斯估計直觀性好,易於理解獨立假設,無法區分不確定的識別和不知道信息Dempster-Shafer不需要給出先驗概率,能區證據必須是獨立的,計算具路況信息的準確獲取、交通事件的識別交通誘導方證據理論分不確定和不知道信息有潛在的組合爆炸問題、

案、緊急事件救援方案模糊邏輯可解決信息或決策衝突問需要主觀定義模糊隸屬函交通事件的識別、交通運行題,缺乏自學習和自適應數,算法原理的直觀性不強狀態評估、交通誘導方案、能力緊急事件救援方案得到的局部最優解即是全對大規模訓練樣本難以實交通流預測、交通事件的識支持向量機局最優解,線性求解、較好的魯棒性施,解決多分類問題困難別、交通狀態分類能解決複雜的非結構化問編程實現複雜,算法搜索速智能信號控製、車輛導航、遺傳算法題,魯棒性強,具有潛在的度較慢,對初始種群選擇有交通運行狀態評估與預測並行性依賴性具有良好的容錯性和自適需要足夠的訓練樣本,尋找車輛定位、交通事件的識人工神經網絡應性,具有自學習和並行處理能力全局最優解較為困難別、交通誘導方案表212各種融合方法主要特性比較算法運行環境信息表示融合技術融合層次加權平均法動態原始數據平均加權數據級卡爾曼濾波法動態概率分布係統模型濾波數據級貝葉斯估計靜態概率分布貝葉斯估計特征級、決策級Dempster-Shafer靜態命題邏輯推理特征級、決策級證據理論模糊邏輯靜態命題邏輯推理特征級、決策級支持向量機動態、靜態支持向量線性回歸數據級、特征級、決策級遺傳算法動態、靜態參數編碼集遺傳操作數據級、特征級、決策級人工神經網絡動態、靜態神經元輸入神經元網絡數據級、特征級、決策級·56·第2章交通數據融合的基礎理論與方法2.5本章小結為了彌補單一交通采集技術的不足,基於多檢測器的數據融合成為了城市道路控製與管理應用中的研究熱點。本章首先介紹交通數據采集與分類,再從基本框架方麵分析了交通數據融合的問題。其中交通數據的預處理是數據融合的前提和關鍵步驟,本章主要針對不規則時間點數據、異常數據、缺失數據、冗餘數據四種常見的數據問題進行了識別與修正方法介紹。最後從概率統計融合方法(加權平均法、卡爾曼濾波法、貝葉斯估計)、邏輯推理融合方法(Dempster-Shafer證據理論、模糊邏輯)、人工智能融合方法(支持向量機、遺傳算法、人工神經網絡)三個類別對交通數據融合的具體過程進行了介紹。

參考文獻[1]楊東援.連續數據環境下的交通規劃與管理[M].上海:同濟大學出版社,2014.

[2]上海市城鄉建設和交通發展研究院.2014年上海市綜合交通年度報告[R].2014.[3]邵春福.交通規劃原理[M].北京:中國鐵道出版社,2004.

[4]汪曉霞.城市智能交通係統技術及案例[M].北京:北京交通大學出版社,2014.

[5]楊兆升.基礎交通信息融合技術及其應用[M].北京:中國鐵道出版社,2005.

[6]李穎宏,張永忠,王力.道路交通信息檢測技術及應用[M].北京:機械工業出版社,2013.

[7]孫亞.基於數據質量的定點交通信息采集係統研究[D].上海:同濟大學,2008.

[8]陳科良,王丹誌.基於車路協同的通信機製研究[EB\/OL].2014,中國科技論文在線.http:∥www.paper.edu.cn.

[9]張旭.麵向交通運行狀態評價的多源異質交通流數據融合技術方法研究[D].北京:北京交通大學,2008.

[10]趙文濤.基於多源交通信息的數據融合技術及其應用研究[D].上海:上海交通大學,2007.

[11]楊兆升.基礎交通信息融合技術及其應用[M].北京:中國鐵道出版社,2005.

[12]張汝華,楊曉光,嚴海.智能交通信息特征分析與處理係統設計[J].交通運輸係統工程與信息,2003,04:2733.

[13]陳旭梅.城市智能交通係統[M].北京:北京交通大學出版社,2013.

[14]李穎宏,張永忠,王力.道路交通信息檢測技術及應用[M].北京:機械工業出版社,2013.

[15]劉浩.交通動態數據獲取與分析應用新技術[M].北京:人民交通出版社,2012.

[16]孫亞,朱鯉.ITS檢測器交通流數據質量控製係統研究[J].測控技術,2008,27(7):3537.

[17]孫亞.基於數據質量的定點交通信息采集係統研究[D].上海:同濟大學,2008.

[18]王曉原,張敬磊,楊新月.交通流數據清洗與狀態辨識及優化控製關鍵理論方法[M].北京:科學出版社,2011.

[19]歐冬秀.交通信息技術[M].2版.上海:同濟大學出版社,2014.

[20]金盛,王殿海.交通數據預處理方法研究[EB\/OL].2008.中國科技論文在線.http:∥www.paper.

edu.cn.

[21]FaouziNEE,LeungH,KurianA.Datafusionininteligenttransportationsystems:Progressandchalenges-Asurvey[J].InformationFusion,2011,12(1):410.

·57·基於多源數據融合的城市道路交通控製與管理[22]徐建閩.智能交通係統[M].北京:人民交通出版社,2014.

[23]張永利.基於支持向量機的信息融合技術研究及應用[D].西安:西安科技大學,2008.

[24]陳豔豔,王東柱.智能交通信息采集分析及應用[M].北京:人民交通出版社,2011.

[25]邱奉翠.基於城市快速路和主幹道多源交通檢測信息的數據融合技術研究[D].北京:北京交通大學,2012.

·58·第3章城市道路交通狀態估計與判別3.1研究背景與目的城市道路交通狀態的變化,其本質是交通流在時空上的變化,不同路網的交通流特性對應不同的交通狀態。應用交通信息采集設備獲取的交通流信息,探索交通流特征變化規律,並且通過數據融合技術,實現城市道路交通狀態的估計與判別,可用於車載導航地圖、路側誘導信息發布和信號控製等多個方麵。如圖31所示,交通管理部門一般可以通過網站或者路側可變信息板(VariableMessageSign,VMS),以紅、黃、綠等不同顏色來發布路網的交通狀態(通常,紅色表示阻塞,黃色表示擁擠,綠色表示暢通)。

圖31常見的道路交通狀態發布方式城市道路交通狀態一般可由行程時間或者行程速度、暢通程度和服務水平等指標來表征,其判別方法可分為人工判別法和自動判別法兩大類。人工判別法適用於城市路網規模小、交通擁堵和交通事件發生頻率低的路網環境。隨著交通供需矛盾的日益凸顯,人工判別法已不能滿足當前複雜多變的道路交通狀態監測需求,而自動判別法越來越受到關注。

早期的自動判別法主要依靠線圈數據,包括交通量、速度和占有率等。隨著交通檢測技術的發展,連續性更強、適用範圍更大的檢測設備被應用於交通數據采集,常見的有基於出·59·基於多源數據融合的城市道路交通控製與管理租車GPS的浮動車係統。浮動車係統之所以得到重視,主要在於浮動車係統有別於傳統固定檢測方法的突出特點:(1)覆蓋麵廣。傳統的檢測器都是安裝在固定地點,隻能檢測到一個斷麵的交通流信息,而浮動車是“流動的”,幾乎可以采集到城市道路網各個部分的信息,采集範圍不再僅僅是點和線,而是麵。

(2)投資省。各種安裝有定位和無線通信裝置的車輛均可作為浮動車使用。這些車輛通常是隸屬於出租車、公交和警用車輛等調度係統的出租車、公交車、警車,以及部分安裝有導航設備的私家車。浮動車係統隻是利用現有的設備,將其回傳的車輛定位數據存儲、融合、處理,得到有用的交通信息,因此浮動車係統通常結合調度和誘導係統建設,大大節省了投資。相比之下,要覆蓋同樣的範圍,使用傳統固定檢測器則投資巨大。

(3)采集數據多樣、準確。浮動車係統采集的路段平均車速、旅行時間對於了解道路運行狀況、分析擁堵原因、提供交通誘導服務等都是非常關鍵的參數,這些參數的計算涉及的算法相對於傳統檢測方法要簡單,結果更精確、可靠。浮動車係統直接產生基於OD的數據,解決了部分交通規劃的數據來源,從而可節省大量的居民出行調查費用。另外浮動車作為實時路網交通狀況的“指示器”,可以幫助交通管理者更及時地發現交通事故、擁堵的形成與消散。

目前,我國已有包括北京、上海、深圳、杭州等在內的十幾個城市大範圍應用出租車浮動車係統來進行交通狀態的估計和判別。這些城市的GPS數據上傳頻率一般在10~60s之間。例如,上海市目前約有5萬台裝有GPS設備的出租車,這些出租車以10~20s的頻率向出租車公司的調度管理平台和上海市交通信息中心上傳數據,包括浮動車的車載終端ID號、經緯度坐標、瞬時速度和方向、路段旅行時間、車輛運行狀態等。交通管理部門可以根據這些信息,對2~15min內的路段平均行程速度或者行程時間進行估計,從而判別對應時段的交通狀態。

然而,浮動車數據僅可以提供部分車輛的行駛軌跡、選擇路徑和行程時間等交通信息。在浮動車樣本量不足的條件下,基於浮動車數據的行程速度估計準確性會降低,從而產生不可靠的發布數據,特別是針對存在交叉口的城市地麵道路。定點檢測數據(線圈數據、卡口數據、微波雷達數據等)可以提供特定地點的速度、流量、占有率、排隊長度以及車輛牌照等交通信息。通過定點檢測數據和浮動車數據的有效融合可以實現更加準確可靠的交通狀態估計和判別。

因此,本章首先開發了一種基於單一浮動車數據的路段行程速度估計方法,為後續的數據融合方法提供基礎[1-2];其次,通過充分利用定點線圈、微波雷達數據和浮動車數據的互補性,分別開發了基於權重和自適應卡爾曼濾波融合方法的行程速度估計方法,並通過上海市實測數據對上述方法進行了驗證[3-5];最後,利用數據融合得到的行程速度數據,討論了基於速度閾值和模糊邏輯的兩種交通狀態判別方法[1]。

3.2研究綜述近20年來,基於數據融合的交通運行狀態估計與評價一直是交通工程領域的熱點問題·60·第3章城市道路交通狀態估計與判別之一。目前,國內外的研究主要集中在基於數據融合的行程速度或者行程時間估計以及交通事件檢測等方麵。采用的數據融合方法可以大體上分為三大類:概率統計方法、邏輯推理方法、人工智能方法[6]。

(1)概率統計融合方法主要包括加權平均、卡爾曼濾波法、貝葉斯估計、多元回歸分析等,其中常用的是加權平均法和卡爾曼濾波法。1995年,Berka等[7]分別確立了基於環形線圈數據和浮動車數據的行程時間估計模型,以固定權重對兩個模型進行了融合。Yamane等[8]和Sano等[9]采用加權平均法建立了AVI數據和定點檢測器數據融合的城市道路行程時間估計模型,且其權重可動態調整。基於定點檢測數據和浮動車數據,Choi和Chung[10-11]利用表決法(VotingTechnique)、模糊回歸(FuzzyRegression)和貝葉斯法確定兩種數據的行程時間權重,建立了路段行程時間估計模型;在對以上兩種數據估計精度分析的基礎上,Wang等[12-13]也提出了加權平均融合法;此外,崔夢瑩等[14]應用了自適應加權平均的融合算法,並通過仿真,表明融合算法可有效提高路段行程時間估計精度,且適用於不同流量情況。

Nanthawichit等[15]利用線圈數據和浮動車數據提出了卡爾曼濾波融合模型,通過仿真驗證了模型的估計誤差有所減少;Chu和Recker[16]采用自適應卡爾曼濾波法將環形線圈檢測器和浮動車檢測器的行程時間進行在線融合,但以上兩種算法都僅限於快速路和高速公路。劉紅紅和楊兆升[17]也應用自適應卡爾曼濾波法,建立路段出行時間估計模型,在高峰時段和事故條件下,比較了兩種單一數據和融合數據得到的路段出行時間的平均絕對百分比誤差(MeanAbsolutePercentError,MAPE),結果表明融合算法的預測精度更高。江周等[18]利用卡爾曼濾波理論將線圈數據和浮動車數據融合,建立了城市道路行程時間預測模型。單麗萍等[19]建立廣義自回歸條件異方差(GeneralizedAutoRegressiveConditionalHeteroscedasticity,GARCH)模型,采用聯合卡爾曼濾波算法對浮動車和視頻檢測器采集的車輛速度進行融合。

此外,劉春等[20]針對路網中浮動車數據缺失的情況,利用海量路況曆史數據,提出速度多元線性回歸模型,並推出了按周天分類的模型係數。田智韜[21]基於交通流數據特性,應用指數平滑法對浮動車和固定檢測器數據進行融合計算,並應用MATLAB對融合求解路段平均速度進行仿真。

(2)邏輯推理融合方法主要包括證據推理(Dempster-Shafter,簡稱D-S)理論、模糊邏輯等。ELFaouzi等[22]建立了一種基於D-S理論的方法來改善行程時間估計的數學模型。趙文濤[23]通過可靠性估計與概率重分配的手段彌補了經典D-S理論經常出現的證據衝突問題。徐濤等[24]采用模糊邏輯法建立了多源異構交通信息三層次融合體係,得到精度和可靠性更好的交通信息。Mei等[2]通過融合曆史和實時的出租車浮動車軌跡數據,采用邏輯推理和半監督聚類算法,對由高架快速路和平行地麵主幹道組成的交通走廊的浮動車行駛路徑進行識別,並將其用於交通狀態的估計。

(3)人工智能融合方法主要包括神經網絡、遺傳算法、粗糙集理論、支持向量機、專家係統等,其中最常用的是人工神經網絡。Cheu等[25]、Ivan等[26]、Park和Lee[27]、黃全利[28]、鄒亮等[29]、熊文華等[30]、劉春華[31]、焦德軍[32]采用人工神經網絡的方法,融合定點檢測器數據和浮動車數據,來估計行程速度或者行程時間等交通狀態參數以及進行交通事件的判別等。為了提高交通狀態估計的準確性,Anthony[33]以公交車平均速度、路段限速值、交通信號燈·61·基於多源數據融合的城市道路交通控製與管理數量和路段公交車數量為輸入變量,路段平均速度為輸出變量,建立了神經網絡估計模型,通過與實際數據對比分析,表明該模型的精度大於70%。張旭[34]選取了BP神經網絡作為融合方法,提出了前端和後端融合兩種方式,研究結果表明數據融合前後不同融合結構均會對交通狀態評價結果產生影響。黃琪等[35]運用自適應加權和改進BP神經網絡的數據融合方法,建立了動態數據融合模型,研究了高速公路同一時間、相同斷麵的多檢測器的數據融合問題。

此外,曹晶和李清泉[36]、周雙全等[37]對數據融合方法進行了總結。徐桂鑫[38]運用對角回歸神經網絡將得到的定點檢測器和浮動車的路段行程時間進行數據融合,從而獲得更精確的估計值。Gao等[39]基於支持向量機回歸算法提出了環形線圈數據和浮動車數據的融合算法模型,有效地解決了小樣本、非線性和不確定性問題,並通過仿真驗證了融合模型的可行性。

3.3基於浮動車數據的行程速度估計方法基於浮動車數據的行程速度估計流程如圖32所示。整個過程主要包括數據預處理、地圖匹配、路段車速計算和平均車速計算等步驟。

圖32基於浮動車數據的行程速度估計流程圖3.3.1浮動車數據預處理浮動車采集數據時,由於受各種隨機因素(GPS信號較弱,傳輸錯誤等)影響,難免出現數據錯誤、數據丟失等情況。為了降低非正常數據帶來的影響,須對數據進行預處理,完成錯誤或丟失數據的識別與修複。

由於GPS信號盲區和通信延遲的影響,GPS浮動車在采集和傳輸數據過程中會造成數據丟失故障。一般情況下,通過把在一定時間內得到的數據定義成某一時段的數據,可以實·62·第3章城市道路交通狀態估計與判別現對丟失數據的識別。例如,如果將數據采集的時間間隔規定為5min,則在9∶00∶00到9∶05∶00這5min內得到的數據均視為9∶00∶00這一時段的數據,然後對數據的時段進行掃描和判斷,如果在某一時段內沒有得到數據,或是某一時段內有多於一組的數據,則認為該時段的數據存在問題,需要進行修複和補充處理。

錯誤數據檢驗常用的兩種方法是閾值檢驗法和基於交通流理論的檢驗方法。閾值檢驗法是指為檢測的交通參數設置可能的最大值和最小值,凡是超出閾值範圍的數據均為錯誤數據。基於交通流理論的檢驗方法是根據流量、速度和占有率等參數之間的基本關係,對錯誤數據進行聯合判斷。對於經檢驗判定的錯誤數據,可以采取以下兩種處理方法:一是將其剔除,這種方法適用於可得到大量實測數據而有少量錯誤數據的情況;二是對數據進行修複,根據數據之間的相關性,如相鄰時段的檢測數據、其他浮動車的檢測數據等,將數據處理成沒有偶然因素影響時本該表現的數值或近似值。

同時,采集到的浮動車數據通常具有若幹隨機成分,如數據上傳時間間隔呈非周期性、駕駛員個體對數據質量的影響、車道對車速分布的影響等。這些隨機成分對浮動車數據的影響會造成交通狀態判別偏差,因此,將浮動車數據輸入到交通狀態判別模型之前,需要進行濾波處理,在保留原始浮動車數據變化規律的同時去除隨機成分。

關於缺失數據、錯誤數據以及數據濾波的具體方法已在第2章第2.3節中詳細介紹,在此不再贅述。

3.3.2地圖匹配浮動車傳回的GPS坐標隻能反映車輛的坐標位置,而不能直接與路網路段相關聯。所以車輛在道路上行駛時,GPS數據必須與GIS-T(GeographicInformationSystemforTransportation)電子地圖進行匹配,實現車輛與行駛路段的關聯。地圖匹配的目的是彌補GPS衛星定位的誤差,把車輛坐標修正到準確的路段上,其工作流程如圖33所示。

圖33地圖匹配流程圖[40]GPS定位數據通常采用美國國防部研製的WGS-84坐標係統(三維坐標),而電子地圖廣泛采用平麵坐標。若要準確地在電子地圖上顯示GPS定位點,必須先經過坐標變換,將三維坐標轉換為平麵坐標,然後結合電子地圖庫中高精度的道路信息,利用地圖匹配算法將車輛定位到實際道路上。在此過程中,GPS定位數據誤差大小、坐標轉換程序、電子地圖的道路數據庫質量好壞以及地圖匹配算法的性能優劣,都會直接影響到地圖匹配的精度。

3.3.2.1GPS定位誤差分析GPS定位誤差包括衛星、接收機引起的固有誤差和外部信號通信誤差。衛星和接收機的固有誤差主要是由衛星本身和接收機引起的,包括衛星時鍾誤差、電離層和對流層折射引·63·基於多源數據融合的城市道路交通控製與管理起的附加延時誤差、多路徑誤差、接收機噪聲及其位置誤差等。外部信號通信誤差是由於城市路網複雜,存在GPS信號盲區,使接收機對部分衛星失去鎖定,GPS數據產生漂移,從而降低了GPS的定位精度。為使車輛監控定位的精度更高,可采用差分技術(DifferentialGlobalPositioningSystem,DGPS)消除GPS衛星和信號傳播中的各種誤差源,以達到米級的動態定位精度,在各種實時差分技術中,偽距差分具有較好的性價比,可以滿足車輛定位的要求[41]。

3.3.2.2坐標變換準確地將GPS定位點顯示在電子地圖上,需要精度高、適合計算機運算的轉換算法,正常的坐標轉換步驟為[42]:(1)利用WGS-84大地坐標(B84,L84,H84),計算地心直角坐標(X84,Y84,Z84);(2)通過坐標平移、旋轉和縮放,把地心直角坐標(X84,Y84,Z84)變成北京54直角坐標(X54,Y54,Z54);(3)利用北京54直角坐標(X54,Y54,Z54),計算出54大地坐標(B54,L54,H54);(4)利用高斯投影變換,把54北京大地坐標轉換為當地坐標橢球的高斯平麵坐標(xg,yg);(5)根據在同一平麵下的平麵坐標相似變換原理,通過平移、旋轉,把高斯坐標轉換為地方獨立坐標(x,y),即導航電子地圖的坐標。

步驟(1)和(3)為同一坐標係(B,L,H)和(X,Y,Z)的正變換和反變換。

3.3.2.3電子地圖數據庫誤差分析電子地圖是融合計算機圖形學和數據庫,存儲和處理空間信息的高新技術。它把地理位置和相關屬性有機結合起來,根據實際需要準確地將信息輸出給用戶。

通常采用四種方法獲得GIS-T電子地圖數據:直接從現有的國家或地區基礎地理信息係統中獲取;通過掃描將現有的地圖轉化為矢量化的電子地圖;利用遙感技術獲取;利用GPS係統獲取。這些方法獲得的數據都有一定的誤差,如用掃描的方式獲取時,除了原圖質量影響數據精度外,掃描過程中的圖像預處理、矢量化過程中及矢量化後處理、不同軟件之間數據的轉換等各個環節對數據質量均會有一定程度的影響。

3.3.2.4地圖匹配算法[1]地圖匹配的基本思想是將車輛的GPS軌跡與電子地圖上矢量化的路段進行匹配,尋找當前行駛的道路,並將車輛當前GPS定位點投影到道路上。其核心問題是在給定地圖信息和定位數據的基礎上尋找最可能的行車路段,並確定車輛在該路段上最可能的位置。解決這一問題的關鍵是匹配算法能否準確辨認出定位軌跡與車輛行駛線間的相似之處。常用的匹配算法有最短距離匹配算法、基於模式識別的匹配算法、基於路匹配和點匹配的匹配算法等。

本節采用一種基於最短距離的全局地圖匹配算法(ShortestPathMapMatching,SPMM),其流程如圖34所示。按執行順序分為數據預處理、路段匹配和點匹配三個階段。路段匹配是算法的關鍵環節,直接決定了地圖匹配的效果。SPMM算法的基本思想是首先把數字地圖劃分成兩類柵格,第一類較大的柵格用於收集候選路段所構成的圖網,第二類較小柵格用於使匹配路段盡可能靠近GPS點;然後利用最短路徑搜索算法,尋找最佳匹配路線;最後匹配GPS點。下麵按步驟對SPMM算法詳細說明。

·64·第3章城市道路交通狀態估計與判別圖34地圖匹配算法流程第一步:GPS數據預處理首先讀取來自矢量地圖導出的數據,包括經過預處理的所有路段和路口信息。路段信息以LinkID為關鍵字,采用字典數據結構把所有link及其信息存儲到linklist中,同時把所有LinkID存入到LinkID數組當中。交叉口信息以NodeID為關鍵字,把所有node及其信息存儲到nodelist字典結構中。

然後把地圖劃分為兩類柵格:第一類柵格Grid1和第二類柵格Grid2。Grid1用於收集和抽取浮動車軌跡周邊的路段,生成局部路網,其邊長取決於兩個連續位置坐標點之間的最大距離,且應大於最大值的一半,避免由於局部路網的路網不連通,導致最短路徑搜索失敗,如圖35所示。Grid2用於收集浮動車位置坐標點周邊路段,修正其權值,其邊長約等於GPS誤差,如圖36所示。

柵格與link(包括端點在內的所有中間點)相交是指在二維平麵上,柵格所覆蓋的區域與link的交集存在非空點集。如果link與柵格的4個頂點之間至少有一個中間點或端點在柵格覆蓋的區域內,那麼該link與此柵格相交。采用此判斷方法,對任意柵格Grid[i][j],·65·基於多源數據融合的城市道路交通控製與管理圖35第一類柵格Grid1收集路段圖36第二類柵格Grid2收集路段收集所有與其相交的link,並把LinkID存入Grid[i][j]指向的數組中。

第二步:地圖匹配首先讀取每個以浮動車代號命名的文檔,每行記錄一個GPS點相關信息,包括時刻、GPS經緯度等。以每次旅程的代號為關鍵字,采用字典結構,把旅程信息存入到tracklist表中,並用數組trackdatetime保存所有軌跡點的時刻。

候選link是指GPS點可能所處的link。對一次旅程,候選link網絡是指所有GPS點的候選link所組成的圖網。構建候選link網絡步驟為:首先利用Grid1,找到每個GPS點的候選link,把所有候選link組成圖網;然後利用Grid2,找到GPS點附近一定範圍內的link,並縮短這些link的長度;最後添加起止點到圖網的虛擬link,完成候選link網絡的構建。

然後根據GPS點的經緯度坐標,計算其所處柵格Grid1。把以此柵格為中心的9個相鄰柵格的覆蓋區域作為軌跡點可能的位置區域。這9個柵格相交link構成GPS點候選link集合,一次旅程的所有GPS點候選link集合構成旅程候選link網絡。采取同樣的方法可以抽取出GPS點定位誤差範圍內的附近路段集合,然後對GPS點附近路段乘上縮短率R。由於Grid1遠大於Grid2,因此,GPS點附近路段集合是其候選路段集合的子集。

本節的候選link網絡是不存在負權邊的稀疏網絡,且采用二叉堆的實現方式時,Dijkstra算法的複雜度可以降到O((|E|+|V|)log|V|)。因此選用二叉堆實現的Dijkstra算法進行最短路徑的尋優。Dijkstra算法的基本原理是每次向最短路徑樹中添加一個距離最短的點,更新與該點相鄰點的距離,即根據與源點距離的大小,在最短路徑樹上添加頂點。

Dijkstra算法的遞推公式為初始dist[k]=Edge[V0][k];遞推:u=min{dist[t]},vt∈·66·第3章城市道路交通狀態估計與判別T。u表示當前T集合中dist數組元素值最小的頂點的序號;此後u加入到集合S中。dist[k]=min{dist[k],dist[u]+Edge[u][k]}(隻修改T集合中頂點的dist值)。

其中,dist[i]表示當前找到的從源點V0到終點Vi的最短路徑長度,初始時,鄰接矩陣的第V0行Edge[V0][i]賦給dist[i]。

S[i]為0,表示頂點V0還未加入到集合S中;S[i]為1,表示Vi已經加入到集合S中。

初始時,S中隻有頂點V0,因此,S[V0]為1,其餘為0。

path[i]表示V0到Vi的最短路徑上頂點Vi的前一個頂點序號。采用“倒向追蹤”的方法,確定V0到Vi的最短路徑上的每個頂點。

路徑搜索後,要修正起始點。為了獲得起始點的匹配link,需要修正最短路徑的開頭和結尾。修正方法是:找到起止點所處Grid2的索引位置,獲得相鄰9個Grid2所相交的link,判斷這些link與起點或終點的垂直距離,距離最短且與最短路徑連通的link就是起點或終點的匹配link,再將其添加到最短路徑的開頭或結尾。至此,一次旅程的路線匹配完成,相應地,GPS點的匹配路段也已找到。

第三步:點匹配本節采用垂直相交求垂足的方法匹配GPS點,即求軌跡點到其匹配link上的垂足,垂足點就是GPS點的匹配點。具體做法是依次對每個GPS點求該點到最短路徑上所有link垂足,並計算它們之間的距離,距離最短且在link上的垂足點即是匹配點,如圖37所示。

圖37路段旅行時間計算示意圖由於在地圖數據預處理時要將較低等級的路段剔除,使得一些原本行駛在這些路段的浮動車軌跡無法匹配到正確的路段上,反而會匹配到附近路段上,這樣得到的匹配路段行程時間可能大於實際值,所以在點匹配的過程中會再次對這種情況進行檢查。具體做法是:比較每個GPS點與它在路段的匹配點的距離,記錄一輛浮動車的所有距離大於50m的GPS點的數目,如果該數目大於5,則認為出現了上述情況,應忽略此次的行程時間計算,進入下一次計算。

3.3.3路段車速計算地圖匹配的主要目的是獲得路段出行時間,從而計算路段平均車速。由於GPS匹配點一般都在路段上,而非路段端點,所以要獲得浮動車經過此路段的時間,需要采用一定的時間變換。

如圖38所示,A,B,C為GPS在路段上的匹配點,經過這3點的時刻分別為t1,t2,t3。假設車輛在兩個GPS匹配點之間為勻速行駛,那麼經過Node1,Node2的時刻分別是tNode1=t1l

×(t2-t1)3

1l

+Node1()AB·67·基於多源數據融合的城市道路交通控製與管理圖38路段旅行時間計算示意圖tNode2=t2l

×(t3-t2)3

2l

+Node2()AB因此,以Node1,Node2為端點的路段旅行時間為|tNode2-tNode1|。

計算出浮動車經過某路段的行程時間後,便可計算路段平均速度。設Node1與Node2之間的距離為lNode1,則第1輛浮動車經過此路段的平均速度為v1=

l3

3t

-tNode1()Node2Node1以此類推,第i輛浮動車經過此路段的平均速度為v

=li(

)t

-t34i

NodeNode2Node1因此,路段的平均速度為n

vi(35)V=i=1n式中,n是通過此路段的浮動車總數。

另外,可以對一條路段獲得的若幹個行程速度,根據浮動車的載客與否進行加權平均,便可計算出該條路段的平均行程車速,計算如下:n

nv=1

2v

+ωv

ij

()

Ni=1j=1式中,vi為正常營運狀態下計算出來的路段行程速度;n1為正常速度的個數;vj為空載狀態下計算出來的路段行程速度;n2為空載速度的個數;ω為空載速度的調整係數;N為所有速度的總個數,N=n1+n2。

3.3.4時段平均車速計算通過計算路段的行程時間後,可以得到路段的平均行程車速。若要計算估計時段內的平均車速,如5min、10min或者15min內的平均車速,則存在一個問題:估計時段內,不一定所有的路段都有浮動車的樣本數據,導致計算結果精度不高,因此需要結合曆史數據進行綜合評估。本節選取5min時段來計算。

假設采集到的浮動車5min內的路段行程車速分別記為V1,V2,…,Vn,則估計時段內的平均車速計算如下:·68·第3章城市道路交通狀態估計與判別n

Vi(37)V=i=1n所有5min計算得到的路段平均行程時間以及相應的信息都會存儲起來,當做曆史數據,作為與檢測器數據融合的數據,也可以在一個計算周期中路段缺失數據的情況下作為補充數據。當路段上無數據時,可以通過上一個計算周期的數據以及之前的同時期數據,進行綜合計算,得出最終的行程車速。

3.3.5案例分析3.3.5.1數據來源浮動車數據來自於上海市強生出租車公司提供的於2011年4月至2012年3月間的8000多台出租車上傳的GPS數據,具體數據格式如表31所示。每條GPS數據都包含日期、時間(精確到秒)、出租車公司簡寫、車輛代號、經緯度、瞬時速度、行駛角度、是否載客以及完整的時間信息。

表31FCD數據格式表示字段名稱字段值1字段值2字段值3…

說明日期201104012011040120110401…

8位數字時間042326042326042326…

6位數字出租車公司簡寫SHQSSHQSSHQS…

4位字母車輛代號131021479613248…

參考各營運公司車輛標識經度121.423837121.571953121.831667…

精確到小數點後6位,單位為度緯度31.35141231.34618331.023440…

精確到小數點後6位,單位為度瞬時速度0.00.00.0…

kmh單位為\/

方位角115235141…

單位為度營運狀態1

11

…0

1為空車,為載客完整時間201104012011040120110401…

標準時間格式04∶23∶2704∶23∶2704∶23∶27地圖數據是上海市中心城區的電子地圖,電子地圖數據是mapinfo的*.tab格式,如圖所示。

39從電子地圖中將路段信息導出至*.txt文件,導出的信息包括路段編號、路名、路段等級及長度、起始點編號、交通流方向、道路形態及特性、道路隔離狀態、道路折點數和各折點的經緯度信息,如表32所示。部分屬性說明見表33。

·69·基於多源數據融合的城市道路交通控製與管理圖39上海市中心城區電子地圖表32導出的地圖信息編號1

23

…屬性說明路段編號133071330813313…

用戶自定義路名瀏翔公路寶安公路沈石路…

標準中文名稱路段等級3

53

…見表33

路段長度6.16

457.8…

單位:m起始點編號955395549551…

用戶自定義955295559561…

用戶自定義交通流方向2

13

…見表33

道路形態2

21

…見表33

道路隔離狀態0

00

…見表33

道路折點數2

23

…表示路段全部折點數經度121.3157121.3074121.3157…

道路各折點緯度31.3438831.3403631.34395…

可精確到小數點後的經緯度6位,單位為度經度121.3157121.3075121.3191…

緯度31.343931.3403131.34531…

·70·第3章城市道路交通狀態估計與判別表33各編號及其含義名

稱編號及其含義1,代表一級道路(主要是高速公路、快速路)2,代表二級道路(主要是國道)3,代表三級道路(主要是省道)4,代表四級道路(主要是城市主要道路)道路等級5,代表五級道路(主要是城市次要道路)6,代表六級道路(主要是城市一般道路)7,代表七級道路(主要是出入目的地道路)8,代表八級道路(主要是細道路)9,代表九級道路(步行道路)1,代表雙向通行交通流方向2,代表與數字化方向相同可通行3,代表與數字化方向相反可通行4,代表雙向禁行1,代表雙線化道路(上下線分離)2,代表非雙線化道路(上下線非分離)3,代表輔路4,代表環島5,代表交通廣場6,代表封閉交通區域7,代表匝道(高速公路及快速路之間連接路)8,代表匝道(高速公路與一般道路的連接路)9,代表匝道(快速路與一般道路的連接路)道路形態及特征10,代表匝道(出入立交橋或高架的道路)11,代表匝道(主輔路之間的連接路)12,代表匝道(掉頭專用道)13,代表匝道(左轉專用道)14,代表匝道(右轉專用道)15,代表停車場出入通道16,代表服務區出入通道17,代表步行區道路18,代表在建道路(不可通車)19,代表路口內連接0,代表無隔離欄(默認值)道路隔離狀態1,代表物理隔離欄2,代表法定隔離欄3.3.5.2數據預處理浮動車數據預處理流程分四步驟:坐標糾偏、去除範圍外數據、區分浮動車數據和根據車輛編號分類。

第1步,坐標糾偏。未經處理的浮動車數據顯示在地圖上有明顯的偏移,經過坐標糾偏後,GPS數據可以很好的與地圖匹配,如圖310所示。

第2步,去除範圍外數據。由於GPS存在漂移現象,接收到的數據可能超出當前城市區域範圍,所以需要進行區域過濾,得到全部在研究範圍內的GPS數據,否則將此數據·71·基於多源數據融合的城市道路交通控製與管理圖310坐標糾偏前後對比剔除。

第3步,區分浮動車狀態。當出租車處於空車狀態時,司機出於尋找客源的目的會放慢行駛速度,不能客觀地反映真實路況,因此計算平均速度時需要考慮出租車的營運狀態,處於非營運狀態時須乘以修正係數。

第4步:根據車輛編號分類。因為所有車輛的GPS數據是按時間順序存在一個*.txt文件裏,不能直接進行計算,所以要將GPS數據以每5min為一個周期按車輛編號分類並輸出,這樣才能作為地圖匹配算法的輸入數據。

3.3.5.3地圖匹配圖311為車輛在行駛過程中,5min內發出的GPS數據點在地圖上顯示的過程(圖中的標記點即GPS數據點),此GPS數據是經過數據預處理後的結果,顯示了車輛在5min內的行駛路線。這些經過預處理的GPS數據和地圖數據通過地圖匹配算法處理後,可以得到匹配好的路徑。

圖311地圖匹配的過程及結果示意圖·72·第3章城市道路交通狀態估計與判別3.3.5.4路段車速估計由圖311可見,地圖匹配算法可以很好地匹配出車輛的原始路徑,並且可以根據車輛上傳的GPS時間信息,以GPS的點匹配結果為基礎,得到車輛經過各路段節點的時間點,計算出車輛經過某路段的時間,並根據路段的長度信息,計算出路段行程車速。表34顯示了編號為14306的出租車在一個周期內行駛經過的路段編號和路段行程速度。

表34路段行程時間和車速編號路段編號kmh路段行程速度\/(·-1)1

9703411.72

9725613.43

9725515.74

972536.65

9987010.96

9986919.7…

……

3.3.5.5交通狀態發布通過表34某條路段的交通信息,可得到該路段的平均行程車速。因而,根據道路交通狀態判別法,可得到該路段交通狀態(上海市道路交通狀態判斷的標準見表35),表36所示為不同道路等級的交通狀態估計結果(111代表暢通,222代表擁擠,333代表阻塞)。

表35kmh上海路網狀態標準[43]單位:\/道路等級交通狀態阻塞擁擠暢通高架快速路v<2525≤v<45v≥45地麵主幹道v<1212≤v<25v≥25地麵次幹道、支路及其他<1010≤<20≥20v

vv

表36路段平均行程時間、車速及交通狀態路段屬性編號路段編號路段行程速度\/交通狀態(·-1)kmh1

4701278.6111高架快速路2

5030632.72223

5076923.8333·73·基於多源數據融合的城市道路交通控製與管理(續表)路段屬性編號路段編號路段行程速度\/交通狀態(·-1)kmh1

4984657.3111地麵主幹道2

9615313.72223

9605010.23331

7786925.7111地麵次幹道、支路及其他2

4605016.32223

408109.7333圖312為依據上海市某一天的浮動車數據,顯示部分路段交通狀態估計結果的示意圖(綠色表示暢通,黃色表示擁擠,紅色表示阻塞)。

圖312部分路段交通狀態估計結果示意圖3.4基於定點檢測數據和浮動車數據融合的行程速度估計方法第2章(第2.4節)介紹了交通數據融合常見的幾種方法及其原理,並總結了各方法的優缺點,這裏不再對數據融合方法及其應用進行贅述。本節詳細介紹了兩種基於定點檢測數據和浮動車數據的融合方法,並結合實際案例,更好地對這兩種方法進行說明。

·74·第3章城市道路交通狀態估計與判別3.4.1基於權重的融合方法基於權重的特征級融合方法基本思路是依據浮動車樣本量和交通狀態,分別計算出兩種檢測數據的權重,然後得出融合模型總體權重,從而實現兩種檢測數據的融合並計算融合後的速度,其建模思路如圖313所示。

圖313基於權重的特征級融合方法思路[2]由圖313可直觀地看出影響融合建模精度的是浮動車數據和定點檢測數據的權重,即影響計算得到的融合速度與路測真實速度誤差的主要因素是浮動車樣本量n和表征道路交通狀態的參數———車流密度D(時間占有率可與車流密度相互轉化)。利用仿真對以上兩種數據的精度進行分析(圖314和圖315)並加以擬合(圖316),得到其各自的適用範圍。

圖314不同道路交通狀態和浮動車數量對精度的影響[2]該融合方法可根據不同城市的數據源進行快速檢驗,通過分析其適用範圍及精度之後,可快速確定各個參數權重。具體的融合建模計算步驟為:·75·基於多源數據融合的城市道路交通控製與管理圖315單一定點檢測器的估計精度與車輛密度關係圖[2]圖316浮動車與定點檢測數據精度合成圖[2](1)計算浮動車權重wp(n)和定點數據的權重wd(o);(2)計算總體權重w=wp(n,D)wd(D),由於浮動車數據的精度對交通流密度不敏感,因此可以簡化為w=wp(n)wd(D);(3)計算數據融合後的速度Vi=(1-w)Vdeti+wVprobei式中,Vdeti為定點檢測器測得的車速;Vprobei為浮動車數據得到的車速。

上述數據融合模型的關鍵是標定權值參數。本節以FC數據和環形線圈

(38)(LoopDetector,LD)數據作為融合模型驗證數據,通過與路測真實數據進行誤差對比分析,從而進行多源數據融合模型的權值參數標定和數據分析。權值參數的標定需要借助於FC數據、LD數據、路測真實數據(假設路測得到的平均車速即為真實路況車速)三類匹配數據的相關分析[2]。

1.FC數據權值參數標定(1)參數標定流程見圖317。

(2)車速相對誤差分析。選取某日路測真實數據及與其相對應的相關FCD作為誤差分析的源數據。車速誤差的計算采用“相對誤差”指標。

(3)FC樣本與誤差關聯分析。FC樣本量為計算路段區間平均車速所用到的有效的浮動車數量。根據“FC樣本量”和“車速相對誤差”指標繪製“FC樣本量與誤差關聯圖”,旨在·76·第3章城市道路交通狀態估計與判別圖317FCD權值參數標定流程圖確定參數wp(n)。

2.LD數據權值參數標定(1)參數標定流程如圖318所示。

圖318LD權值參數標定流程圖(2)車速相對誤差分析。同樣選取某日路測真實數據及與其對應的線圈檢測器輸出的車速數據作為誤差分析的源數據。車速誤差的計算采用“相對誤差”指標。

(3)時間占有率與誤差關聯分析。考慮到密度和占有率之間的轉換計算關係,在車輛長度不明確的情況下,直接使用線圈檢測器輸出的“時間占有率”指標,能方便準確地描述線圈檢測器輸出車速的精確度和規律。時間占有率采用多車道、多時段、多檢測器全平均的計·77·基於多源數據融合的城市道路交通控製與管理算方法得到,以此確定參數wd(o)。

3.對比與分析完成FC數據和LD數據權值參數確定後,依據建模步驟,確定多源數據模型權重參數,進而將融合後數據與真實值進行對比分析,並得出結論。

3.4.2基於自適應卡爾曼濾波的融合方法第2章的第2.4.1.2節中已對卡爾曼濾波融合方法做了說明,本節將詳細介紹基於定點檢測數據和浮動車數據,如何利用自適應卡爾曼濾波法實現路段行程時間估計,在已知路段長度的條件下,估計出路段行程速度。[4]1.確定狀態變量考慮在第k個時段內,在通過路段i的車輛中,有nk輛浮動車,它們的行程時間分別為tj(k),j=1,2,…,nk,則狀態變量可表示為第k個時段內路段行程時間為t(k)(待預測)。

2.建立觀測方程和狀態轉移方程假設t(k)服從某種分布,那麼浮動車的行程時間tj(k)可以看作是對路段行程時間t(k)的觀測,因此,可表示為()=()()()tktk+zk3

9j

j式中,zj(k)形成了一個隨機過程,代表浮動車樣本行程時間對路段行程時間t(k)的偏離,可以看作是高斯白噪聲,均值為0,方差為σz2。

對第k個時段內經過路段i的所有浮動車樣本行程時間求和並取均值,得到n

nk

kk

()()k

()()nj=1nj=13101

tk=tk+1

zkj

jn

1k令v(k)=nkzj(k),顯然v(k)是高斯白噪聲,均值為0,方差為R(k),再令y(k)=j=1n

1knktj(k),則有j=1y()=()()()ktk+vk3

11式(311)表明,由浮動車樣本行程時間的均值,可形成對路段行程時間的觀測。將該式作為卡爾曼濾波的觀測方程。

兩個相鄰時間段(第k-1段和第k段)的行程時間存在著以下轉移關係()=(,-)(-)()()1

11

312tkΦkktk+wk-式中,Φ(k,k-1)為k-1到k時段的轉移係數;w(k-1)為零均值的高斯白噪聲;方差為Q(k)。因此,就得到了基於浮動車數據的路段行程時間估計的觀測方程式(311)和狀態轉移方程式(312)。

3.濾波求解係統噪聲與觀測噪聲是互不相關的零均值高斯白噪聲序列,與狀態向量初值無關,有以·78·第3章城市道路交通狀態估計與判別下公式:E{v(k)}=(

)0

313E{w(k)}=(

)0

314()()0

()

{T

}=

{T

Evkwj0,k≠j}

kjkj()()(),{,k=j(

)Evkvj=Qkδδ=

3161

T{

}kjkj0,k≠j()()(),{,k=j(

)Ewkwj=Rkδδ=

3171

E{t()wT(k)}=()0

03

18E{t()vT(k)}=()0

03

19顯然,卡爾曼濾波是一個時變係統,且為標量卡爾曼濾波。狀態轉移係數由曆史數據確定。但由於交通狀態的隨機性和突發事件的影響,這種利用時間特征來確定轉移係數的方法,具有較大誤差,從而影響估計精度。為克服這種不足,本節利用K-NN法尋找相似的交通流狀態來確定轉移係數,從而實現定點檢測器數據和浮動車數據的融合。

K-NN法,也叫K近鄰法。將輸入特征向量xc和曆史數據庫中的特征向量集{x}相匹配,找出與輸入特征向量xc距離最近的K個特征向量,並將這K個特征向量對應的輸出函數作為輸入特征向量的輸出估計值,如圖319所示。

圖319K-NN法xc是輸入特征向量,當K=4時,與xc最接近的4個特征向量為x1,x2,x3和x4,那麼,與xc相對應的輸出yc,可用特征量x1,x2,x3和x4相對應的輸出y1,y2,y3和y4的函數來估計,即yc=f(y1,y2,y3,y4)。如果f為算術平均,則有yc=0.25(y1+y2+y3+y4)。

轉移係數Ф(k,k-1)等於相鄰兩個時段的行程時間之比,即時段k和時段k-1的行程時間之比,有Φ(k,k-)=t(k)(

)1

tk-320(1)·79·基於多源數據融合的城市道路交通控製與管理由於路段行程時間與流量、占有率之間有著顯著的相關關係,本節利用流量和占有率來確定轉移係數。式(321)描述了轉移係數Ф(k,k-1)與時段k-1的流量q(k-1)和占有率o(k-1)、時段k的流量q(k)和占有率o(k)之間的函數關係,並有Φ(k,k-1)=f[q(k),q(k-1),o(k),o(k-1),z](321)式中,f表示函數關係,其形式和參數相當複雜,可以認為是未知;z代表其他因素。

本節采用K-NN法來估計轉移係數Ф(k,k-1),需要確定近鄰個數K、特征向量、距離和局部計算方法。

1)近鄰個數K研究發現,K並非越大越好,而是在某個特定值能取得很高的精度,故在應用時,要求取合適的K值。而在很多情況下,K值憑經驗確定。受曆史數據庫數據量的約束,取K=5。2)特征向量選擇相鄰兩個時段的流量和占有率作為特征向量,即第k-1時段流量qk-1與占有率ok-1,和第k時段的流量qk和占有率ok,則有特征向量:(1,1,,)()x

=q-o-qoT

322k

kk

kk3)距離距離是指空間中兩個點的接近性。距離的計算采用基於方差的標準歐幾裏德距離,則有輸入特征向量xc與曆史數據庫中的第i個特征向量之間的距離為ééc-ù

éi-ùùTéσ20

00ù-12

i-1iTêêq1

úêq1

úúê

o-1ú

o-1úúê

0σo00ú

c=(c-)(c-x)

êêc

i2

=êêú

êúú×êú

dixx×V×x00σq0êêqcúêqiúúê

úêêo

úê

oúúê

00

0σoú

??

?

?

??

?

2?

ci

ééqc-1ù

éqi-1ùùêêú

êúúo-ú

o-úúêêc

i1

()

êêú-ê

úúêêqcúêqiúú323êêo

úê

oúú??

?

?

??

ci

式中,σq2和σo2是曆史數據庫某一特定路段的流量和占有率的方差。

4)局部計算方法考慮到計算的可行性和簡便性,本節選擇加權平均法作為局部計算方法,權重係數采用平方權函數,即有K

324i

wiyiyc=(

)[K-(i-1)]=1i=K

{2

2,

,,…,wi=[()()\/]121416(

)KK+K-,…,N325,

i=K+,K+5

025952495219516951

2則有995個近鄰的權重依次為\/,\/,\/,\/和\/。

·80·第3章城市道路交通狀態估計與判別這種通過尋找相似的交通流狀態來確定轉移係數的自適應卡爾曼濾波方程可寫成()(,^

1)1)(tk=

Φkk-

tk-

1)()(,1)(1)(Pk=

Φ2kk-

Pk-

+Qk-

=Gk+

-)]()()[()(

tk1

-1PkPkRk()()()εk=yk-

^()()()()tkGkεktk=+

()[

()]()PkPk=I-Gk()b

1-b1

dk=

1-k+Q(k)=[1-d(k-1)]Q(k-1)+d(k-1)[G2(k)ε2(k)+P(k)]R(k)=[1-d(k-1)]R(k-1)+d(k-1)ε2(k)

(326)(327)(328)(329)(330)(331)(332)(333)(334)^

()(),()()式中tk和tk分別為第k時段路段行程時間的先驗估計和後驗估計Pk和Pk分別為第k時段狀態向量估計誤差協方差的先驗估計和後驗估計;ε(k)和G(k)分別為第k時段的新息和濾波增益;Q(k)和R(k)分別為第k時段的係統噪聲方差和觀測噪聲方差的估計;T為轉置符號;b是遺忘因子,0

考慮,一般可取b4

0^

該濾波需要確定個初值,即狀態向量初值t()、估計誤差協方差的後驗估計初值0

00

0P()、係統噪聲方差初值Q()和觀測噪聲方差初值R()。研究表明,狀態向量初值t()對自適應濾波的收斂性影響很小,即該濾波對狀態向量初值不敏感。狀態向量估計誤差協方差的後驗估計P(0),可取為略大於估計誤差協方差的對角陣。係統噪聲方差初值Q(0)和觀測噪聲方差初值R(0)的選取在一定條件下將影響濾波器性能。

4.估計結果分析通過選取性能評價指標說明估計結果的精度。

估計性能評價指標采用相對誤差APE、最大相對誤差maxAPE和平均相對誤差MAPE。

第k個時段的相對誤差:APE(k)=^

×(

)()()tk-tk100%3

35tk最大相對誤差:()max336maxAPE=

{APE(k)}(

)平均相對誤差:^

tk-tk()100%(

)Kktk337MAPE=1()()×

,()^();。

式中tk和tk分別為第k個時段的真實值和估計值K為有調查數據的時段集合·81·基於多源數據融合的城市道路交通控製與管理3.4.3案例分析3.4.3.1基於權重的融合方法[5]本節以上海南北高架部分線圈數據和浮動車數據進行融合,驗證融合模型的適用性。

1.數據準備融合模型權重參數的標定需要借助FC數據、LD數據和路測真實數據三類數據的相關分析。

選取2009年3月20日、25日和27日共計3天的數據進行分析。路段的選取以環形線圈埋設的路段為原則,具體路段及其相關信息見表37。

表37上海南北高架部分線圈檢測器埋設路段信息路段編號起點終點主線正向埋設線圈ID主線反向埋設線圈ID2463內環高架路柳營路DX20XX20XX213278柳營路洛川東路DX21XX222630洛川東路延長路DX22XX232627延長路大寧路DX23XX243276大寧路廣中路DX24XX25XX262624廣中路靈石路DX25XX273274靈石路彭江路DX26XX28DX27XX293272彭江路中環路XX30DX28XX312.FC數據權值參數標定1)車速誤差分析隨機選取2009年6月至9月中15天的路測真實數據及FC數據作為誤差分析的源數據,采用“相對誤差”指標計算車速誤差。某日部分數據見表38。

2)FC樣本分布率與誤差關聯分析上文已提到“FC樣本量”的概念,FC樣本分布率=浮動車有效樣本數\/該路段長度,輛\/km。

分析過程中,結合“浮動車有效樣本量”和“車速相對誤差”指標繪製“最優樣本分布率選·82·第3章城市道路交通狀態估計與判別表38FCD與路測誤差分析數據彙總路段編號路名方向路段長進入離開單車係統準確性時間時間速度輸出31055937中環路2

1061.6::::84.973.7T

18324718333231050739中環路2

1839.6::::75.273.8T

18300618313331050880中環路2

666.7::::82.777.7T

18342218342231047876中環路2

1636.3::::86.665.4T

18265818280631002975內環高架路2

890.9::::76.374.0T

17101917110131055937南北高架路2

1863.5::::76.273.5T

18221018233831055937中環路2

1033.1::::80.870.2T

18313418322031055937內環高架路2

664.1::::54.358.7T

17282517290931148471中環路2

988.7::::77.368.8T

18354018362631050841中環路2

639.2::::85.265.1T

183230183247…

……

……

……

……

取圖”,確定參數wp(n);2009年8月21日地麵FC樣本分布率與誤差關聯圖如圖320所示;根據路測的不同道路等級和路測日期,將地麵道路和高架路的分析結果彙總後繪製於圖321和圖322。

圖320地麵FC樣本分布率與誤差關聯圖圖320中坐標軸以“序號”作為橫坐標,“相對誤差”作為縱坐標,分別由各路測路段的FC樣本分布率由少至多遞增形成的直方圖、車速相對誤差構成的散點圖和由相對誤差散點·83·基於多源數據融合的城市道路交通控製與管理圖321地麵最優FC樣本分布率選取圖圖322高架最優FC樣本分布率選取圖擬合而成的曲線圖組成;此圖直觀地反映了隨著FC樣本分布率的增加,計算得到的車速與路測真實車速之間的誤差變化情況。

由於誤差散點擬合曲線大體上呈現出相對誤差由高到低、再由低到高的規律,假設采用比較多的浮動車樣本數計算得到的車速要比采用比較少的浮動車樣本數得到的車速更接近於真實路況,則不難確定曲線中的一個拐點和一個極值點。例如在圖320中,曲線拐點出現在FC樣本分布率約為17處,而極值點則出現在FC樣本分布率約等於50處。

FC樣本分布率小於17時,由於FC樣本數太少,計算得到的車速誤差會比較大(不能成為FC樣本分布率較小,則車速誤差也會比較小的理由)。

FC樣本分布率大於17小於50時,曲線下降至極小點,誤差擬合曲線對應的FC樣本分布率帶來的誤差比較小,和前文假設不相符。為方便計算,將此下降趨勢擬合為線性遞減模型,並標定參數。這一做法對傳統的采用“固定值”標定權重參數進行了改良(例如采用0.5來標定權值參數),線性模型可以更準確地反映FC樣本分布率在這一區間內取值時的變化。

當FC樣本分布率大於50時,由假設知FC樣本量得到的車速誤差比較小。上圖中曲線明顯呈現出誤差逐漸增大後又減小的趨勢,主要原因是個別分析路段長度較短,造成FC·84·第3章城市道路交通狀態估計與判別樣本分布率較高。在這種情況下,多會發生交通擁堵現象。而環形線圈檢測器的檢測原理和實際數據表明,在這種現象發生時,其檢測精度遠小於浮動車檢測精度。

圖321由“FC樣本分布率(veh\/km)”作為橫坐標軸和“路測日期”作為縱坐標軸構成;其中紅色水平線為FC樣本分布率,它的長度表明了FC樣本分布率的選擇範圍,其後的百分數為對應的車速平均相對誤差;灰色水平線為異常數據,不做統計計算;白色圓點代表誤差擬合曲線的拐點,黑色圓點代表誤差擬合曲線的極值點(含義詳見“圖320關聯圖”解析)。

“分閾”顧名思義,將FC樣本分布率的取值範圍進行劃分。“第一分閾線FC樣本量為38”中38為圖321中各極值點的均值。“第二分閾線FC樣本量為23”中23為圖321中各拐點的均值(不考慮異常數據)。

“高架最優FC樣本分布率選取圖”的解釋與“地麵最優FC樣本分布率選取圖”解釋相同,不做重複。3)參數標定通過上文分析,不難得到如下結論:?ì0n<23地麵道路p()?

15323≤n

≤38?15wn=í1n-.

1n>38?

?

?ì0n<6高架道路p()?

26≤n

≤9?3wn=í1n-1

n>9?

?

3.LD數據權值參數標定1)車速相對誤差分析選取2009年3月20日、25日和27日這3天的路測真實數據及與其相對應的線圈檢測器輸出的相關車速數據作為誤差分析的源數據,采用“相對誤差”指標計算車速誤差。具體數據見表39。

表39時間占有率與路測誤差分析數據彙總路段編號車速相對誤差線圈占有率0.7287246322.22994

3116.632426245.632910.8334·85·基於多源數據融合的城市道路交通控製與管理(續表)路段編號車速相對誤差線圈占有率58.8338262727.536011.336422.4368263021.637811.639432720.54087.64547.75703274118.863916.37232)時間占有率與誤差關聯分析本節使用“時間占有率”來描述線圈檢測器輸出車速。時間占有率的計算采用多車道、多時段、多檢測器全平均的計算方法得到。

圖323時間占有率—車速相對誤差關係曲線擬合圖圖323中坐標軸由“時間占有率”作為橫坐標軸和“車速相對誤差”作為縱坐標軸構成,分別由車速相對誤差構成的散點圖和由相對誤差散點擬合而成的直線圖組成;圖中黃色圓點代表兩條擬合線的交叉點,即誤差趨勢拐點。由圖可直觀看出當時間占有率小於570%時,擬合線接近水平直線,而時間占有率大於570%時,擬合線斜率增加,表明隨時間占有率增大,車速誤差增加,這一規律和理論相符。

·86·第3章城市道路交通狀態估計與判別3)參數標定通過上述分析,不難得到如下結論:<5700

o?ì,

高架道路d()?

061,570≤≤1500?

930wo=í1o-.

oo

?

,>15001

?

由於缺少地麵道路的線圈定點數據,所以無法對地麵道路的LD權值參數進行標定。

4.融合後數據與真實值對比及評價由於2009年3月20日、25日和27日這3天FCD文本數據沒有浮動車樣本量的信息,所以無法進行融合後數據與真實值的對比分析。但是基於權重的融合方法可以通過FCD、LD和路測實時數據擬合得到多源數據融合模型中各權值參數,並經過實際數據的擬合,得到的曲線趨勢基本上符合理論描述。

3.4.3.2自適應卡爾曼濾波法[4]1.數據來源以上海普陀區長壽路東西向路段(陝西北路—西康路—常德路—膠州路)為例,選取2008年8月25日7∶33—8∶33早高峰時段的數據對信控主幹道平均行程時間預測進行研究,共測試了12個時段。

由於該區域常德路沿線正在進行地鐵施工,道路封閉,長壽路東西向車流將不受常德路—長壽路交叉口信號控製的影響。因此,該路段可以根據東西向各停車線斷麵劃分為膠州路—西康路段、西康路—陝西北路段,分別進行路段平均行程時間預測,如圖324所示。

圖324研究路段示意圖通過提取該路段車輛牌照視頻識別數據,得到路段實際平均行程時間用以驗證算法精度,如圖325所示。

2.

^初始值的選取0

00=通過前麵分析,狀態向量初值t()=,估計誤差協方差的後驗估計初值P()10000估計結果分析0=1000000=10000、係統噪聲方差初值Q(),觀測噪聲方差初值R()。

3.

1)平均相對誤差及最大相對誤差802%283%maxMAPE=.

,APE=.

·87·基於多源數據融合的城市道路交通控製與管理圖325長壽路(陝西北路—膠州路)實際平均行程時間從行程時間估計的相對誤差分布來看,平均相對誤差為2.83%,最大相對誤差為8.02%,標準差為0.021,說明了估計精度高,穩定性較好。

2)第k個時段的相對誤差(圖326)。

圖326相對誤差的分布從相對誤差的分布來看,相對誤差在2%以內的占到了50%,相對誤差在4%以內的占到了83%。

3)真實值與估計值的比較圖327表明,估計值能夠及時跟蹤交通狀態發生變化時的行程時間波動情況。

圖327真實值與估計值的比較真實值與估計值之間的擬合關係(圖328)為0842262543

38y=.x+.

()·88·第3章城市道路交通狀態估計與判別式中,y為行程時間的估計值;x為行程時間的真實值,R2=0.889。

圖328真實值與估計值之間的擬合關係4)估計誤差的後驗估計圖329表明,估計誤差的後驗估計經過少數幾步迭代後,迅速收斂至某個常數,並在其上下波動,說明濾波具有較好的穩定性。

圖329估計誤差的後驗估計5)係統噪聲方差和觀測噪聲方差圖330(a)和圖330(b)表明,係統噪聲方差和觀測噪聲方差經過少數幾步迭代後,迅速收斂並保持穩定。

圖330係統噪聲方差和觀測噪聲方差·89·基於多源數據融合的城市道路交通控製與管理3.5城市道路交通狀態判別常用的交通狀態判別算法有California法、McMaster法、指數平滑法、正態偏差法、神經網絡法和熵等[44],本節通過交通流檢測設備計算行程速度,討論了基於閾值和基於模糊邏輯的交通狀態判別算法。

3.5.1基於閾值的交通狀態判別基於閾值的交通狀態判別基本原理是依據城市道路交通管理條例,不同城市根據實際情況確定的具體行程速度數值區間,將交通檢測設備或數據融合得到的交通流參數(平均行程速度)作為輸入量,判斷行程車速所在的閾值速度區間,從而區分和發布城市道路交通狀態。

依據《城市道路交通管理評價指標體係》(2012版)[45]結合有關主幹道平均車速分級指數的規定,將表310中的第一、第二級速度對應的交通狀態定義為順暢,將第三、第四級速度對應的交通狀態定義為一般擁擠,將第五級速度對應的交通狀態定義為嚴重擁擠。

表310kmh高峰時段建成區主幹道平均車速分級單位:\/評價標準等級一

二三

四五

A類城市[,][,][,][,][,]2530222519221619016B

類城市[,][,][,][,][,]2833252822251922019C

類、類城市[,][,][,][,][,]D

3035273024272124021指數[,][,][,][,][,]90100809070806070060注:表中A類城市、B類城市與C類、D類城市是按照城市規模分類,分別是50萬人以上、20萬~50萬人、20萬人以下。

由於《城市道路交通管理評價指標體係》中沒有規定城市主幹路之外其他級別道路的評價標準,王春娥[46]結合《城市道路設計規範》(CJJ37—90)中的相關規定,將《城市道路設計規範》設計速度標準中的Ⅰ級、Ⅱ級、Ⅲ級標準分別對應於表310中的3類城市等級,確定城市道路路段交通狀態判別標準,如表311所示。

表311kmh城市道路路段交通狀態判別標準單位:\/道路快速路主幹路次幹路支路類別交通狀順暢一般嚴重順暢一般嚴重順暢一般嚴重順暢一般嚴重態分級擁擠擁擠擁擠擁擠擁擠擁擠擁擠擁擠特大型[,][,)[,)[,)和

A類

≥34<24≥22<16≥18<13≥13<102434162213181013城市·90·第3章城市道路交通狀態估計與判別(續表)道路快速路主幹路次幹路支路類別B

類—

——

≥25[,)<19≥20[,)<15≥14[,)<11城市192515201114、

類—

——

[,)[,)[,)CD≥27<21≥22<17≥15<12城市212717221215注:考慮到快速路的特殊性,其判別標準在計算結果的基礎上提高20%;其他級別道路的結算結果進行了四舍五入以及趨勢一致性微調。

也有部分城市依據本地實際交通狀況製定某些判別指標(如行車速度、交通流量等)實現交通狀態判別。表312列舉了我國典型城市利用行車速度實現交通狀態判別例子。

表312典型城市交通狀態判別指標———行車速度kmh單位:\/交通狀態城市道路等級擁擠(上海為阻塞)緩行暢通<202050≥50北京[47]快速路v

[,)v

<101020≥20主幹路v

[,)v

高架、快速路<252545≥45v

[,)v

主幹道、幹線主幹道<121225≥25上海[43]v

[,)v

次幹道、支路及其他<101020≥20v

[,)v

高架、高速及快速路<353555≥55深圳[48]v

[,)v

<252545≥45主要道路v

[,)v

3.5.2基於模糊邏輯的交通狀態判別本節針對交通狀態具有的模糊性,建立交通順暢程度的模糊推理係統,將難以定量區分的連續交通參數模糊處理,實現交通狀態的判別[1]。其原理是建立交通流參數與交通順暢程度之間的關係,選取交通流參數作為輸入量,模糊集用“暢通”、“擁擠”、“擁堵”作為輸出量,來描述和反映交通擁塞程度;另外,選擇隸屬函數表征路段行程速度和隸屬於模糊集輸出量之間的關係。影響道路暢通程度的因素很多,本節應用路段的平均行程車速和道路的使用功能來確定。

1965年,美國著名教授L.A.Zadeh最早提出模糊集合的概念,它是用來表達模糊性概念的集合,是指具有某個模糊概念所描述的屬性對象的全體。由於概念本身不是清晰的,因而對象對集合的隸屬關係也不是明確的,非此即彼。例如對於集合A,由0,1及(0,1)組成,其中(0,1)表示某個元素屬於集合A的程度,則集合A稱為模糊集合。

·91·基於多源數據融合的城市道路交通控製與管理,A()下麵引入隸屬函數的概念μ

x表示如下ì1,?

μ(x)=?(0,1),Aí?0,?

x∈Ax∈A的程度x?A0101隸屬函數可以很好地描述事物的模糊性,其值域為[,],它將普通集合隻能取,兩011

個值,推廣到[,]閉區間上的連續取值。隸屬函數的μA(x)越接近於,表示元素x屬於模A

,A()0,A

糊集合的程度越大反之μ

x越接近於表示元素x屬於模糊集合的程度越小不同道路狀態下的路段平均速度沒有明顯的界限,因此可以用模糊判別方法進行處理,將不同的道路狀態用模糊子集來描述:{擁堵,擁擠,暢通}。對於某段道路的平均速度可以用隸屬函數判斷其屬於各個模糊子集的隸屬度。模糊數學中的隸屬函數可以選取各種不同的形狀,如三角形、梯形、鍾形、s形等,本節采用梯形隸屬函數,如圖331所示。

圖331路段平均行程速度隸屬度函數曲線各等級隸屬度函數解析式如下:?ì10≤v≤a1()?bv≤≤(

)?b-ab

339fv=í-av

0v≥b?

?

?ì00≤v≤a?va?-a

vb

b-a≤≤?

?

f2(v)=íb

vc(

)?1≤≤340?d-vcv

d?d-c≤≤?

v≥d0

?

?ì0v≤cfv=ív-ccvd3()?

≤≤(

)?d-c3411

v≥d?

?

式中,f1(v)為評價指標隸屬於“擁堵”的隸屬函數;f2(v)為評價指標隸屬於“擁擠”的隸屬函數;f3(v)為評價指標隸屬於“暢通”的隸屬函數;v為路段的平均行程速度;a和d為不同道·92·第3章城市道路交通狀態估計與判別路等級的常規狀態指標;b,c為a和d分別加減一個確定值?得到的值,即b=a+?,c=d-?。

將求得的路段平均速度,代入式(339)—式(341)便可以得到路段隸屬於各種道路狀態的隸屬度,從而得到一個評價矩陣V=[擁堵,擁擠,暢通]。再用最大隸屬度法,對評價結果進行處理,最終判定道路當前的交通狀態。

3.6本章小結目前,基於交通移動檢測數據和定點檢測數據的多源數據融合是城市道路交通狀態估計與判別的研究熱點。本章以浮動車數據和定點檢測數據為數據源,利用兩種不同的方法進行融合,從而得到路段行程速度並依據交通狀態判別法估計實時的道路交通狀態。

本章的研究成果有:①基於浮動車數據,通過數據預處理,地圖匹配等得到路段平均車速,並以上海市FCD為案例說明方法的適用性。②基於定點檢測數據和浮動車數據,開發了兩種數據融合方法,基於權重的融合方法通過計算融合後的行程車速並與實測數據做對比,保證模型的精度;基於自適應卡爾曼濾波的融合方法通過對行程時間的預測,從而估計行程速度。③介紹了兩種不同的交通狀態判別法,一是我國典型城市常用的速度閾值法,二是通過模糊邏輯進行交通狀態判別。

參考文獻[1][2][3]

同濟大學交通運輸工程學院.基於出租車FCD數據的城市道路行程時間估計方法係統開發[R].2013.

MeiY,TangK,LiK.Real-timeidentificationofprobevehicletrajectoriesinthemixedcorridor[J].

TransportationResearchPartC:EmergingTechnologies,2015,57:5567.

唐克雙,梅雨,李克平.基於浮動車數據的交通狀態估計精度仿真評價[J].同濟大學學報:自然科學版,2014,42(9):13471351.

[4]同濟大學交通運輸工程學院.基於浮動車數據和定點檢測數據融合的行程時間估計技術[R].2013.[5]上海優途信息科技有限公司.上海定點&FCD融合建模報告[R].2013.

[6]ElFaouziNE,LeungH,KurianA.Datafusionininteligenttransportationsystems:Progressandchalenges—Asurvey[J].InformationFusion,2011,12(1):410.

[7]BerkaSJ,TarkoAP,RouphailN,etal.DatafusionalgorithmforAdvanceRelease1.5[R].AdvanceWorkingpAperseries,Number37,Urbantransportationcenter,UniversityofIlinoisatChicago,1995.

[8]YamaneK,FushikiT,FurutaM,etal.DevelopmentoftraveltimeestimationsystemcombininglicenseplaterecognitionAVIandultrasonicvehicledetectors[C]∥Proceedingsof6thWorldCongressonInteligentTransportSystems(ITS),HeldToronto,Canada,November812,1999.1999.

[9]SanoY,FurukawaS,TakamuraF,etal.Travel-timemeasuringsystemforefficienttrafficinformationservice[J].HitachiReview,2000,49(3):135.

[10]ChoiK,ChungY.TraveltimeestimationalgorithmusingGPSprobeandloopdetectordatafusion·93·基於多源數據融合的城市道路交通控製與管理[11][12][13][14][15][16][17][18][19][20][21][22][23][24][25][26][27][28][29]

[C]∥TransportationResearchBoard80thAnnualMeeting[CD-ROM],Washington,DC,2001.

ChoiK,ChungYS.Adatafusionalgorithmforestimatinglinktraveltime[J].ITSJournal,2002,7(34):235260.

WangR,GotoM,NakamuraH.Validationofanimprovedmethodtoestimateexpresswaytraveltimebythecombinationofdetectorandprobedata[J].JournaloftheEasternAsiaSocietyforTransportationStudies,2003,5:20032014.

WangR.Astudyonthemethodologyofexpresswaytraveltimeestimationutilizingprobevehicletechnologies[D].Nagoya:NagoyaUniversity,2004.

崔夢瑩,劉鍇,候文宇,等.基於自適應加權平均融合的路段行程時間估計[J].交通標準化,2014,42(15):3842.NanthawichitC,NakatsujiT,SuzukiH.Applicationofprobe-vehicledataforreal-timetraffic-stateestimationandshort-termtravel-timepredictiononafreeway[J].TransportationResearchRecord:JournaloftheTransportationResearchBoard,2003,1855(1):4959.ChuL,ReckerW.Micro-simulationmodelingapproachtoapplicationsofon-linesimulationanddatafusion[J].CaliforniaPartnersforAdvancedTransitandHighways(PATH),2004.

劉紅紅,楊兆升.基於數據融合技術的路段出行時間預測方法[J].交通運輸工程學報,2008,8(6):8892.

江周,張存保,許誌達,等.基於多源數據的城市道路網絡行程時間預測模型[J].交通信息與安全,2014,32(3):2731.

單麗萍,蘭時勇,張建偉.浮動車數據和視頻傳感器數據的融合算法分析[J].計算機工程與設計,2014,35(3):10511055.

劉春,黃美嫻,楊超.浮動車數據缺失道路的速度推估模型與實現[J].同濟大學學報:自然科學版,2010,38(8):12551260.

田智韜.基於浮動車與固定檢測器的交通流數據融合技術研究[D].北京:北京交通大學,2011.

ElFaouziNE,KleinLA,DeMouzon,O.ImprovingTravelTimeEstimatesfromLoopandTolColectionDatawithDempster-ShaferDataFusion[C].Proceedingsofthe88thAnnualMeetingofTransportationResearchBoard,WashingtonD.C.,2009.

趙文濤.基於多源交通信息的數據融合技術及其應用研究[D].上海:上海交通大學,2009.

徐濤,楊曉光,徐愛功,等.麵向城市道路交通狀態估計的數據融合研究[J].計算機工程與應用,2011,47(7):218221.

CheuRL,LeeDH,XieC.Anarterialspeedestimationmodelfusingdatafromstationaryandmobilesensors[C]∥InteligentTransportationSystems,2001.Proceedings.2001IEEE.IEEE,2001:573578.

IvanJN,SchoferJL,KoppelmanFS,etal.Real-timedatafusionforarterialstreetincidentdetectionusingneuralnetworks[J].TransportationResearchRecord,1995(1497):2735.ParkT,LeeS.ABayesianapproachforestimatinglinktraveltimeonurbanarterialroadnetwork[M]∥ComputationalScienceandItsApplications—ICCSA2004.SpringerBerlinHeidelberg,2004:10171025.

黃全利.基於NN-FR的交通中同一檢測麵上多檢測器的數據融合[J].公路交通科技,2006,23(7):120124.

鄒亮,徐建閩,朱玲湘,等.基於浮動車移動檢測與感應線圈融合技術的行程時間估計模型[J].公路·94·第3章城市道路交通狀態估計與判別[30][31][32][33][34][35][36][37][38][39][40][41][42][43][44][45][46][47][48]

交通科技,2007,24(6):114117.

熊文華,徐建閩,林思.基於BP網絡的浮動車與線圈檢測數據融合模型[J].計算機仿真,2009,(9):235238.

劉春華.基於交通數據融合技術的行程時間預測模型[D].湖南:湖南大學,2013.

焦德軍.基於數據融合的城市道路行程時間預測模型研究[D].大連:大連海事大學,2014.AnthonyFD.Aframeworktotransformreal-timeGPSdataderivedfromtransitvehiclestodeterminespeed-flowcharacteristicsofarterials[J].DissertationAbstractsInternational,2002:6412.

張旭.麵向交通狀態評價的多源異質交通流數據融合技術方法研究[D].北京:北京交通大學,2008.黃琪,柴幹,孫瑩瑩,等.麵向高速公路交通調度的動態數據融合[J].公路交通科技,2009,26(3).曹晶,李清泉.城市路網中浮動車數據和線圈數據的融合[J].交通與計算機,2008,26,(4):1114.

周雙全,楊小文,張建忠,等.浮動車數據和定點檢測數據的融合算法研究[J].交通標準化,2010(16):117122.

徐桂鑫.基於數據融合的路段行程時間估計[D].濟南:山東大學,2012.

GaoD,ZhangY,CaoJ.UrbanroadstatusperceptioninformationfusionusingSupportVectorRegression[C]∥SoftwareEngineeringandServiceScience(ICSESS),20134thIEEEInternationalConferenceon.IEEE,2013:870873.

楊立娟.基於浮動車的城市道路行程時間采集與預測方法研究[D].長春:吉林大學,2007.

楊兆升,初連禹.差分GPS在城市交通流誘導中的作用[J].吉林工業大學學報,1998,28(1):5054.

王三軍.GPS導航電子地圖的應用研究[D].上海:同濟大學,2007.

黃美嫻.基於浮動車數據(FCD)的道路實時速度匹配與數據挖掘[D].上海:同濟大學,2009.

韓悅臻.城市道路交通狀態指標體係及判定方法研究[D].長春:吉林大學,2003.

公安部交通管理局,教育部基礎教育一司,住房和城鄉建設部城市建設司交通運輸部道路運輸司.城市道路交通管理評價指標體係[EB\/OL].2012年版.[20150606].http:∥yycjm.yiyang.gov.cn\/zcfg\/201212272.html.

王春娥.基於數據融合的城市道路交通狀態判別算法研究[D].長春:吉林大學,2008.

賈森.基於實時信息的城市道路交通狀態判別方法研究[D].北京:北京交通大學,2007.

深圳易行網.交通路況[EB\/OL].[20150306].http:∥www.e511.com\/roadStateIndex.do.

·95·第4章城市路網動態OD估計和路徑重構4.1研究背景與目的OD矩陣是在線交通控製、動態交通分配以及實時路徑誘導等係統的重要輸入信息,這些應用通常要求以較短的時間周期對OD矩陣進行更新。OD矩陣可以分為靜態OD矩陣和動態OD矩陣。靜態OD矩陣通常是指交通路網中各起訖點間,在較長時間間隔內出行的數量,是進行城市交通規劃與管理、公路網規劃與管理的基本依據;動態OD矩陣通常是指在較短時間間隔內交通路網中各起訖點間出行的數量。然而,傳統的靜態OD估計方法並不能滿足實時更新OD矩陣的要求,這就需要發展動態OD估計方法,因為動態OD更能反映交通流和交通出行的時變特征。經過幾十年的探索,研究者已經提出了多種動態OD估計的模型,其中一些模型已經在實際中得到應用。

定點檢測器主要檢測道路橫斷麵的各種交通流參數,如交通量、瞬時速度、時間占有率等,能夠為局部範圍的交通管理提供幫助;AVI(AutomaticVehicleIdentification)數據一般包括車輛的ID、車速和通過時間等信息,可以獲得傳統檢測設備無法獲取的單個車輛的OD及路徑。這兩種數據的融合能夠有效提升檢測的深度與廣度,同時,通過數據間的相互比較可以剔除異常數據,從而使獲得的信息更加全麵、可靠。因此,基於定點檢測數據與AVI數據融合對車輛路徑進行重構,進而估計城市路網動態OD與出行路徑也成為交通多源數據融合研究的熱點之一。

本章主要提出了基於時空一致性的車輛路徑重構模型[1-3]。該模型以車輛部分路徑數據為切入點,研究了車輛部分路徑信息與完整路徑選擇之間的關係,深入分析了AVI數據和環形線圈數據在車輛完整路徑判斷方麵的內在關聯,並以此為基礎求解並更新車輛選擇各可能路徑的概率,最終估計出所有車輛的完整路徑。在獲取完整車輛路徑的基礎上,通過進一步分析計算,得到研究路網的靜態OD矩陣。基於靜態OD估計的結果,同時結合車輛部分路徑信息、動態行程時間信息以及檢測器可測性(measurability)判據,通過改進的粒子濾波算法,從微觀的視角對路網中任意車輛的起訖點以及進入路網的時間進行估計,然後將路段檢測流量作為輔助參數校正OD估計結果,最終獲得較高精度的動態OD矩陣。最後立足於AVI係統將在我國逐步應用這一現實,本章又基於AVI部分路段數據對宏微觀混合框架下車輛完整路徑的重構問題進行了討論[4-6]。

4.2研究綜述首先介紹了國內外OD估計技術的發展,特別是近期在AVI環境下的OD估計方法的進展;然後分析了粒子濾波算法在目標軌跡分析及路徑重構中的應用;最後重點綜述了當前·96·第4章城市路網動態OD估計和路徑重構研究文獻中用AVI部分路徑數據進行車輛路徑重構,進而獲取OD矩陣的研究方法。

4.2.1OD估計模型研究傳統意義上的OD矩陣估計是利用環形線圈檢測到的路段流量與OD對之間存在的交通分配關係[7],通過一定的數學方法來求解OD矩陣的最優解,如式(41)所示:Va=41ijpijaTij()式中,Va表示路段a的流量;pija表示從起點i至終點j的出行中經過路段a的比例;Tij表示從起點i至終點j的起訖總量。

在OD矩陣估計的研究中,傳統的三類方法是最小二乘法、極大似然估計法和卡爾曼濾波法。隨著智能算法以及交通流理論研究的深入,也出現了一些新的OD矩陣估計的研究方法,例如Pohlmann,Friedrich[7]在整合OD估計流量、路徑數據以及道路流量三部分數據的基礎上,嚐試了對短期OD進行預測[8]。

在國內,對OD估計的研究大多數是結合我國實際的出行情況,對經典OD估計方法進行改進。其中有很大一部分研究是以交通的時空機理為出發點,運用多種數據處理方法對OD進行估計。例如,常雲濤[9]在時空分析中引入交通流“時空帶”的概念,並在此基礎上,結合最小二乘法建立了動態OD矩陣估計模型,而且利用快速路數據進行了算法的驗證;楊曉光等[10]利用馬爾科夫理論對城市道路網絡進行了建模分析,將路段流量、轉彎比例、小區發生吸引量等參數聯係起來進行OD矩陣的估計。

近年來,隨著車輛自動識別係統的發展,為OD估計和路徑重構提供了新的數據來源,也為OD估計和路徑重構新研究方法的提出創造了可能性。例如Dixon,Rilett[11]以動態OD估計為目的對車輛自動識別係統的布設及市場占有率進行了相關分析,結果表明,隨著AVI設施覆蓋率的增加,OD估計的精度將顯著提高。Kwon,Varaiya[12]則應用了類似於AVI數據的電子收費數據,較早地利用部分路徑數據,通過源於矩陣無偏估計的數理統計方法來獲得車輛完整路徑和OD矩陣。Barceló等[13]將AVI數據視作一個可以獲取行程時間以及額外交通量的統計數據,利用卡爾曼濾波法進行OD估計及行程時間的預測。

目前國內對於利用AVI數據進行OD估計及路徑重構的研究還未完全展開,相關的研究文獻也較少。魏靜[14]在100%AVI覆蓋率的條件下,根據檢測器的檢測誤差對部分路徑數據進行分類,然後分別通過最短路模型、神經網絡模型和轉向率算法獲得的路徑與車輛部分路徑進行匹配,最終獲得車輛路徑和OD數據。陳大山等[15]通過快速路上布設的虛擬AVI,假定前後時段的OD之間存在某種必然的關係,用神經網絡與卡爾曼濾波相結合的方法對車輛完整路徑和OD矩陣進行求解。

可以看出,隨著AVI技術的快速推廣,結合AVI數據進行OD估計和路徑重構的研究日益增多,諸多的研究均證明了AVI數據能顯著地提升OD估計的精度,且提升的效果取決於AVI數據是否充足。但是,當前結合AVI數據的OD估計和路徑重構研究仍然存在以下三個問題:·97·基於多源數據融合的城市道路交通控製與管理(1)AVI數據仍然是傳統線圈檢測數據的附屬屬性,僅作為未布設傳統線圈檢測器路段的數據補充。

(2)方法理論並未有所突破。目前的研究主要是沿襲了傳統的三類OD矩陣估計方法,或者是對傳統的方法在更豐富的數據條件下進行了改進。

(3)研究對象依舊以現實中的小型路網或虛擬路網為主,並未對現實中的較大路網進行分析。

4.2.2粒子濾波在軌跡追蹤中的應用對於線性高斯狀態空間模型,卡爾曼濾波就是最優濾波器;但對於實際中出現的非線性非高斯狀態空間模型,則應當使用蒙特卡洛濾波方法,這種濾波方法現在通稱為粒子濾波。

粒子濾波(ParticleFilter)算法在移動目標軌跡追蹤方麵的應用在國內外均有較為成熟的研究,這些研究主要集中於方位追蹤、視覺跟蹤以及多目標追蹤等領域。Salmond和Birch[16]根據粒子濾波的原理,提出了檢測前跟蹤目標的方法框架,證明了粒子濾波方法在預判跟蹤目標軌跡方麵的可行性。Hue等[17]在視頻環境下對動態圖像追蹤的研究中,通過改進經典的粒子濾波模型,同時跟蹤多個動態目標,獲得了多個目標的移動軌跡。Schulz等[18]也通過粒子濾波的方法進行了相關的研究。國內目前對粒子濾波的研究也不鮮見,研究主要集中在以軍事為代表的對多目標的追蹤以及軌跡判斷的研究上。胡邵華等[19]考慮到軌跡數據的多維特性容易造成在標準粒子濾波計算過程中計算時間較長的問題,結合神經網絡的編碼方法,提高了目標軌跡的計算效率。章飛等[20]在經典的粒子濾波基礎上,通過小波變換的方法,優化新生粒子集,在目標跟蹤過程中,不但保障了對目標軌跡的跟蹤,同時也提高了粒子濾波的計算效率。

以卡爾曼濾波方法為代表的線性高斯狀態空間模型在解決非線性非高斯狀態空間問題時,存在兩個固有問題[21-22]:①研究對象的初始狀態空間需滿足正態分布;②求解對象是線性係統。盡管擴展卡爾曼濾波(EKF)在解決非線性問題時采取了近似的方法,但在麵對第一個問題時,特別是麵向軌跡重構的問題時,初始狀態往往有多個概率相同的可能路徑或方向向量。因此在路徑重構問題時,初始狀態空間往往存在多個峰值,無法滿足初始狀態為正態分布的要求。

粒子濾波由於其在非線性係統中具有良好的效果,因此在多維目標追蹤及軌跡重構中獲得了廣泛的應用。粒子濾波在路徑軌跡的追蹤、重構等方麵具有非常重要的應用意義,對於本文所研究的車輛路徑重構問題,粒子濾波具有其特殊的優勢。

4.2.3基於AVI采集路徑信息下的車輛OD估計和路徑重構AVI數據具有一些獨特性質,通過它可以獲得包括車輛ID(如車輛牌照)、到達時間以及所在位置的微觀數據。目前已有研究[23]通過數字匹配的方法,提高了車輛識別的精度,從而使車輛微觀數據獲取的精度迅速提高,而且數據規模趨向海量。

由於AVI數據在提高車輛識別精度方麵有顯著效果,它的出現將傳統檢測手段中無法獲得的車輛路徑變成了可能。孫劍,馮羽[1-2]在對車輛OD的研究中,就嚐試了在快速路中通過粒子濾波的方法獲取車輛路徑來求解車輛OD的方法,並探討了車輛OD的獲取精度與AVI布設覆蓋率的關係。Teknomo,Fernandez[24]將路徑信息輸入一組類線性代數方程·98·第4章城市路網動態OD估計和路徑重構中來表示OD矩陣與路徑之間的關係,然後求解得到OD矩陣,同時還獲得了流量矩陣,作者在研究中還明確指出,通過追蹤設備所獲得的路徑信息可以作為車輛OD估計和路徑流分析的一個重要輸入。

以上研究均證實了利用AVI的路徑數據求解車輛路徑及OD矩陣可能是一種新的研究途徑。由於車輛路徑軌跡數據給近年來的研究提供了很大的便利,當前的研究方法呈現出兩種趨勢:(1)研究的方法從數學建模轉向基於海量數據的數理統計分析。傳統的研究通過對交通係統的建模來分析係統的變化情況,事實上極易造成係統描述的失真。Watts[25]在Nature雜誌上提出在對海量的數據進行客觀分析的基礎上來尋找問題的求解,這將可能成為在21世紀中研究網絡係統的一個重要的方法。魏靜[14]及孫劍,馮羽[1]的研究間接地表明了利用車輛路徑求解大規模城市路網OD的可能性。孫劍,馮羽[2],Teknomo,Fernandez[24]在其研究OD估計和路徑重構的過程中均采用了以貝葉斯估計為代表的概率論方法作為計算的基礎。

(2)研究對象從傳統的線圈流量等宏觀數據逐步向路徑數據與流量數據的混合使用進行過渡。Teknomo,Fernandez[24]在研究中就已明確指出了部分路徑完全可以用於車輛OD的估計,並且在提升傳統OD估計的效率上具有明顯的作用。這些研究說明,通過合理利用AVI的車輛路徑信息,研究者完全有可能通過車輛的路徑重構來求解OD,同時也能得到車輛的完整行駛軌跡。

AVI的車輛部分路徑為研究車輛OD以及路徑重構提供了新的數據及研究思路,但仍然還有兩個客觀問題需要解決:(1)曆史OD及路徑數據的獲得非常困難。由於我國出行OD調查間隔時間長、抽樣率低,很多城市往往缺乏關鍵的曆史交通需求數據。但當前的絕大多數方法如果離開曆史交通數據,就無法通過計算獲得一個可靠的OD矩陣。

(2)檢測設施覆蓋率有限。AVI設施的布局方案與覆蓋率受到資金限製、安裝條件等約束,不可能在路網上進行全麵布設,因此對AVI設施的布局和覆蓋率進行研究非常有必要。

4.3全時空車輛路徑重構模型及OD估計方法主要介紹了基於粒子濾波思想的車輛路徑重構框架。針對AVI檢測係統與傳統定點檢測係統數據的異同,研究了基於時空一致性的車輛路徑重構模型。該模型首先對定點檢測數據和AVI數據進行有效地融合,然後以被測車輛的部分路徑數據為基礎,通過對車輛在時間及空間中動態演變過程的解析,分析並更新車輛可能路徑的後驗概率來完成行駛路徑的重構。在獲取完整車輛路徑的基礎上,進一步可以統計分析並獲取車輛靜態及動態OD矩陣[3]。

4.3.1基本思想非線性非高斯狀態空間模型的最優估計在信號處理、自動控製、金融、無線通訊等領域均有廣泛的應用。其基本任務就是通過受噪聲汙染的觀測信息去遞推和估計不可預測的係統狀態,該係統被稱為動態狀態空間模型,其基本形式如式(42)及式(43)所示:·99·基於多源數據融合的城市道路交通控製與管理x+1=f(x,v)()k

kk4

2()yk=h(x,w)k

k4

3式中,xk為k時刻的係統空間狀態;yk為k時刻的係統觀測量;vk為k時刻的狀態噪聲;wk為k時刻的觀測噪聲。

在實際應用中處理非線性非高斯狀態空間模型時,應當使用粒子濾波方法。在貝葉斯框架下,最優濾波就是基於所有量測信息來構造狀態的後驗概率分布函數(PosteriorProbabilityFunction,PDF)。其中狀態的各種估計值(如均值、方差等),均可以從PDF中獲得[26]。在蒙特卡洛濾波器[27]中,權重粒子的後驗概率密度函數可以通過式(44)來表示^(x)=p0:ty1:t

1NNδx(i)(dx0:t)(44)0:ti=1式中,隨機樣本粒子{x(i),i=1,2,3,…,N}通過式(44)後驗概率計算獲得;y表示基於時0:t1:t間序列從1~t的量測值;δx(i)(dx0:t)代表狄拉克δ函數。

0:t因此,任何粒子的期望可以表述為((0:))∫

(0:)(0:1:)0:Egtxt=gtxtpxtd

ytxti

ii式中,g(xi:)表示基於時變的任意非線性函數。

t0t期望可以近似表示為N

((0:))(0:)Ni=1Egtxit=1

gtx(t)i

(45)(46)粒子濾波算法利用粒子集表示不同狀態的概率,可以用於不同形式下的狀態空間模型。

其核心思想是通過在後驗概率中抽取的隨機狀態粒子來表示其分布,基於連續重采樣的思想(SequentialImportanceSampling,SIS),通過一組在空間狀態中存在的狀態粒子對概率密度函數進行擬合,以樣本均值代替積分運算,進而獲得最小方差分布的過程。

粒子濾波算法的研究及發展已有近60年的時間。盡管算法中獲得的概率分布隻是其真實分布的一種近似,但是其非參數化的特性較好地擺脫了非線性濾波問題中隨機變量需滿足高斯分布的製約,使其對參數變量的非線性特性具有更強的建模能力。基於其在非線性、非高斯係統表現出來的優越性,粒子濾波算法目前在對象追蹤等領域已經取得了廣泛的應用。

經典的粒子濾波算法通常可以分為4個階段。

1.初始化粒子群對粒子群的個數、各個粒子的狀態和先驗概率密度進行初始化。

2.重要性采樣重要性采樣是指根據捕捉對象的已知特征,例如目標最後出現的時刻、所在的位置等時空特征以及對象的顏色、大小等客觀特征,對所有粒子對應對象的可能運行軌跡,判斷其特征與可能軌跡特征相似程度的方法。在本章中研究車輛的運行軌跡就采取研究已知車輛部分軌跡的時空特征與所有可能運行軌跡的時空特征相符程度的方法。

·100·第4章城市路網動態OD估計和路徑重構3.重采樣過程根據重要性采樣得到粒子權重,通過獲得N個粒子的隨機樣本,令每個權重粒子的後驗概率密度分布服從重要性采樣中所計算獲得的後驗概率分布,也就是使其近似滿足真實的後驗概率分布。根據重要性采樣中獲得的後驗概率曲線,往往難以滿足概率分布中高斯分布的要求,因而需要通過更新可能區間,重新進行重要性采樣過程。根據重要性采樣中獲得的後驗概率密度函數,對權重大的增加粒子比重,對權重小的減少粒子比重,重新獲得N個隨機粒子,更新所有粒子的權重。

4.結果輸出因為粒子濾波屬於典型的蒙特卡洛濾波,因此,其後驗概率密度函數可以以所有粒子的後驗概率分布來近似表示。

在粒子更新過程中,對於非線性非高斯初始概率函數而言,通過觀測變量y0:t,在時間序列的變化,當係統趨於穩定的單峰值分布,如高斯分布時,將終止計算。其典型計算步驟往往是(1)—(2)—(3)—(2)—(3)…(4)。這些構成時空連續的重要性采樣。在常見的軌跡追蹤研究中,便是利用研究對象的瞬時速度、方向向量等基於時間序列的變化來更新粒子權重,從而進行位置預測等應用。

圖41為標準粒子濾波案例圖示,將進一步解釋標準粒子濾波算法中的實際處理過程。

41,

10,

-1時刻的先驗概率為1。

-1如圖所示初始狀態下共個粒子其t根據觀測變量yt分

10析粒子後驗概率密度函數更新所有粒子權重t(i)並計算歸一化後的粒子權重在新的後,

w-1,

,驗概率密度函數中重新隨機獲得10個粒子並將10個粒子的賦值概率初始化為1。

其中在,

10原t-1時段,權重較高的區域增加粒子進行計算,在權重較低的區域減少粒子或增加粒子進行計算。並根據t時段的觀測變量yt更新為新的粒子權重wt(i),當概率密度分布函數趨於單峰函數時停止計算,求得結果。在目標追蹤中,則將上一時刻目標所處位置的周邊作為權重較大的區域,在這些範圍內多投擲粒子進行權重計算,從而實時預測或追蹤下一時刻的目標位置。

圖41標準粒子濾波案例圖示·101·基於多源數據融合的城市道路交通控製與管理4.3.2基於時空一致性的車輛路徑重構模型4.3.2.1計算過程根據圖論理論,可以將任何一個交通網絡視為自由節點、路段所構成的拓撲網絡,其數學表達可以表示為G(L,N)。其中L表示為路段(Link),N表示為節點(Node)。根據圖論對網絡的解釋,車輛路徑的時空一致性在文中定義為:當車輛進入路網後,其依次經過的節點以及到達節點的時刻,分別構成車輛的空間維度以及時間維度,任意一個空間維度隻對應唯一的時間維度。

以圖42中AVI采集的數據為例,當車輛A經過安裝有AVI設施的道路時,車輛A的牌照信息、地點速度信息、到達檢測器的時間信息將被采集。其獲得的數據形式如表41所示。

圖42AVI數據采集示例表41AVI的數據采集的樣式車輛牌照地點車速到達時間AVI布設位置No.1V1T1X1No.2V2T2X2No.3V3T3X3…

……

…根據表41分析可知,通過對車輛的到達位置與到達時間分別進行串聯,便可分別獲得相應空間維的運行軌跡以及時間維的行程時間。因此理論上通過AVI信息獲得的運行軌跡數據以及行程時間數據,可以推測任意車輛的真實運行軌跡以及完整的OD數據。但是受投資資金、布設環境以及檢測器本身存在的檢測誤差,獲取完整的路徑在現實中幾乎不可能,而僅可以獲得車輛的部分路徑采樣信息。因此本章根據AVI數據的特性,結合粒子濾·102·第4章城市路網動態OD估計和路徑重構波方法的原理,研究路徑重構的理論框架,並提出了基於時空一致性的路徑重構模型[3]。

區別於軌跡追蹤中將軌跡追尋區域網格化,將粒子投入網格中,判斷目標軌跡到達該網格的可能性的方法,在本章車輛軌跡重構中,將交通網絡中所有起訖點的合理路徑群作為粒子,根據不同的客觀數據及經驗判斷,調整粒子聚集路徑,獲得最終的粒子集聚情況,並根據粒子的集聚數目獲得最終的期望完整路徑,即“真實”路徑。

車輛在交通網絡運行時存在空間及時間兩個維度的變化,因此模型分別從空間及時間兩個維度,對AVI中捕獲的部分路徑進行重構,其核心是通過構建可能路徑粒子群,對檢測信息連續采樣,分別計算路徑一致性、行程時間一致性、車輛的可測性判據、引力流量模型及路段路徑流量匹配模型,重複更新可能路徑粒子群的後驗概率,獲取逼近真實狀態分布的後驗概率函數,最後通過蒙特卡洛仿真(MonteCarloSimulation)獲得最終路徑。如圖43所示,根據更新維度的區別,路徑一致性、引力流量模型以及路段路徑流量匹配,屬於空間一致性的概率更新過程;行程時間一致性與車輛可測性判據,屬於時間一致性的概率更新過程。通過對車輛部分路徑中的5個客觀特征進行重采樣過程,逐漸逼近最終的“真實”路徑。

圖43時空一致性修正因子綜上所述,麵向車輛路徑重構的類粒子濾波的算法偽碼如下所示:Step1:初始化粒子群x1,x2,…,xN令x1,x2,…,xN為初始粒子群,P(x1),P(x2),…,P(xN)表示為所有粒子的先驗概率。本章在無曆史信息條件下,所有粒子的初始概率可以定義為N1,N代表粒子群的數目。

在交通網絡小區確定後,應用優化的深度優先搜索方法(OptimizationDeepFirstSearch,ODFS),獲得各小區之間所有可能路徑。其中深度優先搜索方法將在第4.3.2.2節中進行詳細介紹。

Step2:第一次重要性采樣(路徑一致性采樣)Fori=1,2,…,N令所有完整粒子的概率分布服從初始重要性密度函數,即所有粒子服從均勻密度函數·103·基於多源數據融合的城市道路交通控製與管理。

,(i)(i)(i))。

(i)~

分布w0~q0(x+x:+^x初始粒子權重服從先驗密度函數可以表示為ttttt以

1(:

,:)

qx+(i)1

x+y+來表示粒子服從路徑一致性更新概率密度函數令粒子群後驗概率ttttttttx^:+~

(x,x^+),(i)(i)(i)其中路徑一致性概率密度函數主要根據車輛軌跡的拓撲一分布服從tttt

tΔt致性來分析,服從01

分布,具體更新過程詳見第4.3.2.3節。

47基於路徑一致性粒子權重更新如式()所示。

ii

Pytt+tx^(i)Px^(i)x(i)()()(

:1)(10)(

)W1=W0×

(i)

(i))

q(10

,:47x^x

ytt+t式中,W1(i)表示第i條可能路徑經過路徑一致性更新後的非歸一化權重;W0(i)表示第i條可能路徑的初始先驗權重,無曆史信息前提下服從均勻分布;yt:t+Δt表示從t時刻開始至計算時間區間t之間所采集的客觀數據或經驗判據;t是指開始獲取該部分路徑集的時刻,t為一動態值,取決於需要獲取多長時段內的車輛完整路徑;x^(i)表示車輛選擇可能路徑i的粒1

0;(:1)子空間狀態x(i)表示初始可能路徑為i的粒子Pytt+t|^x(i)表示基於路徑一致性選擇可能路徑i的概率;P(x(i)|x(i))表示從先驗信息向路徑一致性的轉移概率,對於同一路徑10i,不存在時間及空間上的轉移關係,因此本式的狀態轉移概率表示為1;對其他的時空影響因子同一路徑i的狀態轉移概率均為qx^(i)|x(i)yt+t表示在路徑一致性條件下可能,

1;(10,),

路徑i為選擇路徑的事件發生先驗的概率密度函數。

區別於傳統的粒子濾波,將非歸一化權重更新為歸一化權重的方法,在時空一致性中存在5個修正因子。因此為了簡化計算過程,不對每次重采樣後的粒子權重進行歸一化的計算,但對所有的N個可能路徑粒子,根據更新權重進行粒子集聚計算。粒子集聚計算如式(48)所示。

iW(i)48()1

()

N1=

NN

(i)W1i=1式中,N1(i)表示經過路徑一致性更新後,可能路徑i的粒子集聚數量。Step3:第二次重要性采樣(時間一致性采樣)令剩餘的可能路徑集合表示為1,2,…,N″。

Fori=1,2,…,N''''將Step2中概率為0的可能路徑去除粒子,剩餘的可能路徑根據式(48)進行粒子集聚,

,w1~q1(x+x:+),x^~q2(x+|x:+,計算剩餘粒子服從概率分布表示為(i)(i)(i)以

(i)tt(i)tttttttty2)來表示粒子服從行程時間一致性概率密度函數。具體計算過程詳見第4.3.2.4節。

t:t+t基於行程時間一致性粒子權重更新如式(49)所示。

ii

Pytt+t|x^(i)Px^(i)|x(i)()()(:2)(21

)(

)W2=W1×

(i)(i)q(21

,:)49x^|xytt+t式中,W(i)表示第i條可能路徑經過行程時間一致性更新後非歸一化權重;^x(i)表示基於車22輛行程時間滿足可能路徑i的狀態Pytt+t|x^(i)表示基於行程時間一致性選擇可能路徑;(:2)i的概率q^x(i)|x(i)yt+t表示在行程時間一致性條件下可能路徑i為選擇路徑的事件;(21,),

·104·第4章城市路網動態OD估計和路徑重構發生先驗的概率密度函數。

410根據不同路徑權重更新,以式()更新粒子集聚。

iW(i)410()2

()

N2=

N''''N

(i)W2i=1式中,N2(i)為經過行程時間一致性更新後,可能路徑i的粒子集聚數量。

Step4:第三次重要性采樣(車輛可測性判據采樣)i

,,…,N″For=12可測性判據是基於車輛未被檢測器檢測到的逆向推理過程。令經過Step3權重計算的,,…,N″,,w2~q2(x+|可能路徑集合表示為12剩餘可能路徑服從概率分布表示為(i)(i):

tt:

),(i)q3(,:)

(i)(i)2

x+x^~x+|x+y+通過ttt以tttttttt來表示粒子服從可測性判據的概率密度函數計算車輛到達的第一個AVI或最後一個AVI到達其所有相鄰的AVI的行程時間,並且考慮AVI的檢測誤差,判斷車輛到達各相鄰AVI的可能性,並更新可能路徑的概率。具體的可測性判據分析過程詳見第4.3.2.4節。

基於可測性判據權重更新如式(411)所示。

ii

Pytt+t|x^(i)Px^(i)|x(i)()()(:3)(32

)4

11W3=W2x^|x^ytt+t(i)(i)()q(32,:)式中,W(i)表示第i條可能路徑經過可測性判據更新後非歸一化權重;^x(i)表示基於可測性33;(:3)判據選擇滿足可能路徑i的狀態Pytt+t|x^(i)表示基於可測性判據選擇可能路徑i的概;(32,)

,率qx^(i)|x(i)yt+t表示在可測性判據存在的條件下可能路徑i為選擇路徑的事件發生先驗的概率密度函數。

412根據不同路徑權重更新,以式()更新粒子聚集i

W(i)412()3

()

N3=

N''''N

(i)W3i=1式中,N3(i)為經過可測性判據更新後,可能路徑i的粒子集聚數量。

Step5:第四次重要性采樣(引力流量模型采樣)i

,,…,N''''''''''''For=1212Step4令經過權重計算的可能路徑集合表示為,,…,N''''''''''''。剩餘可能路徑服從概率3

q3((i):),(i)q4(:

,:)(i)(i)(i)2

分布w

~x+|x+x^~

x+|x+y+ttttt以tttttttt來表示粒子服從引力流量模型的概率密度函數。引力流量模型通過對物理學中的重力模型進行改進,並參考重力模型在交通分布中的應用,考慮流量大小與路徑遠近對車輛路徑行為選擇的影響。通過計算各可能路徑起點到部分路徑起點的“引力”以及各部分路徑終點到各可能路徑終點的“引力”,然後更新所有可能路徑的後驗概率。引力流量模型的具體計算過程詳見第4.3.2.3節。

基於引力流量模型權重更新如式(413)所示。

ii

Pytt+t|x^(i)Px^(i)|x(i)()()(:4)(43

)4

13W4=W3x^|xytt+t(i)(i))

()q(43,:·105·基於多源數據融合的城市道路交通控製與管理式中,W(i)表示第i條可能路徑經過引力流量模型更新後非歸一化權重;^x(i)表示基於引44;(:4

)力

流量模型滿足可能路徑i的空間狀態Pytt+t|x^(i)表示基於引力流量模型選擇可能;(43,),

路徑i的概率qx^(i)|x(i)yt+t表示在引力流量模型條件下可能路徑i為選擇路徑的事件發生先驗的概率密度函數。

414根據不同路徑權重更新,以式()更新粒子聚集:i

W(i)414()4

()

N4=

N''''N

(i)W4i=1式中,N4(i)為經過引力流量模型更新後,可能路徑i的粒子集聚數量。

Step6:第五次重要性采樣(路段路徑流量匹配采樣)i

,,…,N''''''''''''''''For=1212Step5令經過4

權重計算的可能路徑集合表示為,,…,N'''''''''''''''',剩餘可能路徑服從概率分,

q4((i):),(i)q5(:

,:)(i)(i)(i)2

布表示為w

~x+|x+以

x^~x+|x+y+ttttttttttttt來表示粒子服從路徑路段流量匹配的概率密度函數。路徑路段流量匹配的方法源自於圖論中基於容量的可靠路徑的計算思想,車輛路徑的選擇可以通過實際路段流量大小反映。路徑路段流量匹配的方法詳見第4.3.2.3節。

基於路段路徑流量匹配權重更新如式(415)所示。

ii

Pytt+t|x^(i)Px^(i)|x(i)()()(:5)(54

)4

15W5=W4x^|xytt+t(i)(i)()q(54,:)式中,W(i)表示第i條可能路徑經過路段路徑流量匹配更新後非歸一化權重;x^(i)表示基55;(:5)於路段路徑流量模型滿足可能路徑i的空間狀態Pytt+t|x^(i)表示基於路段路徑流量;(54

,),

模型選擇可能路徑i的概率qx^(i)|x(i)yt+t表示在路段路徑流量模型條件下可能路徑i為選擇路徑的事件發生的先驗概率密度函數。

416根據不同路徑權重更新,以式()更新粒子聚集:i

W(i)416()5

()

N5=

N''''N

(i)W5i=1式中,N5(i)為經過路徑路段流量匹配更新後,可能路徑i的粒子集聚數量。

Step7:結果的輸出(“真實”路徑的輸出)根據第4.3.1節,所有可能路徑的後驗概率可以表示為^

PXtt+t|ytt+t^PXtt+t|ytt+t=1NδX()iXt∶t+t(::

)(::)Ni=()()()≈

d4171