第162章 名偵探喬閔(1 / 2)

這種從大量信息中挖掘出知識的過程,稱作數據挖掘或者知識發現,這在地球上來說,是隨著計算機技術與信息技術的成熟而出現的新興學科,與傳統的數學有種千絲萬縷的關聯,卻又超出傳統數學的基本框架,算是現代應用數學的範疇。

之前曾經出現的蟻群算法,也是屬於現代應用數學的範疇,除此之外,有限元分析、神經網絡、小波分析與傅裏葉變換、深度學習等學科,都是屬於現代應用數學。

對喬閔而言,他並不喜歡現代應用數學,雖然,他不得不承認,與傳統的經典數學方法相比,現代應用數學方法有著無可比擬的強大優勢。以喬閔自身的角度而言,他認為,現代應用數學方法普遍缺乏數學的美感。然而,解決實際的工程問題,離不開這些現代應用數學方法,這確實是傳統數學領域內學者的無奈。

雖然不喜歡現代應用數學方法,但喬閔卻還是對幾種典型的算法與理論還是有一定程度了解的。畢竟,喜歡與否是一回事,強大與否是另外一回事。雖然醜了點,但是好使,也是好方法。

這次的事情,解決起來,說不難也不難,說不簡單也不簡單。為啥這麼說?從原理上來說,就是一個基於大數據的數據挖掘與知識發現問題,難點在於,知識的模式未知,該如何使用這些大數據呢?

黑衣組織興起於五十年前,仿佛一夜之間崛起的,在刺殺了妖族超過三位重要人物後,一時之間,名聲大振。而後五十年間,有超過四十位妖族重要人物被刺殺,其中包括青丘玉璃的父母在內。

在查閱了妖族的卷宗後,喬閔發現黑衣組織是一個組織非常嚴密,人員眾多的一個大型組織。

微微思索了一下,既然如此,喬閔決定采用數據可視化技術來尋找黑衣組織的蛛絲馬跡。而喬閔所依據的主要內容,就是每位妖族修士通過關卡門禁時遺留的記錄了。

先以青丘玉璃遇刺事件作為突破口吧。

青丘玉璃是在妖族白雲關附近被行刺的,白雲關附近還有三個關卡,喬閔於是查詢了這四個關卡一天之內所有修士的進出數據,總共十萬條記錄,還好,數量並不是非常大。

這十萬條記錄,就是線索。喬閔查詢了這五萬條記錄對應的修士在事件發生前後三天的所有活動鏈,最終得到三萬三千條數據鏈。(十萬條記錄是以人次為單位的,而數據鏈,則是以人為單位的。)

這三萬三千條數據鏈,記錄了修士三萬三千名修士在青丘玉璃遇刺前後三天時間內的所有移動軌跡。

對於知識發現領域,有一個很重要的概念,相同目標的人,行為模式會具有極大的相似性。還有一個理念,就是數據絕不會說謊。

不過,這種數據鏈形式,行為模式的相似性被隱藏了,因此,需要對原始數據進行一定的信息處理。這個過程稱作數據降維。

對於數據降維,喬閔了解主成分分析、局部線性嵌入等。不過,最適合當前情況的,當屬分布鄰域嵌入算法了。算法的過程略,反正明白,這種數據降維算法非常強大,可以數據點之間的高維歐幾裏得距離轉換為表示相似性的條件概率,最終表現為,將一條數據鏈映射為二維平麵上的一個點上。

然後,四個時辰後,喬閔通過數據降維算法,三萬三千條數據變成了平麵內的三萬三千個點。喬閔拿著手上的這章耗費了巨大心裏的圖紙,仔細觀察起來。