正文 第三節 與眾不同的大數據(1 / 1)

有別於傳統數據源的大數據有不少重要的特征,不是每個大數據源都有這些特征存在,絕大多數的大數據或多或少地都存在一些這樣的特征。

第一個特征是大數據的來源往往是機器自動的結果。人工不會幹涉到新數據的產生過程,完全是機器自動的結果。如果拿傳統數據源進行分析的話,就會發現它們的形成過程中會有人工的痕跡,像是零售業和銀行交易、電話呼叫記錄、產品發票等等,和某個人做的事情都有關係,無論什麼情形,都會有人參與到新數據的形成過程中。可是大數據不是這樣產生的,它不會在產生過程中與人互動,像是引擎中內置的傳感器,即便沒有人幹預周圍數據也會自動生成。

第二個特征是大數據作為一個全新的數據源,不僅僅是已有數據的收集擴展,比如在互聯網中,顧客與銀行、零售商之間可以直接在線交易。事實上這種交易方式和傳統交易差異不大,不過是換一種渠道而已。企業通過收集網絡交易數據就會發現這樣情形下的數據和多年來他們得到的傳統數據差異不大,不過是數量增加了而已。如果收集的是客戶瀏覽行為的數據,那就會產生本質上全然不同的數據。

上麵提到的相同類型數據,不過是數量多了的說法也會因為達到另一個極端,成為最新的數據,比如說傳統讀電表都是人工方式,也就是說自動讀取用電數據的智能電表所產生的數據就是類型相同,不過是數量增加了。不過這種數據在某種程度上也能成為一種有別於人工讀取的數據,應用更為深層次的分析方式,這樣一來它們就可以稱作是新的數據源。

第三個特征是大數據中的大多數設計並非友好。實際上這些數據並未經過設計。就拿社交媒體網站上的文本流舉例,用戶不一定會被要求用標準的語序、語法和詞彙表。人們的信息一經發布,社交平台就能夠獲得數據。這些不太規範的數據處理起來還是有一定困難的。在設計之初,大多數的傳統數據都盡量要友好一些,就比如收集交易信息的係統最早生成數據會以整潔或是預先規範的方式來操作,這樣形成的數據就更有利於加載和使用。還有一部分原因是由於要對空間進行高效利用,以避免出現空間不夠的局麵。

大數據有時候還會是淩亂和醜陋的。通常最開始傳統數據就已經被嚴格地定義。每一比特的數據都存在重要的價值,這是必需的。一般大數據源一開始不會被嚴格定義,這和存儲空間的開銷越來越微乎其微有關,必須對各種有用的信息進行收集。所以說大數據分析的時候,各種淩亂醜陋的數據都有可能遇見。

最後的特征是海量數據並非有大量價值。實際的數據很多都是毫無價值的。在一篇網頁日誌當中,非常重要的數據就包含其中,當然也有好多沒價值的數據也在其中。很有必要從中提煉最有價值的部分。定義傳統數據源的起初就要求數據是百分百有用。這是因為可擴展性受到了限製,所以如果有沒價值的信息在當中的話代價會非常昂貴。除了最初定義的有數據記錄的格式外,數據內容和價值也被定義和約束了。當下存儲空間的問題已經不存在了。大數據所收集的是所有的信息,然後再去解決這些冗餘信息所帶來的問題。隻有這樣才會不遺漏所有的信息,與此同時在分析數據時的麻煩也會讓人頭疼不已。