正文 大數據謬誤(1 / 1)

大數據謬誤

董事學院

作者:編譯/郭旦旦

數據分析與“大數據”似乎誓要徹底改變市場。如今,大多數公司都坐擁“成噸”的數據:財務數據、移動數據、交易數據、客戶研究數據、行為數據、社交媒體數據等。再加上新的分析技術與計算機、即時互聯網資源,產生了能夠顛覆遊戲規則的強有力工具。然而,分析“大數據”所能產生的作用有些被誇大了。事實上,“馴服”大數據仍然是一件麻煩而且費力的事情。有些時候,對大數據天花亂墜的宣傳導致虛假的預期,以為很容易就能利用大數據做這做那,最終反而得不償失。

麵對大數據,我們應該保持清醒的認識,尤其是對以下最常見的謬誤:

1.大數據就是數據量大。大數據不是“大”,而是多元:大量、高頻、實時、來源廣泛。它們往往呈現顆粒狀,可以是個人的交易數據——某張信用卡在特定加油站支付了一筆汽油費。大數據不是一座山,而是一場沙塵暴,大量細小的沙粒直欲迷人眼。

2.你應該馬上引用大數據。不積矽步無以至千裏。分析大數據亦是如此。一開始,必須把精力集中在某一特定目標上,在囤積數據前,想清楚自己想用這些數據做什麼。

3.數據越顆粒狀越好。是不是實時的、顆粒狀的數據一定更有用?並不盡然。一場足球賽的第一個四分之一場不足以讓我們預測整場比賽的輸贏。實時數據有時候太過接近作出決策、決定的時間,不足以作為判斷的依據。有時候,我們不得不把思考的時間範疇放遠一些。

事實上,大數據往往充斥著大量的噪聲;頻率越高、範圍越小,噪聲越大。譬如,以分鍾計的數據就比以周計的數據噪聲更大,一個鎮的數據噪聲就比一個國家的大。精密度與精確度的概念是不同的。在分析大數據時,必須運用有效的方法剔除出噪聲。

4.大數據就是“好數據”。數據也有好壞之分。質量差的數據會有很多偏差與遺漏,最終導致分析判斷失誤。數據信息中存在很多被貼錯標簽的圖片與視頻,也有青少年隨便撰寫的文字,必須有一個智能的模型能夠辨別出大數據中質量好的數據作為分析判斷的依據。要分析大數據,首先必須明確分析範疇,在此框架內辨別哪些大數據在分析中必須用到,而哪些應該丟棄。

歸根究底,大數據與電腦、手機一樣,是一種工具,而且還是令人敬畏、可以改變遊戲規則的工具。不過,最重要的是,要給大數據套上韁繩,才能駕馭之,並為自己所用。