第一百九十一章 大數據(1 / 2)

“大家喜歡看那些博人眼球的東西,所以寫這些東西的自媒體就更容易存活下來。

而那些秉持著職業操守的自媒體,專注報道那些無聊的真相的自媒體,能夠存活的萬中無一,因為大家不愛看這些東西。

而我們這次要找的就是這種沒有發財相的自媒體。”

陳丹青稍微停頓了一下然後繼續說道:

“你建立一個大數據模型,從這些新聞中提取關鍵字。

需要控製的變量除了這些對自媒體的要求以外,再加入雪茄這家店涉及的勢力以及它所服務過的各類客戶涉及的勢力。

最後篩選出重疊度最高的那個,它大概率就是我們要找的目標了!”

其實陳丹青使用的方法就是大數據搜索,隻不過這次的獵人與獵物的身份互調。

普通人成為了搜索方,而公司成為了被“殺熟”的對象。

這世上的繁華太多,總是幹擾人們的視線。

並不是因為真相它害羞,想要隱藏自己。

隻不過是每一種表象都有多種的理解。

同一件事物雖然表象相同,在不同的條件下意義便不同。

即便是同一件事物,同一個條件,不同的人去看,感覺到意義也並不相同,甚至是大相徑庭。

信息傳遞上的差異導致人對於世界的理解出現偏差。

而複雜且多樣的表象又將這種偏差放大。

更有甚者為了某些目的而故意引導這種偏差。

經過多次偏差疊加,最終獲得感覺便與真相相差甚遠。

這也就是為什麼人們總是感覺難以看見真相的原因。

但是,真相並沒有改變也沒有消失,無論人們看的見,看不見,它都在那裏,遵循著某種規律在那裏心無旁騖的運轉。

而它留下的痕跡就是人們追尋它的方法。

人會說謊,但是數據不會。

數據就是將真相留下的痕跡歸納收集所獲得的產物。

而這些數據中隱藏著表象之下的真相。

人們開始用數據尋找真相,這是一個巨大的進步。

因為這種方法將許多虛無縹緲的感覺可視化,依靠數據與提前製定好的標準比對。

這樣就能排除主觀的影響,能夠客觀的做出判斷。

但是這種方法也並非盡善盡美。

因為提前製定的標準是否準確,這是不一定的。

雖然可以通過大數據進行不斷的修正,但是標準很難保證萬無一失。

而且這個方法還有一個底層的問題。

那就是如何保證數據的準確性。

整個世界無時無刻不在發生著變化,它所產生的數據量是一個天文數字,以現在的科學手段根本無法完全處理。

為了解決這個問題,現在的數據都是經過一定步驟的篩選獲得的“有效數據”。

但是無論任何數據,隻要經過篩選,一定會丟失一部分信息。

有的時候,這些丟失的信息反而是那些最關鍵的信息。

那麼經過篩選之後的“有效信息”就會變成錯誤信息。

最後由這些信息得出的結論有極大的概率也是錯誤的,甚至有可能與真相完全相反。

所以使用大數據的手段來探求真相,最關鍵的有兩個方麵。

第一個就是盡可能多的使用原始數據。

舍棄的數據越少,丟失的信息也就越少,能夠得到的結論也就越接近真相。