大數據時代--思想政治教育環境新論59(1 / 2)

58

第二章?大數據的風險環境

大數據引發社會變革,思維模式產生革新。采集大數據,儲存大數據,分析大數據,企業家聯合科學研究者應用大數據技術投入教育領域,大數據洪流將會推動社會的新發展。但數據經濟剛剛起步,它的基礎結構還處在技術探索上,社會影響還沒有完全成為現實,隻可以看到它的輪廓。我們重視大數據的價值,同樣應該看到大數據的可能風險;我們重視大數據的挖掘、分析、應用,但同樣應該重視隱私的保護;我們重視儲存種種信息為教育服務,同樣應該考量遺忘的必要。

一、大數據的技術風險

大數據不僅麵臨著信息安全,還必須提前考慮它可能帶來的風險,大數據本身的技術風險就有這樣幾方麵:

1.數據的處理風險

之所以人類的認識比較零星細小,是由於人類對事物的認識更多是依靠實驗,今日調查行業、企業、研究者最大的危險是對全數據的迷信所帶來的風險。隨著各種分布式的緩存、文件係統、數據庫以及存儲方案等新技術的迅速普及,對於海量數據的計算能力可以解決,但這種處理方式本身都存在很大風險,還隻是關於數據處理的第一步,而數據分析層麵才是大數據最嚴重的風險。

隨著數據量源源不斷的持續增加,必然帶來不確定性的結果,很多不正確的數據會混入開放的數據庫。此外,大數據包括不同來源的信息,多樣混雜,增大出現混亂的概率,科學家和統計學者對此非常擔憂,指出因為無法處理非結構化的海量數據,麵對大數據時混亂、迷茫。大數據既包括更密集的信息,也帶來更多的錯誤關係,使我們很難找到真正的關聯,海量數據帶來顯著性檢驗的問題是現在數據挖掘的問題上麵臨的最大問題。當樣本膨脹到一定程度,是很難進行適當推論的,或者得出不正確的關係。而缺失數據的存在將會有可能導致虛假關係的增長,真相很難再接觸到。需要數據對事物的理解,但更需要堅持理論和分析方法不斷創新的原則,深刻的分析社會現象,客觀處理相關問題,掌握海量數據在大數據時代的複雜性。

大數據時代數據分析思維一下子轉變為分析全部的數據,收集所有樣本的信息讓數據自己說話在方法論上是狹隘的。數據量達到何種程度時可以認為是全數據是很難鑒定。通過變化能做出預測,但卻不能解釋變化的影響因素,使用大數據的簡單算法而可以允許不精確解決問題,要相關性不要因果關係是放棄抽樣而直接采用大數據的必然。

如果我們直接麵對大數據,而沒有對抽樣進行擬合,將使我們失去對人的了解、對規律的掌握,即使是穀歌流感預測案例也被很多人認為存在問題,而且不是所有的社會事實都像一場流感一樣易於預測,科學家通過比較互聯網進行流感搜索,相比實際的流感監測數據,最後發現互聯網流感搜索的穀歌流感趨勢高估了流感峰值水平。

2.數據的儲存風險

容量問題。大容量的數據現在可達到PB級的規模,因此存儲係統需要有相應的擴展能力。同時一定要簡便的擴展存儲係統,甚至不需要停機就可以增加容量,可以通過增加數據模塊或連接磁盤櫃來解決容量問題。

延遲問題。大數據應用需要解決實時性問題,大數據的應用環境導致很多時候需要設備具有較高的計算性能,普及了服務器虛擬化之後也需求高IOPS,為此各種高速緩存的產品都在蓬勃發展。

安全問題。某些特殊行業的應用都有自己的保密性和安全標準需求,都是IT管理者必須遵從的,在過去這種數據混合訪問的情況並不會有,但是大數據分析必須依靠多類數據相互參考,而一些安全性問題被日益活躍的大數據應用催生出來。

成本問題。成本控製是使用大數據環境的關鍵問題,想控製成本就意味著我們要讓每一台設備都減少那些昂貴的部件,同時還要實現更高的效率。在不斷增長的數據量環境中,通過哪怕隻是降低幾個百分點減少消耗後端存儲的數量,這種錙銖必較的服務都能夠獲得明顯的投資回報,當今數據中心使用的傳統引導驅動器不僅具有較高的維修和更換成本,而且故障率高。

數據的積累。許多大數據應用都會遵從法規,通常這些法規要求數據要保存幾年或者幾十年。任何數據都是昔日曆史的一部分記錄,而且分析數據一般基於固定時間段。要實現數據保存的期限,涉及法規問題,就要求存儲廠商開發出能夠儲存性能更高的設備,具備持續進行數據一致性檢測的功能,以及其他保證長期可用的高質特性,同時還要實現數據更新的功能需求。

靈活性。大數據存儲係統具有較大的規模,必須精細設計,才能確保係統的靈活使用,可以應用分析軟件進行擴容。大數據存儲環境中因為數據會同時保存在多個部署站點,數據遷移已經沒有必要再做了。一旦開始投入使用一個大型的數據存儲,基礎設施不容易隨時調整,因此需要適應各種各樣的應用類型和多變的數據場景。