今天數(shù)據(jù)正在以前所未有的速度產(chǎn)生,每一個新的技術都將進一步推動這種趨勢。物聯(lián)網(wǎng)(IoT)、機器學習和醫(yī)療保健數(shù)字化,產(chǎn)生數(shù)據(jù)的速度很快就達到每秒數(shù)百萬千兆字節(jié)。根據(jù)IMB的一項研究,自動駕駛汽車也將很快加入——到2020年每秒將生成350MB的數(shù)據(jù)。
數(shù)據(jù)的產(chǎn)生與收集已經(jīng)在企業(yè)中根深蒂固,時刻上演著大量數(shù)居的記錄與分析。但是,這些數(shù)據(jù)的存儲庫并不總是結構化和一致的。事實上,未知的和未使用的數(shù)據(jù)催生了一個新的術語——“黑暗數(shù)據(jù)”。
如果我們不改變存儲、管理、結構和分析數(shù)據(jù)的方式,大部分數(shù)據(jù)都將變得毫無價值。IMB同一研究表明,今天收集的所有數(shù)據(jù)中有80%是“黑暗的”,也就是說,這些數(shù)據(jù)是無效和不連貫的。未來數(shù)據(jù)量越大,“黑暗數(shù)據(jù)”引發(fā)的黑洞也就越大,導致的問題與挑戰(zhàn)就越嚴重。
存儲和安全
最大的挑戰(zhàn)是,“黑暗數(shù)據(jù)”不僅難以分析,而且也容易導致存儲問題。大量的非結構化數(shù)據(jù)——MS Office文件、即時消息、電子郵件、社交媒體帖子等形式獲得的數(shù)據(jù)就屬于此范疇。