大數(shù)據(jù)是什么意思?
安之若素
“大數(shù)據(jù)”是現(xiàn)在出現(xiàn)頻率非常高的一個(gè)詞,大家都說(shuō)現(xiàn)在是一個(gè)大數(shù)據(jù)時(shí)代,那么你知道大數(shù)據(jù)到底是什么意思嗎?下面小編就來(lái)跟大家說(shuō)一說(shuō)。
簡(jiǎn)要回答
大數(shù)據(jù)是指無(wú)法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。
詳細(xì)內(nèi)容
大數(shù)據(jù)(big data),IT行業(yè)術(shù)語(yǔ),是指無(wú)法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。在維克托·邁爾-舍恩伯格及肯尼斯·庫(kù)克耶編寫的《大數(shù)據(jù)時(shí)代》中大數(shù)據(jù)指不用隨機(jī)分析法(抽樣調(diào)查)這樣捷徑,而采用所有數(shù)據(jù)進(jìn)行分析處理。大數(shù)據(jù)的5V特點(diǎn)(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價(jià)值密度)、Veracity(真實(shí)性)。
麥肯錫全球研究所給出的定義是:一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價(jià)值密度低四大特征。
大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。換而言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的關(guān)鍵,在于提高對(duì)數(shù)據(jù)的“加工能力”,通過“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。從技術(shù)上看,大數(shù)據(jù)與云計(jì)算的關(guān)系就像一枚硬幣的正反面一樣密不可分。大數(shù)據(jù)必然無(wú)法用單臺(tái)的計(jì)算機(jī)進(jìn)行處理,必須采用分布式架構(gòu)。它的特色在于對(duì)海量數(shù)據(jù)進(jìn)行分布式數(shù)據(jù)挖掘。但它必須依托云計(jì)算的分布式處理、分布式數(shù)據(jù)庫(kù)和云存儲(chǔ)、虛擬化技術(shù)。
隨著云時(shí)代的來(lái)臨,大數(shù)據(jù)(Big data)也吸引了越來(lái)越多的關(guān)注。分析師團(tuán)隊(duì)認(rèn)為,大數(shù)據(jù)(Big data)通常用來(lái)形容一個(gè)公司創(chuàng)造的大量非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫(kù)用于分析時(shí)會(huì)花費(fèi)過多時(shí)間和金錢。大數(shù)據(jù)分析常和云計(jì)算聯(lián)系到一起,因?yàn)閷?shí)時(shí)的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來(lái)向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。大數(shù)據(jù)需要特殊的技術(shù),以有效地處理大量的容忍經(jīng)過時(shí)間內(nèi)的數(shù)據(jù)。適用于大數(shù)據(jù)的技術(shù),包括大規(guī)模并行處理(MPP)數(shù)據(jù)庫(kù)、數(shù)據(jù)挖掘、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫(kù)、云計(jì)算平臺(tái)、互聯(lián)網(wǎng)和可擴(kuò)展的存儲(chǔ)系統(tǒng)。最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
大數(shù)據(jù)包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)越來(lái)越成為數(shù)據(jù)的主要部分。據(jù)IDC的調(diào)查報(bào)告顯示:企業(yè)中80%的數(shù)據(jù)都是非結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)每年都按指數(shù)增長(zhǎng)60%。 大數(shù)據(jù)就是互聯(lián)網(wǎng)發(fā)展到現(xiàn)今階段的一種表象或特征而已,沒有必要神話它或?qū)λ3志次分?,在以云?jì)算為代表的技術(shù)創(chuàng)新大幕的襯托下,這些原本看起來(lái)很難收集和使用的數(shù)據(jù)開始容易被利用起來(lái)了,通過各行各業(yè)的不斷創(chuàng)新,大數(shù)據(jù)會(huì)逐步為人類創(chuàng)造更多的價(jià)值。
現(xiàn)在的社會(huì)是一個(gè)高速發(fā)展的社會(huì),科技發(fā)達(dá),信息流通,人們之間的交流越來(lái)越密切,生活也越來(lái)越方便,大數(shù)據(jù)就是這個(gè)高科技時(shí)代的產(chǎn)物。阿里巴巴創(chuàng)辦人馬云來(lái)臺(tái)演講中就提到,未來(lái)的時(shí)代將不是IT時(shí)代,而是DT的時(shí)代,DT就是Data Technology數(shù)據(jù)科技,顯示大數(shù)據(jù)對(duì)于阿里巴巴集團(tuán)來(lái)說(shuō)舉足輕重。有人把數(shù)據(jù)比喻為蘊(yùn)藏能量的煤礦。煤炭按照性質(zhì)有焦煤、無(wú)煙煤、肥煤、貧煤等分類,而露天煤礦、深山煤礦的挖掘成本又不一樣。與此類似,大數(shù)據(jù)并不在“大”,而在于“有用”。價(jià)值含量、挖掘成本比數(shù)量更為重要。對(duì)于很多行業(yè)而言,如何利用這些大規(guī)模數(shù)據(jù)是贏得競(jìng)爭(zhēng)的關(guān)鍵。