近幾年來,隨著計算機和信息技術(shù)的迅猛發(fā)展和普及應(yīng)用,行業(yè)應(yīng)用系統(tǒng)的規(guī)模迅速擴(kuò)大,行業(yè)應(yīng)用所產(chǎn)生的數(shù)據(jù)呈爆炸性增長。動輒達(dá)到數(shù)百TB甚至數(shù)十至數(shù)百PB規(guī)模的行業(yè)/企業(yè)大數(shù)據(jù)已遠(yuǎn)遠(yuǎn)超出了現(xiàn)有傳統(tǒng)的計算技術(shù)和信息系統(tǒng)的處理能力,因此,尋求有效的大數(shù)據(jù)處理技術(shù)、方法和手段已經(jīng)成為現(xiàn)實世界的迫切需求。百度目前的總數(shù)據(jù)量已超過1000PB,每天需要處理的網(wǎng)頁數(shù)據(jù)達(dá)到10PB~100PB;淘寶累計的交易數(shù)據(jù)量高達(dá) 100PB;Twitter每天發(fā)布超過2億條消息,新浪微博每天發(fā)帖量達(dá)到8000萬條;中國移動一個省的電話通聯(lián)記錄數(shù)據(jù)每月可達(dá) 0.5PB~1PB;一個省會城市公安局道路車輛監(jiān)控數(shù)據(jù)三年可達(dá)200億條、總量120TB。據(jù)世界權(quán)威IT信息咨詢分析公司IDC研究報告預(yù)測:全世界數(shù)據(jù)量未來10年將從2009年的0.8ZB增長到2020年的35ZB(1ZB=1000EB=1000000PB),10年將增長44倍,年均增長 40%。
早幾年人們把大規(guī)模數(shù)據(jù)稱為“海量數(shù)據(jù)”,但實際上,大數(shù)據(jù)(Big Data)這個概念早在2008年就已被提出。2008年,在Google成立10周年之際,著名的《自然》雜志出版了一期專刊,專門討論未來的大數(shù)據(jù)處理相關(guān)的一系列技術(shù)問題和挑戰(zhàn),其中就提出了“Big Data”的概念。
隨著大數(shù)據(jù)概念的普及,人們常常會問,多大的數(shù)據(jù)才叫大數(shù)據(jù)?其實,關(guān)于大數(shù)據(jù),難以有一個非常定量的定義。維基百科給出了一個定性的描述:大數(shù)據(jù)是指無法使用傳統(tǒng)和常用的軟件技術(shù)和工具在一定時間內(nèi)完成獲取、管理和處理的數(shù)據(jù)集。進(jìn)一步,當(dāng)今“大數(shù)據(jù)”一詞的重點其實已經(jīng)不僅在于數(shù)據(jù)規(guī)模的定義,它更代表著信息技術(shù)發(fā)展進(jìn)入了一個新的時代,代表著爆炸性的數(shù)據(jù)信息給傳統(tǒng)的計算技術(shù)和信息技術(shù)帶來的技術(shù)挑戰(zhàn)和困難,代表著大數(shù)據(jù)處理所需的新的技術(shù)和方法,也代表著大數(shù)據(jù)分析和應(yīng)用所帶來的新發(fā)明、新服務(wù)和新的發(fā)展機遇。
由于大數(shù)據(jù)處理需求的迫切性和重要性,近年來大數(shù)據(jù)技術(shù)已經(jīng)在全球?qū)W術(shù)界、工業(yè)界和各國政府得到高度關(guān)注和重視,全球掀起了一個可與20世紀(jì)90年代的信息高速公路相提并論的研究熱潮。美國和歐洲一些發(fā)達(dá)國家政府都從國家科技戰(zhàn)略層面提出了一系列的大數(shù)據(jù)技術(shù)研發(fā)計劃,以推動政府機構(gòu)、重大行業(yè)、學(xué)術(shù)界和工業(yè)界對大數(shù)據(jù)技術(shù)的探索研究和應(yīng)用。
早在2010年12月,美國總統(tǒng)辦公室下屬的科學(xué)技術(shù)顧問委員會(PCAST)和信息技術(shù)顧問委員會(PITAC)向奧巴馬和國會提交了一份《規(guī)劃數(shù)字化未來》的戰(zhàn)略報告,把大數(shù)據(jù)收集和使用的工作提升到體現(xiàn)國家意志的戰(zhàn)略高度。報告列舉了5個貫穿各個科技領(lǐng)域的共同挑戰(zhàn),而第一個最重大的挑戰(zhàn)就是 “數(shù)據(jù)”問題。報告指出:“如何收集、保存、管理、分析、共享正在呈指數(shù)增長的數(shù)據(jù)是我們必須面對的一個重要挑戰(zhàn)”。報告建議:“聯(lián)邦政府的每一個機構(gòu)和部門,都需要制定一個‘大數(shù)據(jù)’的戰(zhàn)略”。2012年3月,美國總統(tǒng)奧巴馬簽署并發(fā)布了一個“大數(shù)據(jù)研究發(fā)展創(chuàng)新計劃”(Big Data R & D Initiative),由美國國家自然基金會(NSF)、衛(wèi)生健康總署(NIH)、能源部(DOE)、國防部(DOD)等6大部門聯(lián)合,投資2億美元啟動大數(shù)據(jù)技術(shù)研發(fā),這是美國政府繼1993年宣布“信息高速公路”計劃后的又一次重大科技發(fā)展部署。美國白宮科技政策辦公室還專門支持建立了一個大數(shù)據(jù)技術(shù)論壇,鼓勵企業(yè)和組織機構(gòu)間的大數(shù)據(jù)技術(shù)交流與合作。
2012年7月,聯(lián)合國在紐約發(fā)布了一本關(guān)于大數(shù)據(jù)政務(wù)的白皮書《大數(shù)據(jù)促發(fā)展:挑戰(zhàn)與機遇》,全球大數(shù)據(jù)的研究和發(fā)展進(jìn)入了前所未有的高潮。這本白皮書總結(jié)了各國政府如何利用大數(shù)據(jù)響應(yīng)社會需求,指導(dǎo)經(jīng)濟(jì)運行,更好地為人民服務(wù),并建議成員國建立“脈搏實驗室”(Pulse Labs),挖掘大數(shù)據(jù)的潛在價值。
由于大數(shù)據(jù)技術(shù)的特點和重要性,目前國內(nèi)外已經(jīng)出現(xiàn)了“數(shù)據(jù)科學(xué)”的概念,即數(shù)據(jù)處理技術(shù)將成為一個與計算科學(xué)并列的新的科學(xué)領(lǐng)域。已故著名圖靈獎獲得者Jim Gray在2007年的一次演講中提出,“數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)”(Data-Intensive Scientific Discovery)將成為科學(xué)研究的第四范式,科學(xué)研究將從實驗科學(xué)、理論科學(xué)、計算科學(xué),發(fā)展到目前興起的數(shù)據(jù)科學(xué)。
為了緊跟全球大數(shù)據(jù)技術(shù)發(fā)展的浪潮,我國政府、學(xué)術(shù)界和工業(yè)界對大數(shù)據(jù)也予以了高度的關(guān)注。央視著名“對話”節(jié)目2013年4月14日和21日邀請了《大數(shù)據(jù)時代——生活、工作與思維的大變革》作者維克托·邁爾-舍恩伯格,以及美國大數(shù)據(jù)存儲技術(shù)公司LSI總裁阿比分別做客“對話”節(jié)目,做了兩期大數(shù)據(jù)專題談話節(jié)目“誰在引爆大數(shù)據(jù)”、“誰在掘金大數(shù)據(jù)”,國家央視媒體對大數(shù)據(jù)的關(guān)注和宣傳體現(xiàn)了大數(shù)據(jù)技術(shù)已經(jīng)成為國家和社會普遍關(guān)注的焦點。
而國內(nèi)的學(xué)術(shù)界和工業(yè)界也都迅速行動,廣泛開展大數(shù)據(jù)技術(shù)的研究和開發(fā)。2013年以來,國家自然科學(xué)基金、973計劃、核高基、863等重大研究計劃都已經(jīng)把大數(shù)據(jù)研究列為重大的研究課題。為了推動我國大數(shù)據(jù)技術(shù)的研究發(fā)展,2012年中國計算機學(xué)會(CCF)發(fā)起組織了CCF大數(shù)據(jù)專家委員會,CCF專家委員會還特別成立了一個“大數(shù)據(jù)技術(shù)發(fā)展戰(zhàn)略報告”撰寫組,并已撰寫發(fā)布了《2013年中國大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)發(fā)展白皮書》。
大數(shù)據(jù)在帶來巨大技術(shù)挑戰(zhàn)的同時,也帶來巨大的技術(shù)創(chuàng)新與商業(yè)機遇。不斷積累的大數(shù)據(jù)包含著很多在小數(shù)據(jù)量時不具備的深度知識和價值,大數(shù)據(jù)分析挖掘?qū)⒛転樾袠I(yè)/企業(yè)帶來巨大的商業(yè)價值,實現(xiàn)各種高附加值的增值服務(wù),進(jìn)一步提升行業(yè)/企業(yè)的經(jīng)濟(jì)效益和社會效益。由于大數(shù)據(jù)隱含著巨大的深度價值,美國政府認(rèn)為大數(shù)據(jù)是“未來的新石油”,對未來的科技與經(jīng)濟(jì)發(fā)展將帶來深遠(yuǎn)影響。因此,在未來,一個國家擁有數(shù)據(jù)的規(guī)模和運用數(shù)據(jù)的能力將成為綜合國力的重要組成部分,對數(shù)據(jù)的占有、控制和運用也將成為國家間和企業(yè)間新的爭奪焦點。
大數(shù)據(jù)的研究和分析應(yīng)用具有十分重大的意義和價值。被譽為“大數(shù)據(jù)時代預(yù)言家”的維克托·邁爾-舍恩伯格在其《大數(shù)據(jù)時代》一書中列舉了大量詳實的大數(shù)據(jù)應(yīng)用案例,并分析預(yù)測了大數(shù)據(jù)的發(fā)展現(xiàn)狀和未來趨勢,提出了很多重要的觀點和發(fā)展思路。他認(rèn)為:“大數(shù)據(jù)開啟了一次重大的時代轉(zhuǎn)型”,指出大數(shù)據(jù)將帶來巨大的變革,改變我們的生活、工作和思維方式,改變我們的商業(yè)模式,影響我們的經(jīng)濟(jì)、政治、科技和社會等各個層面。
由于大數(shù)據(jù)行業(yè)應(yīng)用需求日益增長,未來越來越多的研究和應(yīng)用領(lǐng)域?qū)⑿枰褂么髷?shù)據(jù)并行計算技術(shù),大數(shù)據(jù)技術(shù)將滲透到每個涉及到大規(guī)模數(shù)據(jù)和復(fù)雜計算的應(yīng)用領(lǐng)域。不僅如此,以大數(shù)據(jù)處理為中心的計算技術(shù)將對傳統(tǒng)計算技術(shù)產(chǎn)生革命性的影響,廣泛影響計算機體系結(jié)構(gòu)、操作系統(tǒng)、數(shù)據(jù)庫、編譯技術(shù)、程序設(shè)計技術(shù)和方法、軟件工程技術(shù)、多媒體信息處理技術(shù)、人工智能以及其他計算機應(yīng)用技術(shù),并與傳統(tǒng)計算技術(shù)相互結(jié)合產(chǎn)生很多新的研究熱點和課題。
大數(shù)據(jù)給傳統(tǒng)的計算技術(shù)帶來了很多新的挑戰(zhàn)。大數(shù)據(jù)使得很多在小數(shù)據(jù)集上有效的傳統(tǒng)的串行化算法在面對大數(shù)據(jù)處理時難以在可接受的時間內(nèi)完成計算;同時大數(shù)據(jù)含有較多噪音、樣本稀疏、樣本不平衡等特點使得現(xiàn)有的很多機器學(xué)習(xí)算法有效性降低。因此,微軟全球副總裁陸奇博士在2012年全國第一屆“中國云/移動互聯(lián)網(wǎng)創(chuàng)新大獎賽”頒獎大會主題報告中指出:“大數(shù)據(jù)使得絕大多數(shù)現(xiàn)有的串行化機器學(xué)習(xí)算法都需要重寫”。
大數(shù)據(jù)技術(shù)的發(fā)展將給我們研究計算機技術(shù)的專業(yè)人員帶來新的挑戰(zhàn)和機遇。目前,國內(nèi)外IT企業(yè)對大數(shù)據(jù)技術(shù)人才的需求正快速增長,未來5~10年內(nèi)業(yè)界將需要大量的掌握大數(shù)據(jù)處理技術(shù)的人才。IDC研究報告指出,“下一個10年里,世界范圍的服務(wù)器數(shù)量將增長10倍,而企業(yè)數(shù)據(jù)中心管理的數(shù)據(jù)信息將增長50倍,企業(yè)數(shù)據(jù)中心需要處理的數(shù)據(jù)文件數(shù)量將至少增長75倍,而世界范圍內(nèi)IT專業(yè)技術(shù)人才的數(shù)量僅能增長1.5倍。”因此,未來十年里大數(shù)據(jù)處理和應(yīng)用需求與能提供的技術(shù)人才數(shù)量之間將存在一個巨大的差距。目前,由于國內(nèi)外高校開展大數(shù)據(jù)技術(shù)人才培養(yǎng)的時間不長,技術(shù)市場上掌握大數(shù)據(jù)處理和應(yīng)用開發(fā)技術(shù)的人才十分短缺,因而這方面的技術(shù)人才十分搶手,供不應(yīng)求。國內(nèi)幾乎所有著名的IT企業(yè),如百度、騰訊、阿里巴巴和淘寶、奇虎360等,都大量需要大數(shù)據(jù)技術(shù)人才。