取消
搜索历史
热搜词
原创
活动
产业创新
转型理念
ENI专访
当前位置:首页 >文章发布 > 正文
大数据崛起 云计算和大数据是一个硬币的两面
来源:  : 2013-02-26 09:32:25
在去年12月12日電商的促銷期,淘寶網推出“時光機”——一個根據淘寶買家幾年來的購買商品記錄、瀏覽點擊次數、收貨地址等數據編輯制作的“個人網購志”,從而記錄和勾勒出讓人感懷的生活記憶。背后,是基於對4 7億淘寶注冊用戶網購數據的分析處理,這正是大數據的典型應用。

     第八屆中國(南京)國際軟件產品和信息服務博覽會上, 觀眾在參觀一企業開發的商業智慧服務系統。

 1.移動互聯時代,數以百億計的機器、企業、個人隨時隨地都會獲取和產生新的數據

 即便是在摩爾定律——每18個月芯片性能將提高1倍——的支撐下,硬件性能進化的速度也早已趕不上數據增長的速度,並且差距越來越巨大。

 1分鐘之內,新浪微博發送數萬條微博,蘋果應用商店下載次數以萬計,淘寶賣出了幾萬件商品,百度產生了百萬次搜索查詢……所有這些行為都由海量的數據來呈現。

 在去年12月12日電商的促銷期,淘寶網推出時光機——一個根據淘寶買家幾年來的購買商品記錄、瀏覽點擊次數、收貨地址等數據編輯制作的個人網購志,從而記錄和勾勒出讓人感懷的生活記憶。背后,是基於對4.7億淘寶注冊用戶網購數據的分析處理,這正是大數據的典型應用。

 隨著傳統互聯網向移動互聯發展,全球范圍內,除了個人電腦、平板電腦、智能手機、游戲主機等常見的計算終端之外,更廣闊的、泛在互連的智能設備,比如智能汽車、智能電視、工業設備和手持設備等都連接到網絡之中。基於社會化網絡的平台和應用,讓數以百億計的機器、企業、個人隨時隨地都會獲取和產生新的數據。

 互聯網搜索引擎是大數據最為典型的應用之一。百度日處理數據量達到數十PB,並呈現高速增長的態勢。如果一張光盤容量為1GB,這相當於壘在一起的幾千萬張光盤。微軟Bing(在中國為必應)搜索引擎,一周需要響應100億次量級的搜索請求。通過和Facebook的合作,每天有超過10億次的社交網絡搜索請求通過Bing來處理。

 短短的18個月,中國移動互聯網流量增加了10倍。中國工程院院士鄔賀銓說,隨著社交網絡的逐漸成熟、移動帶寬迅速提升,更多的傳感設備、移動終端接入網絡,產生的數據及其增長速度比歷史上任何時期都要多,互聯網上的數據流量正在迅猛增長。鄔賀銓認為,在雲計算、物聯網等技術的帶動下,中國的移動互聯網已經步入大數據時代。

 而根據市場調研公司IDC的報告,全球信息總量每過兩年就會增長一倍,2011年全球產生的數據總量為1.8ZB(1ZB約為百萬PB),相比2010年增長了1ZB,相當於全球歷史數據總和。

 繼雲計算后,大數據(big data)成為信息技術領域最為熱門的概念之一。

 2.大數據有四個特征,最重要的是獲得洞察力和價值

 在IT業界,有人把大數據產業定義為:建立在對互聯網、物聯網等渠道廣泛大量數據資源收集基礎上的數據存儲、價值提煉、智能處理和分發的信息服務業,或者如IT巨頭概括大數據戰略為:致力於讓所有用戶能夠從幾乎任何數據中獲得可轉換為業務執行的洞察力,包括之前隱藏在非結構化數據中的洞察力。

 總之是對大量、動態、能持續的數據,通過運用新系統、新工具、新模型的挖掘,從而獲得具有洞察力和新價值的東西。微軟公司全球資深副總裁、微軟亞太研發集團主席張亞勤博士接受記者採訪時說。

 雖然有多種解讀,但業界一般認為,大數據有四個V字開頭的特征:Volume(容量), Variety(種類), Velocity(速度)和最重要的Value(價值)。Volume是指大數據巨大的數據量與數據完整性。張亞勤說,IT業界所指的數據,誕生不過60多年。而一直到個人電腦普及前,由於存儲、計算和分析工具的技術和成本限制,許多自然界和人類社會值得記錄的信號,並未形成數據。幾十年前,氣象、地質、石油物探、出版業、媒體業和影視業是大量、持續產出信號的行業,但那時90%以上採用的是存儲模擬信號,難以通過計算設備和軟件進行直接分析。擁有大量資金和人才的政府和企業,也隻能把少量最關鍵的信號,進行抽取、轉換、裝載到數據庫中。

 張亞勤認為,盡管業界對達到怎樣的數量級才算是大數據並無定論,但在很多行業的應用場景裡,數據集本身的大小並不是最重要的,是否完整才最重要。

 Variety則意味著要在海量、種類繁多的數據間發現其內在關聯。互聯網時代,各種設備通過網絡連成了一個整體。進入以互動為特征的Web2.0時代,個人計算機用戶不僅可以通過網絡獲取信息,還成為了信息的制造者和傳播者。這個階段,不僅是數據量開始了爆炸式增長,數據種類也開始變得繁多。

 這必然促使我們對海量數據進行分析、處理和集成,找出原本看來毫無關系的那些數據的‘關聯性’,把似乎沒有用的數據變成有用的信息,以支持我們做出的判斷。張亞勤說。

 Velocity可以理解為更快地滿足實時性需求。數據的實時化需求正越來越清晰。對普通人而言,開車去吃飯,會先用移動終端中的地圖查詢餐廳的位置,預計行車路線的擁堵情況,了解停車場信息甚至是其他用戶對餐廳的評論。吃飯時,會用手機拍攝食物的照片,編輯簡短評論發布到微博或者微信上,還可以用LBS(基於位置的服務)應用查找在同一間餐廳吃飯的人,看有沒有好友在附近……

 張亞勤說,如今,通過各種有線和無線網絡,人和人、人和各種機器、機器和機器之間產生無處不在的連接,這些連接不可避免地帶來數據交換。而數據交換的關鍵是降低延遲,以近乎實時——這意味著小於250毫秒——的方式呈獻給用戶。

 但比前面3個‘V’更重要的,就是Value,它是大數據的最終意義——獲得洞察力和價值。張亞勤說,大數據的崛起,正是在人工智能、機器學習和數據挖掘等技術的迅速發展驅動下,呈現這麼一個過程:將信號轉化為數據,將數據分析為信息,將信息提煉為知識,以知識促成決策和行動。

 百度相關專家認為,就大數據的價值而言,就像沙子淘金,大數據規模越大,真正有價值的數據相對越少。

 所以真正好的大數據系統,重要的不是越多越好,其實越少越好。張亞勤說,開始數據要多,最好還是要少,把ZB、PB最終變成一個比特,也就是最后的決策。這才是最關鍵的。

 3.雲計算和大數據是一個硬幣的兩面,大數據正在引發全球范圍內深刻的技術和商業變革

 如同雲計算的出現,大數據也不是一個突然而至的新概念。

 雲計算和大數據是一個硬幣的兩面,雲計算是大數據的IT基礎,而大數據是雲計算的一個殺手級應用。張亞勤說。雲計算是大數據成長的驅動力,而另一方面,由於數據越來越多、越來越復雜、越來越實時,這就更加需要雲計算去處理,所以二者之間是相輔相成的。

 30年前,存儲1TB也就是約1000GB數據的成本大約是16億美元,如今存儲到雲上隻需不到100美元﹔但存儲下來的數據,如果不以雲計算進行挖掘和分析,就只是僵死的數據,沒有太大價值。

 目前,雲計算已經普及並成為IT行業主流技術,其實質是在計算量越來越大、數據越來越多、越來越動態、越來越實時的需求背景下被催生出來的一種基礎架構和商業模式。個人用戶將文檔、照片、視頻、游戲存檔記錄上傳至雲中永久保存,企業客戶根據自身需求,可以搭建自己的私有雲,或托管、或租用公有雲上的IT資源與服務,這些都已不是新鮮事。可以說,雲是一棵挂滿了大數據的蘋果樹。

 大數據的出現,正在引發全球范圍內深刻的技術與商業變革。在技術上,大數據使從數據當中提取信息的常規方式發生了變化。在技術領域,以往更多是依靠模型的方法,現在我們可以借用規模龐大的數據,用基於統計的方法,有望使語音識別、機器翻譯這些技術領域在大數據時代取得新的進展。張亞勤說。

 在搜索引擎和在線廣告中發揮重要作用的機器學習,被認為是大數據發揮真正價值的領域。在海量的數據中統計分析出人的行為、習慣等方式,計算機可以更好地學習模擬人類智能。隨著包括語音、視覺、手勢和多點觸控等在內的自然用戶界面越來越普及,計算系統正在具備與人類相仿的感知能力,其看見、聽懂和理解人類用戶的能力不斷提高。這種計算系統不斷增強的感知能力,與大數據以及機器學習領域的進展相結合,已使得目前的計算系統開始能夠理解人類用戶的意圖和語境。這使得計算機能夠真正幫助我們,甚至代表我們去工作。

 在商業模式上,張亞勤認為,對商業競爭的參與者來說,大數據意味著激動人心的業務與服務創新機會。零售連鎖企業、電商業巨頭都已在大數據挖掘與營銷創新方面有著很多的成功案例,它們都是商業嗅覺極其敏銳、敢於投資未來的公司,也因此獲得了豐厚的回報。

 IT產業鏈分工、主導權也因為大數據產生了巨大影響。以往,移動運營商和互聯網服務運營商等擁有著大量的用戶行為習慣的各種數據,在IT產業鏈中具有舉足輕重的地位。而在大數據時代,移動運營商如果不能挖掘出數據的價值,可能徹徹底底被管道化。運營商和更懂用戶需求的第三方開發者互利共贏的模式,已取得一定共識。

编辑:phpcms
关键词: 大数据  云计算  移动  互联网 
活动 直播间  | CIO智行社

分享到微信 ×

打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。