亚洲an日韩专区在线-亚洲an天堂an在线观看-亚洲a区视频-亚洲a图-免费黄网大全-免费黄网在线

未卜先知的神器:關(guān)于大數(shù)據(jù)的觀察與思考(上)

2013-11-20 11:37:40 中國科技網(wǎng)  點(diǎn)擊量: 評論 (0)
所有評論家都喜歡提到尿片與啤酒的故事,認(rèn)為它是大數(shù)據(jù)分析的開始:1960年代,沃爾瑪連鎖超市研究銷售記錄發(fā)現(xiàn),給孩子買紙尿片的男人都會(huì)順便買幾瓶啤酒。為此,超市在尿布旁邊擺上了啤酒架,方便顧客。這是

近兩年,大數(shù)據(jù)應(yīng)用突然爆炸,五彩繽紛的創(chuàng)意都變成現(xiàn)實(shí)

       所有評論家都喜歡提到“尿片與啤酒”的故事,認(rèn)為它是大數(shù)據(jù)分析的開始:1960年代,沃爾瑪連鎖超市研究銷售記錄發(fā)現(xiàn),給孩子買紙尿片的男人都會(huì)順便買幾瓶啤酒。為此,超市在尿布旁邊擺上了啤酒架,方便顧客。這是半個(gè)世紀(jì)前的事了。
     1980年代著名的未來學(xué)書籍《第三次浪潮》,預(yù)言未來信息時(shí)代必然有“big data(大數(shù)據(jù))”應(yīng)用。不過,就在5年前,網(wǎng)上百科全書Wikipedia還不愿開辟“big data”的詞條,認(rèn)為這不過是兩個(gè)單詞的組合而已。當(dāng)時(shí)網(wǎng)上普遍認(rèn)為,大數(shù)據(jù)更多的是概念和憧憬,其志向不小,成就卻不多。
      而就在近兩年,大數(shù)據(jù)應(yīng)用突然爆炸,五彩繽紛的創(chuàng)意都變成現(xiàn)實(shí)。即使最謹(jǐn)慎的觀察家也承認(rèn),大數(shù)據(jù)的商業(yè)應(yīng)用時(shí)代已經(jīng)來臨,正因?yàn)樗八从械哪芰?mdash;—準(zhǔn)確預(yù)測。
數(shù)據(jù)大爆發(fā),帶來“新石油”
      去年,演繹白宮政治的《紙牌屋》成了美國收視率第一的電視劇,這絲毫不出制片人的意料——計(jì)算機(jī)分析了多年的數(shù)據(jù),發(fā)現(xiàn)一部電視劇如果具備三個(gè)元素,就必定大賣:導(dǎo)演大衛(wèi)·芬奇、奧斯卡影帝凱文·史派西、BBC劇風(fēng)格。《紙牌屋》就是在數(shù)據(jù)指導(dǎo)下,如法炮制,果然紅透半邊天。這個(gè)例子很能說明大數(shù)據(jù)應(yīng)用的特點(diǎn):從海量數(shù)據(jù)里發(fā)掘出從前沒意識(shí)到的聯(lián)系,并且將它轉(zhuǎn)化為利潤。
      邁爾-舍恩伯格和庫克耶合著的《大數(shù)據(jù)時(shí)代》一書認(rèn)為,數(shù)據(jù)量一旦變“大”,根據(jù)數(shù)據(jù)預(yù)測就會(huì)十分可靠,而不再是小數(shù)據(jù)時(shí)代的模糊推測了。他們認(rèn)為,大數(shù)據(jù)的核心就是預(yù)測。
      美國工程師愛奇奧尼搭飛機(jī)時(shí),發(fā)現(xiàn)旁邊的旅客買票比他便宜。于是他開發(fā)了一個(gè)系統(tǒng),預(yù)測機(jī)票價(jià)格的漲跌。截至2012年,他的“faircast”系統(tǒng)用網(wǎng)上的10萬億條價(jià)格記錄去推測機(jī)票何時(shí)價(jià)格為何,預(yù)測準(zhǔn)確度達(dá)75%,幫助旅客平均每張機(jī)票節(jié)省50美元。
      愛奇奧尼并不懂航空業(yè),他所做的僅僅是查閱過去的數(shù)據(jù),就能從中做出有價(jià)值的判斷。
     還有一個(gè)例子廣為人知。google能從網(wǎng)民搜索關(guān)鍵詞中推斷出一場流感正在蔓延。工程師實(shí)驗(yàn)了4.5億個(gè)不同的數(shù)學(xué)模型,最后發(fā)現(xiàn),45條檢索詞條組合用于某個(gè)數(shù)學(xué)模型,與過去的流感數(shù)據(jù)十分吻合。由此,google第一時(shí)間發(fā)現(xiàn)了2009年甲型H1N1流感的傳播,比官方確認(rèn)早一兩周。
     無獨(dú)有偶,美國政府為了公布CPI數(shù)據(jù),雇用很多人調(diào)查90個(gè)城市的8萬種價(jià)格信息,每年要花費(fèi)2.5億美元。而麻省理工學(xué)院的兩位經(jīng)濟(jì)學(xué)家,通過一個(gè)軟件在網(wǎng)上捕捉50萬種商品的價(jià)格信息去做同樣的事情。金融危機(jī)時(shí),雷曼剛破產(chǎn)他們就發(fā)現(xiàn)了通貨緊縮的趨勢,比政府早發(fā)現(xiàn)兩個(gè)月。
     大數(shù)據(jù)預(yù)測并不復(fù)雜,不論是價(jià)格預(yù)測,還是疫情預(yù)測,只要有海量的數(shù)據(jù)就行。Word程序中語法檢查使用的4種算法,隨著其依靠的數(shù)據(jù)量從500萬變?yōu)?0億,表現(xiàn)都大為提高。彼得·諾威格,谷歌公司的人工智能專家寫道:“大數(shù)據(jù)基礎(chǔ)上的簡單算法比小數(shù)據(jù)基礎(chǔ)上的復(fù)雜算法更有效。”
     但在“尿片與啤酒”的年代,10億條級別的信息量還很難獲得。人們只能建立數(shù)據(jù)庫,將一部分信息分門別類地入庫,其他的丟棄。直到最近,計(jì)算機(jī)處理速度的飛躍和低成本的存儲(chǔ),才實(shí)現(xiàn)了“一切盡錄”,讓大數(shù)據(jù)分析成為現(xiàn)實(shí)。
    目前,美國股市三分之二的交易,是計(jì)算機(jī)程序根據(jù)海量數(shù)據(jù)預(yù)測和自動(dòng)做出的。由此來看,美國2012年3月的《大數(shù)據(jù)研究和發(fā)展計(jì)劃》中提出的“大數(shù)據(jù)是新石油”,并不完全是理想,已經(jīng)部分成真。
記錄一個(gè)人的過去,就知道他的未來
     即使是普通人也能注意到,各個(gè)領(lǐng)域收集的數(shù)據(jù)量都在爆發(fā)。人類存儲(chǔ)信息量的增長速度比經(jīng)濟(jì)增速快4倍,而計(jì)算機(jī)數(shù)據(jù)處理能力的增速更比經(jīng)濟(jì)增速快了9倍。
     信息爆炸的端倪參見美國“斯隆數(shù)字巡天望遠(yuǎn)鏡”:運(yùn)行短短幾周,斯隆收集的數(shù)據(jù)比天文學(xué)歷史上總共的數(shù)據(jù)還多;而預(yù)計(jì)2016年,智利的“大視場全景巡天望遠(yuǎn)鏡”5天就能收集同樣多的信息。不光是科學(xué)儀器,互聯(lián)網(wǎng)、視頻監(jiān)控網(wǎng),以及傳感器網(wǎng)(物聯(lián)網(wǎng)),都在提供海量信息。有人甚至預(yù)測,不需太久,信息爆炸造成的一年數(shù)據(jù)量就將超過人類歷史上積攢的所有數(shù)據(jù)量。
     如今,一個(gè)人的電子郵件、手機(jī)通話記錄、網(wǎng)購記錄、網(wǎng)上發(fā)布內(nèi)容等等,全都在各家公司的硬盤里存儲(chǔ)著;同時(shí),他的行蹤被手機(jī)記下;身影被街頭的監(jiān)控器捕捉……一旦這些數(shù)據(jù)串聯(lián)起來,這個(gè)人的一舉一動(dòng)幾乎無從遁形。
     讓人吃驚的是,根據(jù)《爆發(fā)》一書的作者巴拉巴西的論證,人的行為是高度重復(fù)和可預(yù)測的(巴拉巴西甚至算出,93%的行為是可預(yù)測的)。因此一旦明白了人的過去,就掌握了他的未來。
     大大小小的機(jī)構(gòu),都想利用大數(shù)據(jù)時(shí)代這個(gè)神奇的現(xiàn)象獲利。其中一些對人類行為的預(yù)測,已經(jīng)顯示出威力。今年的奧斯卡金像獎(jiǎng)?lì)C獎(jiǎng)禮之前,微軟紐約研究院的大衛(wèi)·羅斯柴爾德通過大數(shù)據(jù)分析,預(yù)測了各大獎(jiǎng)項(xiàng)的歸屬。結(jié)果除了最佳導(dǎo)演獎(jiǎng)外,他全部猜中。而他在2012年美國總統(tǒng)大選中,就根據(jù)過去的數(shù)據(jù),準(zhǔn)確預(yù)測了51個(gè)選區(qū)中50個(gè)地區(qū)的選舉結(jié)果。
     大型超市Target公司根據(jù)20多種購買物,判斷顧客的孕期階段,并適時(shí)寄去推薦清單。有時(shí),甚至顧客還不知道自己已經(jīng)懷孕了,Target的系統(tǒng)就能從其購買偏好的改變上判斷出來。
     美國一家個(gè)人消費(fèi)評估公司推出了“遵從醫(yī)囑評分”,這個(gè)評分會(huì)幫助醫(yī)療機(jī)構(gòu)知道哪些人更需要被提醒及時(shí)用藥。這個(gè)評分是分析一系列變量來確定的,比如某人在某地居住多久,是否結(jié)婚,多久換一個(gè)工作及有沒有私家車。
     要知道一個(gè)人是否會(huì)及時(shí)吃藥,為何要查閱他的工作簡歷或者私家車?誰都說不上來。但事實(shí)是,只要過去的數(shù)據(jù)顯示,有私家車、很少換工作的人更愿意按時(shí)服藥,那么今后肯定也是如此。
     而微軟跟華盛頓中心醫(yī)院合作,發(fā)現(xiàn)充血性心力衰竭病人如果初診中有類似“壓抑”這種暗示心理疾病的詞,再度入院的可能性也會(huì)增大。
知道如此就夠了,不必問為何如此
    《大數(shù)據(jù)時(shí)代》一書中強(qiáng)調(diào),大數(shù)據(jù)不關(guān)心“因果”,只在乎“相關(guān)”。這一點(diǎn)也被此書的擁躉們反復(fù)強(qiáng)調(diào)。因?yàn)榇髷?shù)據(jù)分析,人們理解世界,不再需要探討“內(nèi)在機(jī)理”。大數(shù)據(jù)不是教機(jī)器像人一樣思考,而是簡單的數(shù)學(xué)算法用在海量數(shù)據(jù)上,讓數(shù)據(jù)自己說話。
     在最難確定因果關(guān)系的人體科學(xué)領(lǐng)域,大數(shù)據(jù)分析同樣屢有斬獲。中英人壽保險(xiǎn)公司用幾百種生活方式的數(shù)據(jù),比如愛好、常瀏覽的網(wǎng)站、常看的節(jié)目以及收入等,找出更可能患高血壓、糖尿病和抑郁癥的人。
     丹麥癌癥協(xié)會(huì)2011年發(fā)表文章,利用1985年以來的全部手機(jī)用戶數(shù)據(jù),與同期所有癌癥患者數(shù)據(jù)結(jié)合來看,發(fā)現(xiàn)癌癥跟使用手機(jī)并沒有關(guān)系。
     還有美國研究者通過16個(gè)不同數(shù)據(jù),發(fā)現(xiàn)早產(chǎn)兒穩(wěn)定的生命體征不是病情好轉(zhuǎn)的標(biāo)志,而是暴風(fēng)雨前的寧靜。研究者并不知道具體原因,只知道數(shù)據(jù)顯示出是如此。
     有了大數(shù)據(jù),分析不必知其所以然。著名的谷歌翻譯小組,竟然不需要語言學(xué)家。他們完全是讓計(jì)算機(jī)根據(jù)網(wǎng)上的數(shù)據(jù),去判斷一段英文可能對應(yīng)于哪一段中文。一開始這種翻譯質(zhì)量不會(huì)太好,隨著信息量的增加,機(jī)器會(huì)翻譯得越來越讓人滿意。
     有了大數(shù)據(jù),分析也不需要太精確,因?yàn)榕刻幚碓试S瑕疵存在。ZestFinance是一家由計(jì)算機(jī)決定是否為客戶提供貸款的公司。它的客戶信息表中有大量空白。甚至有10%的客戶屬性是“已去世”,這顯然是錯(cuò)的,實(shí)際上這些客戶是還貸款的。這家公司不會(huì)太精確地對待它的數(shù)據(jù),然而其貸款拖欠率比行業(yè)平均水平低三分之一。
 

大云網(wǎng)官方微信售電那點(diǎn)事兒

責(zé)任編輯:小沈

免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與本站無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實(shí)相關(guān)內(nèi)容。
我要收藏
個(gè)贊
?
主站蜘蛛池模板: 性盈盈影院影院 | 欧美性猛交xxx免费看人妖 | 久久精品国产亚洲精品2020 | 亚洲美色综合天天久久综合精品 | 香蕉一区二区三区观 | 欧美一区二区在线视频 | 波多野结衣视频免费 | 久久久久香蕉视频 | 亚洲一区 中文字幕 久久 | 男人天堂网站在线 | av国产精品| 欧美精品束缚一区二区三区 | xxx国产hd| 男女男精品视频免费观看 | 最近韩国日本免费免费版 | 国产免费人视频在线观看免费 | 国产欧美成人 | 成人在线免费小视频 | 国产成人看片免费视频观看 | 99久久这里只精品国产免费 | 日韩在线播放视频 | 在线观看国产日韩 | 香蕉久久综合精品首页 | 久久久久久久国产精品毛片 | 黄视频免费在线 | 韩国欧洲一级毛片 | 亚洲美女一级片 | 欧美不卡一区 | 亚洲一区二区三区欧美 | 日韩亚洲综合精品国产 | 点击进入不卡毛片免费观看 | 日本道综合一本久久久88 | 国产一区二区三区免费视频 | 国产精品一区高清在线观看 | 成人高清毛片a | 男女免费视频 | 日韩毛片免费线上观看 | 日韩中文字幕视频 | 成年男人午夜片免费观看 | 中文字幕久久亚洲一区 | 一本色道久久爱88av |