當(dāng)前位置: 首頁 > 原創(chuàng)
相關(guān)熱門文章
- 互聯(lián)網(wǎng)企業(yè):真正以客戶為中心
- 互聯(lián)網(wǎng)化的顛覆性創(chuàng)新必定類似創(chuàng)業(yè)型
- 互聯(lián)網(wǎng)時(shí)代下的領(lǐng)導(dǎo)力
- 互聯(lián)網(wǎng)思維企業(yè)VS傳統(tǒng)行業(yè)
- 互聯(lián)網(wǎng)化創(chuàng)新人才的流動(dòng)性與儲(chǔ)備不足
- 互聯(lián)網(wǎng)思維模式下的商業(yè)生態(tài)鏈
- 《互聯(lián)網(wǎng)時(shí)代的執(zhí)行力建設(shè)》中糧面業(yè)
- 互聯(lián)網(wǎng)化績(jī)效體系導(dǎo)向的改變
- 互聯(lián)網(wǎng)的顛覆性創(chuàng)新將產(chǎn)生于組織之外
- 互聯(lián)網(wǎng)金融營(yíng)銷時(shí)代席卷而來
相關(guān)熱門內(nèi)訓(xùn)課程
- 互聯(lián)網(wǎng)+
- 互聯(lián)網(wǎng)思維管理模式1.0版——中國(guó)
- 互聯(lián)網(wǎng)金融
- 互聯(lián)網(wǎng)思維
- 互聯(lián)網(wǎng)思維的執(zhí)行力
- 互聯(lián)網(wǎng)思維的人才選用育留
- 互聯(lián)網(wǎng)營(yíng)銷方式與技巧
- 互聯(lián)網(wǎng)思維的領(lǐng)導(dǎo)力
- 移動(dòng)互聯(lián)網(wǎng)
- 互聯(lián)網(wǎng)+工匠精神培訓(xùn)
相關(guān)熱門公開課程
- 互聯(lián)網(wǎng)思維管理模式1.0版——中國(guó)
- 互聯(lián)網(wǎng)大數(shù)據(jù)時(shí)代的商業(yè)模式創(chuàng)新思維
- 網(wǎng)絡(luò)營(yíng)銷-互聯(lián)網(wǎng)復(fù)制經(jīng)銷商解決網(wǎng)絡(luò)
- 中國(guó)移動(dòng)集團(tuán)客戶經(jīng)理行業(yè)信息化營(yíng)銷
- 企業(yè)信息化規(guī)劃、治理與項(xiàng)目整合
- RoHS指令與電子信息產(chǎn)品污染控制
- 企業(yè)信息化
- 互聯(lián)網(wǎng)時(shí)代戰(zhàn)略管理新思維——中國(guó)企
- 互聯(lián)網(wǎng)實(shí)戰(zhàn)課程-網(wǎng)絡(luò)營(yíng)銷的魅力
- 構(gòu)建高效的研發(fā)管理體系——打造全生
互聯(lián)網(wǎng)思維培訓(xùn):用最少的數(shù)據(jù)獲得最多的信息
時(shí)間:2015-01-06
最近,私人企業(yè)和個(gè)人才擁有了大規(guī)模手機(jī)和分類數(shù)據(jù)的能力。在過去,這是只有教會(huì)或者政府才能做到的。當(dāng)然,在很多國(guó)家,教會(huì)和政府是等同的。有記載的、最早的計(jì)數(shù)發(fā)生發(fā)生在公元前8000年的,當(dāng)時(shí)蘇美爾的商人用黏土珠來記錄出售的商品。大規(guī)模的計(jì)數(shù)則是政府的事情。數(shù)千年來,政府都試圖通過手機(jī)信息來管理國(guó)民。
以人口普查為例。據(jù)說古代埃及曾進(jìn)行過人口普查,《舊約》和《新約》中對(duì)此都有所提及。那次由奧古斯都愷撒主導(dǎo)實(shí)施的人口普查,提出了“每個(gè)人都必須納稅“,這使得約瑟夫和瑪麗搬到了耶穌的出生地伯利恒。1086年的《末日審判書》(The Doomsday Book)對(duì)當(dāng)時(shí)英國(guó)的人口、土地和財(cái)產(chǎn)做了一個(gè)前所未有的全面記錄?;始椅瘑T穿越整個(gè)國(guó)家對(duì)每個(gè)人、每件事都做了記載,后來這本書《圣經(jīng)》中《末日審判書》命名,因?yàn)槊總€(gè)人的生活都被赤裸裸地記錄下來的過程就像接受”最后的審判“一樣。
然后,人口普查是一項(xiàng)耗資且費(fèi)時(shí)的事情。國(guó)王威廉一世(King William I)在他發(fā)起的《末日審判書》完成之錢就去世了。但是,除非放棄收集信息,否則在當(dāng)時(shí)沒有其它辦法。盡管如此,當(dāng)時(shí)收集的信息也只是一個(gè)大概情況,實(shí)施人口普查的人也知道他們不可能準(zhǔn)去記錄下每個(gè)人的信息。實(shí)際上”人口普查”這個(gè)詞來源于拉丁語“censere“,意思就是推測(cè),估算。
三百多年輕,一個(gè)名叫約翰•格朗特的英國(guó)縫紉用品商提出一個(gè)很有新意的方法。他采用了一個(gè)新方法推算出鼠疫時(shí)期倫敦的人口數(shù),這個(gè)方法就是后來的統(tǒng)計(jì)學(xué)。這個(gè)方法不需要一個(gè)人一個(gè)人地計(jì)算。雖然這個(gè)方法比較粗糙,但采用這個(gè)方法,人們可以利用少量有用的樣本信息來獲取人口的整體情況。
雖然后來證實(shí)他能夠得出正確的數(shù)據(jù)僅僅是因?yàn)檫\(yùn)氣好,但在當(dāng)時(shí)他的方法大受歡迎。樣本分析法一直都有較大的隆冬,因此無論是進(jìn)行人口普查還是其他大數(shù)據(jù)類的任務(wù),人們還是一直使用一一輕點(diǎn)這種“野蠻“的方法。
考慮到人口普查的復(fù)雜性以及耗時(shí)耗費(fèi)的特點(diǎn),政府極少進(jìn)行普查。古羅馬在擁有數(shù)十萬人口的時(shí)候每5年普查一次。美國(guó)憲法規(guī)定每10年進(jìn)行一次人口普查,而隨著國(guó)家人口越來越多,只能以百萬計(jì)算。但是到19世紀(jì)為之,及時(shí)這樣不頻繁的人口普查依然很困難,因?yàn)閿?shù)據(jù)變化的速度超過了人扣普查局統(tǒng)計(jì)分析的能力。
這就是問題所在,是利用所有的數(shù)據(jù)還是僅僅采用一部分呢?最明智的自然是得到有關(guān)被分析事物的所有數(shù)據(jù),但是當(dāng)數(shù)量無比龐大的時(shí),這有不太現(xiàn)實(shí)。那如何選擇樣本呢?有人提出有目的地選擇最具代表性的樣本是最恰當(dāng)?shù)姆椒ā?934年,波蘭統(tǒng)計(jì)學(xué)家耶日•奈曼指出,這只會(huì)導(dǎo)致更多更大的漏洞。事實(shí)證明,問題的關(guān)鍵是選擇樣本時(shí)的隨機(jī)性。
統(tǒng)計(jì)學(xué)家們證明:采樣分析的精確性隨著采樣隨機(jī)性的增加而大幅度提高,但與樣本數(shù)量的增加關(guān)系不大。雖然聽起來很不可思議,但事實(shí)上,一個(gè)對(duì)1100人進(jìn)行的關(guān)于“是否“問題的抽樣調(diào)查有著很高的精確性,精確度甚至超過了對(duì)所有人進(jìn)行調(diào)查時(shí)的97%。者是真的,不管是調(diào)查10萬人還是1億人,20次調(diào)查理有19次都能猜對(duì)。為什么會(huì)這樣?原因很復(fù)雜,但是有一個(gè)比較簡(jiǎn)單的解釋就是,當(dāng)樣本數(shù)量達(dá)到了某個(gè)值之后,我們從新個(gè)體身上得到的信息會(huì)越來越少,就如同經(jīng)濟(jì)學(xué)中的編輯效應(yīng)遞減一樣。
認(rèn)為樣本選擇的隨機(jī)性比樣本數(shù)量更重要,這種觀點(diǎn)是非常有見地的。這種觀點(diǎn)為我們開辟了一條手機(jī)信息的新道路。通過收集隨機(jī)樣本,我們可以用較少的花費(fèi)做出高精度的推斷。因此,政府每年都可以用隨機(jī)采樣的方法進(jìn)行小規(guī)模的人口普查,而不是只能沒十年進(jìn)行一次。事實(shí)上,政府也這樣做了。例如,出了十年一次的人口大普查,美國(guó)人口普查局每年都會(huì)隨機(jī)采樣的方法對(duì)經(jīng)濟(jì)和人口進(jìn)行200多次小規(guī)模的調(diào)查。當(dāng)收集和分析數(shù)據(jù)都不容易時(shí),隨機(jī)采樣就成為對(duì)信息采集困難的辦法。
很快,隨機(jī)采樣就不僅應(yīng)用于公共部門和人口普查了。在商業(yè)領(lǐng)域,隨機(jī)采樣被用來監(jiān)管商品質(zhì)量。這樣使得監(jiān)管商品質(zhì)量和提升商品品質(zhì)變得更容易,花費(fèi)也更少。以前,全面的質(zhì)量監(jiān)管要求對(duì)生產(chǎn)出來的每個(gè)產(chǎn)品進(jìn)行檢查,而現(xiàn)在只需要從一批商品中隨機(jī)抽取部分樣品進(jìn)行檢查就可以了。本質(zhì)上來說,隨機(jī)采樣讓大數(shù)據(jù)問題變得更加切實(shí)可行。同理,它將客戶調(diào)查引進(jìn)了零售行業(yè),講焦點(diǎn)討論引進(jìn)了政治界,也將許人文問題變成了社會(huì)科學(xué)問題。
隨機(jī)采樣取得了巨大的成功,成為現(xiàn)代社會(huì)、?,F(xiàn)代測(cè)量領(lǐng)域的主心骨。但這只是一條捷徑,是在不可手機(jī)和分析全部數(shù)據(jù)的情況下的選擇,它本身存在許多固有的缺陷。它陳宮依賴于采樣的絕對(duì)隨機(jī)性,但是實(shí)現(xiàn)采樣的隨機(jī)性非常困難。一旦采樣過程中存在任何偏見,分析結(jié)果就會(huì)相去甚遠(yuǎn)。最近,以固定電話用戶為基礎(chǔ)進(jìn)行投票民調(diào)就面臨了這樣的問題,采樣缺乏隨機(jī)性,因?yàn)闆]有考慮到只使用移動(dòng)電話的用戶——這些用戶一般更年輕更熱愛自由。沒有考慮到這些用戶,自然就得不到正確的預(yù)測(cè)。2008年在奧巴馬與麥凱恩之間進(jìn)行的美國(guó)總統(tǒng)大選中,蓋洛普咨詢公司、皮皮尤研究中心、美國(guó)廣播公司和《華盛頓郵報(bào)》社這些主要的民調(diào)組織都發(fā)現(xiàn),如果他們不把移動(dòng)用戶考慮進(jìn)來,民意測(cè)試結(jié)果就會(huì)出現(xiàn)三個(gè)點(diǎn)的偏差,而一旦考慮進(jìn)來,偏差就只有一個(gè)點(diǎn)。鑒于這次大選的票數(shù)差距幾期微弱,者已經(jīng)是非常大的偏差了。
更糟糕的是,隨機(jī)采樣不適合考察子類別的情況。因?yàn)橐坏├^續(xù)細(xì)分,隨機(jī)采樣結(jié)果的錯(cuò)誤率會(huì)大大增加。這很容易理解。倘若你有伊恩隨機(jī)采樣的調(diào)差結(jié)果,是關(guān)于1000個(gè)人在下一次競(jìng)選中的投票意向。如果采樣時(shí)足夠隨機(jī),這份調(diào)查的結(jié)果就可能在3%的誤差范圍內(nèi)顯示全民的意向。但是如果這個(gè)3%左右的誤差本來就是不確定的,卻又把這個(gè)調(diào)查結(jié)果根據(jù)性別、地域和收入進(jìn)行細(xì)分,結(jié)果是不是越來越不準(zhǔn)確呢?用這個(gè)細(xì)分過后的結(jié)果來表現(xiàn)全民的一員,是否適合呢?
你設(shè)想一下,一個(gè)對(duì)1000個(gè)人進(jìn)行的調(diào)查,如果要鞋子分到“東北部的富裕“,調(diào)查的人數(shù)就遠(yuǎn)遠(yuǎn)少于1000人了。即使是完全隨機(jī)的調(diào)查,倘若只用了幾個(gè)人來預(yù)測(cè)整個(gè)東北部富裕女性選民的意愿,還是不可能得到精確結(jié)果??!而且,一旦采樣過程中存在任何偏見,在細(xì)分領(lǐng)域索道的預(yù)測(cè)就會(huì)大錯(cuò)特錯(cuò)。
因此,當(dāng)人們想了解更深層次的細(xì)分領(lǐng)域的情況時(shí),隨機(jī)采樣的方法就不可取了。在宏觀領(lǐng)域起作用的方法在微觀領(lǐng)域失去了作用。隨機(jī)采樣就像是模擬照片打印,遠(yuǎn)看很不錯(cuò),但是一旦聚焦某個(gè)點(diǎn),就會(huì)變得模糊不清。
隨機(jī)采樣也需要嚴(yán)密的安排和執(zhí)行。人們只能采樣數(shù)據(jù)中得出事先設(shè)計(jì)好的問題的結(jié)果——千萬不要奢求采樣的數(shù)據(jù)還能回答你突然意識(shí)到的問題。所以雖說隨機(jī)采樣是一條捷徑,但它只是一條捷徑。隨機(jī)采樣方法并不適用與一切情況,因?yàn)檫@種調(diào)查結(jié)果缺乏延展性,即調(diào)查得出的數(shù)據(jù)不可以重新分析以實(shí)現(xiàn)計(jì)劃之外的目的。我們來看一下DNA粉絲。由于技術(shù)成本大幅度下降以及在醫(yī)學(xué)方面的廣闊前景,個(gè)人基因排序成為一門新興產(chǎn)業(yè)。2012年,基因組解碼的價(jià)格跌破1000美元,這也是非正式的行業(yè)平均水平。從2007年起,硅谷的新興科技公司23andme就開始分析人類基因,價(jià)格僅為幾百美元。這可以揭示出人類遺傳密碼中一些會(huì)導(dǎo)致其對(duì)某些疾病抵抗力差的特征,如乳腺癌和心臟病。