當(dāng)前位置: 首頁 > 原創(chuàng)
相關(guān)熱門文章
- 互聯(lián)網(wǎng)企業(yè):真正以客戶為中心
- 互聯(lián)網(wǎng)化的顛覆性創(chuàng)新必定類似創(chuàng)業(yè)型
- 互聯(lián)網(wǎng)時代下的領(lǐng)導(dǎo)力
- 互聯(lián)網(wǎng)思維企業(yè)VS傳統(tǒng)行業(yè)
- 互聯(lián)網(wǎng)化創(chuàng)新人才的流動性與儲備不足
- 互聯(lián)網(wǎng)思維模式下的商業(yè)生態(tài)鏈
- 《互聯(lián)網(wǎng)時代的執(zhí)行力建設(shè)》中糧面業(yè)
- 互聯(lián)網(wǎng)化績效體系導(dǎo)向的改變
- 互聯(lián)網(wǎng)的顛覆性創(chuàng)新將產(chǎn)生于組織之外
- 互聯(lián)網(wǎng)金融營銷時代席卷而來
相關(guān)熱門內(nèi)訓(xùn)課程
- 互聯(lián)網(wǎng)+
- 互聯(lián)網(wǎng)思維管理模式1.0版——中國
- 互聯(lián)網(wǎng)金融
- 互聯(lián)網(wǎng)思維
- 互聯(lián)網(wǎng)思維的執(zhí)行力
- 互聯(lián)網(wǎng)思維的人才選用育留
- 互聯(lián)網(wǎng)營銷方式與技巧
- 互聯(lián)網(wǎng)思維的領(lǐng)導(dǎo)力
- 移動互聯(lián)網(wǎng)
- 互聯(lián)網(wǎng)+工匠精神培訓(xùn)
相關(guān)熱門公開課程
- 互聯(lián)網(wǎng)思維管理模式1.0版——中國
- 互聯(lián)網(wǎng)大數(shù)據(jù)時代的商業(yè)模式創(chuàng)新思維
- 網(wǎng)絡(luò)營銷-互聯(lián)網(wǎng)復(fù)制經(jīng)銷商解決網(wǎng)絡(luò)
- 中國移動集團客戶經(jīng)理行業(yè)信息化營銷
- 企業(yè)信息化規(guī)劃、治理與項目整合
- RoHS指令與電子信息產(chǎn)品污染控制
- 企業(yè)信息化
- 互聯(lián)網(wǎng)時代戰(zhàn)略管理新思維——中國企
- 互聯(lián)網(wǎng)實戰(zhàn)課程-網(wǎng)絡(luò)營銷的魅力
- 構(gòu)建高效的研發(fā)管理體系——打造全生
互聯(lián)網(wǎng)思維培訓(xùn):用最少的數(shù)據(jù)獲得最多的信息
時間:2015-01-06
最近,私人企業(yè)和個人才擁有了大規(guī)模手機和分類數(shù)據(jù)的能力。在過去,這是只有教會或者政府才能做到的。當(dāng)然,在很多國家,教會和政府是等同的。有記載的、最早的計數(shù)發(fā)生發(fā)生在公元前8000年的,當(dāng)時蘇美爾的商人用黏土珠來記錄出售的商品。大規(guī)模的計數(shù)則是政府的事情。數(shù)千年來,政府都試圖通過手機信息來管理國民。
以人口普查為例。據(jù)說古代埃及曾進行過人口普查,《舊約》和《新約》中對此都有所提及。那次由奧古斯都愷撒主導(dǎo)實施的人口普查,提出了“每個人都必須納稅“,這使得約瑟夫和瑪麗搬到了耶穌的出生地伯利恒。1086年的《末日審判書》(The Doomsday Book)對當(dāng)時英國的人口、土地和財產(chǎn)做了一個前所未有的全面記錄。皇家委員穿越整個國家對每個人、每件事都做了記載,后來這本書《圣經(jīng)》中《末日審判書》命名,因為每個人的生活都被赤裸裸地記錄下來的過程就像接受”最后的審判“一樣。
然后,人口普查是一項耗資且費時的事情。國王威廉一世(King William I)在他發(fā)起的《末日審判書》完成之錢就去世了。但是,除非放棄收集信息,否則在當(dāng)時沒有其它辦法。盡管如此,當(dāng)時收集的信息也只是一個大概情況,實施人口普查的人也知道他們不可能準去記錄下每個人的信息。實際上”人口普查”這個詞來源于拉丁語“censere“,意思就是推測,估算。
三百多年輕,一個名叫約翰•格朗特的英國縫紉用品商提出一個很有新意的方法。他采用了一個新方法推算出鼠疫時期倫敦的人口數(shù),這個方法就是后來的統(tǒng)計學(xué)。這個方法不需要一個人一個人地計算。雖然這個方法比較粗糙,但采用這個方法,人們可以利用少量有用的樣本信息來獲取人口的整體情況。
雖然后來證實他能夠得出正確的數(shù)據(jù)僅僅是因為運氣好,但在當(dāng)時他的方法大受歡迎。樣本分析法一直都有較大的隆冬,因此無論是進行人口普查還是其他大數(shù)據(jù)類的任務(wù),人們還是一直使用一一輕點這種“野蠻“的方法。
考慮到人口普查的復(fù)雜性以及耗時耗費的特點,政府極少進行普查。古羅馬在擁有數(shù)十萬人口的時候每5年普查一次。美國憲法規(guī)定每10年進行一次人口普查,而隨著國家人口越來越多,只能以百萬計算。但是到19世紀為之,及時這樣不頻繁的人口普查依然很困難,因為數(shù)據(jù)變化的速度超過了人扣普查局統(tǒng)計分析的能力。
這就是問題所在,是利用所有的數(shù)據(jù)還是僅僅采用一部分呢?最明智的自然是得到有關(guān)被分析事物的所有數(shù)據(jù),但是當(dāng)數(shù)量無比龐大的時,這有不太現(xiàn)實。那如何選擇樣本呢?有人提出有目的地選擇最具代表性的樣本是最恰當(dāng)?shù)姆椒ā?934年,波蘭統(tǒng)計學(xué)家耶日•奈曼指出,這只會導(dǎo)致更多更大的漏洞。事實證明,問題的關(guān)鍵是選擇樣本時的隨機性。
統(tǒng)計學(xué)家們證明:采樣分析的精確性隨著采樣隨機性的增加而大幅度提高,但與樣本數(shù)量的增加關(guān)系不大。雖然聽起來很不可思議,但事實上,一個對1100人進行的關(guān)于“是否“問題的抽樣調(diào)查有著很高的精確性,精確度甚至超過了對所有人進行調(diào)查時的97%。者是真的,不管是調(diào)查10萬人還是1億人,20次調(diào)查理有19次都能猜對。為什么會這樣?原因很復(fù)雜,但是有一個比較簡單的解釋就是,當(dāng)樣本數(shù)量達到了某個值之后,我們從新個體身上得到的信息會越來越少,就如同經(jīng)濟學(xué)中的編輯效應(yīng)遞減一樣。
認為樣本選擇的隨機性比樣本數(shù)量更重要,這種觀點是非常有見地的。這種觀點為我們開辟了一條手機信息的新道路。通過收集隨機樣本,我們可以用較少的花費做出高精度的推斷。因此,政府每年都可以用隨機采樣的方法進行小規(guī)模的人口普查,而不是只能沒十年進行一次。事實上,政府也這樣做了。例如,出了十年一次的人口大普查,美國人口普查局每年都會隨機采樣的方法對經(jīng)濟和人口進行200多次小規(guī)模的調(diào)查。當(dāng)收集和分析數(shù)據(jù)都不容易時,隨機采樣就成為對信息采集困難的辦法。
很快,隨機采樣就不僅應(yīng)用于公共部門和人口普查了。在商業(yè)領(lǐng)域,隨機采樣被用來監(jiān)管商品質(zhì)量。這樣使得監(jiān)管商品質(zhì)量和提升商品品質(zhì)變得更容易,花費也更少。以前,全面的質(zhì)量監(jiān)管要求對生產(chǎn)出來的每個產(chǎn)品進行檢查,而現(xiàn)在只需要從一批商品中隨機抽取部分樣品進行檢查就可以了。本質(zhì)上來說,隨機采樣讓大數(shù)據(jù)問題變得更加切實可行。同理,它將客戶調(diào)查引進了零售行業(yè),講焦點討論引進了政治界,也將許人文問題變成了社會科學(xué)問題。
隨機采樣取得了巨大的成功,成為現(xiàn)代社會、。現(xiàn)代測量領(lǐng)域的主心骨。但這只是一條捷徑,是在不可手機和分析全部數(shù)據(jù)的情況下的選擇,它本身存在許多固有的缺陷。它陳宮依賴于采樣的絕對隨機性,但是實現(xiàn)采樣的隨機性非常困難。一旦采樣過程中存在任何偏見,分析結(jié)果就會相去甚遠。最近,以固定電話用戶為基礎(chǔ)進行投票民調(diào)就面臨了這樣的問題,采樣缺乏隨機性,因為沒有考慮到只使用移動電話的用戶——這些用戶一般更年輕更熱愛自由。沒有考慮到這些用戶,自然就得不到正確的預(yù)測。2008年在奧巴馬與麥凱恩之間進行的美國總統(tǒng)大選中,蓋洛普咨詢公司、皮皮尤研究中心、美國廣播公司和《華盛頓郵報》社這些主要的民調(diào)組織都發(fā)現(xiàn),如果他們不把移動用戶考慮進來,民意測試結(jié)果就會出現(xiàn)三個點的偏差,而一旦考慮進來,偏差就只有一個點。鑒于這次大選的票數(shù)差距幾期微弱,者已經(jīng)是非常大的偏差了。
更糟糕的是,隨機采樣不適合考察子類別的情況。因為一旦繼續(xù)細分,隨機采樣結(jié)果的錯誤率會大大增加。這很容易理解。倘若你有伊恩隨機采樣的調(diào)差結(jié)果,是關(guān)于1000個人在下一次競選中的投票意向。如果采樣時足夠隨機,這份調(diào)查的結(jié)果就可能在3%的誤差范圍內(nèi)顯示全民的意向。但是如果這個3%左右的誤差本來就是不確定的,卻又把這個調(diào)查結(jié)果根據(jù)性別、地域和收入進行細分,結(jié)果是不是越來越不準確呢?用這個細分過后的結(jié)果來表現(xiàn)全民的一員,是否適合呢?
你設(shè)想一下,一個對1000個人進行的調(diào)查,如果要鞋子分到“東北部的富裕“,調(diào)查的人數(shù)就遠遠少于1000人了。即使是完全隨機的調(diào)查,倘若只用了幾個人來預(yù)測整個東北部富裕女性選民的意愿,還是不可能得到精確結(jié)果??!而且,一旦采樣過程中存在任何偏見,在細分領(lǐng)域索道的預(yù)測就會大錯特錯。
因此,當(dāng)人們想了解更深層次的細分領(lǐng)域的情況時,隨機采樣的方法就不可取了。在宏觀領(lǐng)域起作用的方法在微觀領(lǐng)域失去了作用。隨機采樣就像是模擬照片打印,遠看很不錯,但是一旦聚焦某個點,就會變得模糊不清。
隨機采樣也需要嚴密的安排和執(zhí)行。人們只能采樣數(shù)據(jù)中得出事先設(shè)計好的問題的結(jié)果——千萬不要奢求采樣的數(shù)據(jù)還能回答你突然意識到的問題。所以雖說隨機采樣是一條捷徑,但它只是一條捷徑。隨機采樣方法并不適用與一切情況,因為這種調(diào)查結(jié)果缺乏延展性,即調(diào)查得出的數(shù)據(jù)不可以重新分析以實現(xiàn)計劃之外的目的。我們來看一下DNA粉絲。由于技術(shù)成本大幅度下降以及在醫(yī)學(xué)方面的廣闊前景,個人基因排序成為一門新興產(chǎn)業(yè)。2012年,基因組解碼的價格跌破1000美元,這也是非正式的行業(yè)平均水平。從2007年起,硅谷的新興科技公司23andme就開始分析人類基因,價格僅為幾百美元。這可以揭示出人類遺傳密碼中一些會導(dǎo)致其對某些疾病抵抗力差的特征,如乳腺癌和心臟病。