常識統計學,拆穿混淆的假設、揪出偏差的數據、識破扭曲的結論,耶魯大學最受歡迎的十八堂公開課

常識統計學:拆穿混淆的假設、揪出偏差的數據、識破扭曲的結論,耶魯大學最受歡迎的十八堂公開課
常識統計學:拆穿混淆的假設、揪出偏差的數據、識破扭曲的結論,耶魯大學最受歡迎的十八堂公開課

★2013年诺贝尔经济学奖得主、《钓愚:操纵与欺骗的经济学》作者罗伯‧席勒(Robert J. Shiller)重磅推荐
★全美各大名校经济学教授一致赞誉

为什么我们用毫无意义的统计资料来引领思考与行动?
为什么我们相信电脑从不犯错,不管丢什么垃圾进去,吐出的数据都是真理?
为什么专家欺骗我们,而我们也常欺骗自己?
把统计当工具前,先搞懂统计常识!
运用数据做决定前,先学会不被数据欺骗!

每天喝两杯咖啡会增加罹癌风险?
在农历五行中的火年出生的人更容易死于心脏病?
卓越的公司有共同的成功特质与模式?
自杀倾向和出生月份有关?

数据可以帮助我们评估局势,做出良好选择;
数据也可能误导我们,做出错误决策。
大数据时代,
问题不再是没有足够资讯做判断,而是如何不被眼前的资料误导。

到底该不该喝咖啡?每天该喝几杯咖啡?
该选择哪家航空公司?
如何投资?运彩怎么买?

当数据会影响你的日常决策,
当骗子也习惯用数据说话,
你更需要学会辨识隐藏在数字背后的陷阱与诡计。

耶鲁大学教授运用基本统计学原理,
只要会加减乘除,就能揭穿日常生活中的各种数据骗局,
并传授避免落入数字陷阱的简单准则:

◎为什么我们容易被数据欺骗?
人们容易被模式、解释模式的理论吸引,有意或无意地忽略与之矛盾的数据。

◎数据如何欺骗我们?
‧忽略干扰因素:章鱼保罗预测世界杯赛事结果成功率高达九成,但该结论忽略了章鱼偏好横向条纹图案的因素,它只是选择自己喜欢的国旗样式。

‧幸存者偏差:对于敌军最常攻击飞机哪些部位的观察,不会包含那些已经被击落无法返航的飞机。对航空公司满意度的调查,不会包含那些只搭过一次就不再来的乘客。

‧变形的图像:图像可以帮助我们解读数据,但也可能扭曲或破坏数据。一旦省略数据、颠倒数轴或使用不一致的数轴间隔,将形成截然不同的图表,产生误导。

◎如何区分真确与胡诌?
‧常识判断:对于看似严谨,但不太合常理的说法,应寻求压倒性的证据支持。
‧新数据检验:采集新的资料,对既有的解释进行检验。

书摘部分:


模式、模式、模式

在我所生活的南加州,青少年熱衷於足球。這運動花費不高又有趣,各種身高和體型的男女都可以參與其中。起初,我對足球一無所知。我只知道在每個週末,城市裡的公園和操場上都會有許多身穿鮮豔隊服的孩子追著足球跑來跑去,他們的家長則會站在一旁為他們歡呼。當我兒子長到合適的年紀時,我們也成了其中一員。

二〇一〇年世界盃時,我兒子在南加州一家頂級足球俱樂部踢球。我是這家俱樂部的經理,也是足球的狂熱愛好者,因此我們一起看了能夠看到的每一場世界盃比賽。決賽是荷蘭對上西班牙,這是兩支巨星雲集的隊伍,但是他們的國家隊常常無法取得很好的成績,這使他們的支持者非常失望。哪個國家最終能夠贏得世界盃?我喜愛荷蘭隊,他們拿下這屆世界盃的前六場比賽,進了十二個球,只丟了五個球,而且淘汰了強大的巴西和烏拉圭。接著,我聽說了章魚保羅(Paul)的故事。人們將裝有食物、貼有國旗的塑膠盒子放在保羅面前,讓牠選出勝組。通過這種方式,保羅正確預測出了七場世界盃比賽的獲勝者。在決賽前,預言家保羅選擇了西班牙,因此全世界似乎都認為西班牙將會成為勝利隊伍。

到底發生了什麼事情?一隻黏糊糊的、缺乏智商的無脊椎動物怎麼可能比我更加了解足球呢?我感到好笑,等待著無所不知的保羅在全世界面前丟臉。我失算了。荷蘭隊沒有表現出應有的創造性和才華。在一場粗暴而蹩腳的比賽中,裁判亮出了十四張黃牌——其中九張給了骯髒的荷蘭人。憑藉終場前四分鐘的進球,西班牙隊取得了勝利。

水箱裡的章魚怎麼可能預見這種事情?保羅看過足球比賽嗎?牠有大腦嗎?

實際上,章魚是最聰明的無脊椎動物。不過,就像是在一群侏儒裡找高個子一樣,這並沒有解決任何問題。儘管如此,保羅仍然進行了八次世界盃預測,而且無一失手。此外,保羅還在二〇〇八年歐洲足球錦標賽期間進行了六次預測,成功了四次。加上二〇一〇年世界盃,保羅一共進行了十四次預測,成功了十二次。在許多人看來,這足以從統計上證明保羅的超自然能力。不過,這些資料真的足夠嗎?

如果進行十四次公正的拋硬幣實驗,得到十二次或十二次以上正面的可能性,只有不到一%。同樣的道理,如果保羅僅僅是一個沒有特殊運氣的猜測者,每次正確預測的可能性為五〇%,那麼它多次預測成功的機率只有不到一%,這個機率非常低,足以看成具有「統計顯著性」。由於保羅多次預測成功的可能性如此之低,因此我們可以合理地排除運氣的成分。保羅一次又一次的成功,證明牠不僅僅是一個幸運的猜測者,牠的確是「具有超能力的章魚保羅」!

不過,這件事似乎有些蹊蹺。章魚真的有可能預測未來嗎?保羅的表現,恰巧可以引出統計研究領域的一些常見問題。保羅不是超能力者(真是令人驚喜),而是一個應當引以為戒的反面教材。當你下次聽到某種荒誕的說法時,你應當保持警覺心。

干擾效應

首先,讓我們看一看保羅如何進行預測。在餵食的時候,人們會把兩隻正面黏有球隊國旗的透明塑膠盒子放在保羅面前。盒子裡放著相同的美味食物,比如淡菜或者牡蠣。保羅第一個打開的盒子就是牠所預測的勝利隊伍。

章魚並不十分了解足球,但牠們擁有出色的視力和良好的記憶力。新英格蘭水族館的一隻章魚對一名志工很反感,每當牠看到這名志工時,都會向她噴海水。後來,這名志工離開水族館,上大學去了。當她幾個月後回來時,章魚仍然記得她,並且立即用海水噴濕了她的衣服。西雅圖一家水族館做了一項實驗,一名志願者為章魚餵食,另一名穿著同樣衣服的志願者用木棍逗弄章魚。一個星期以後,大多數章魚都能區分這兩個人。當牠們看到「好人」時,牠們會向對方靠近;當牠們看到「壞人」時,便會離開(有時還會向他噴出許多海水)。

「具有超能力的章魚保羅」生活在德國的一家水族館裡。除了西班牙和荷蘭的世界盃決賽,保羅只預測了德國隊參加的比賽。在德國參加的十三場比賽中,保羅十一次選擇了德國——而德國贏了其中九場比賽。保羅之所以選擇德國,是因為牠對德國的對手進行了詳細的分析,還是因為牠喜歡德國國旗?保羅幾乎一定是色盲,不過實驗表明,章魚能夠辨識明暗度,而且喜歡橫向形狀。德國國旗由三塊鮮豔的水平條紋組成,塞爾維亞和西班牙的國旗也是如此,而保羅只選擇過這三個國家。實際上,西班牙和德國的國旗非常相似,這也許可以解釋,為什麼保羅在西班牙和德國之間的兩次比賽中選了一次西班牙,並在世界盃決賽中選擇了西班牙而不是荷蘭。保羅只有一次沒有選擇德國或西班牙國旗,那場比賽塞爾維亞對上了德國。

國旗顯然是一個干擾因素,因為保羅選擇的並不是最佳足球隊,而是牠最喜歡的國旗。說到底,「無所不知的保羅」只是一隻缺乏智商的章魚而已。

圖 1-1 保羅最喜歡的國旗
圖 1-1 保羅最喜歡的國旗

 

選擇性報告與謊言

對於保羅的成功,另一種解釋是,許多人多次嘗試過這種愚蠢的寵物把戲,用寵物來預測體育、彩券和股票領域的獲勝者。

在一千個拋硬幣的人之中,一定會有一些人連續拋出十次正面。同樣的道理,在這些嘗試寵物把戲的人之中,一定會有一些人成功。你覺得誰會獲得報導呢?是選中獲勝隊伍的章魚,還是無法做出成功預測的鴕鳥?

幾年前,《達拉斯晨報》(Dallas Morning News)的一位體育專欄作家度過了極為倒楣的一個星期,他在選擇國家美式足球聯盟(NFL)比賽的獲勝球隊時猜對了一次,猜錯了十二次,還有一場比賽是平局。他寫道:「理論上來說,如果讓達拉斯動物園裡的一隻狒狒觀看十四場NFL比賽的賽程,讓牠為每場比賽選擇一支球隊,牠可以至少選出七支獲勝球隊。」第二個星期,達拉斯動物園裡的大猩猩「坎達大帝」(Kanda the Great)藉由選擇訓練員手裡的紙條進行了預測。結果,坎達猜對了九次,猜錯了四次,擊敗了《達拉斯晨報》的所有六位體育專欄作家。媒體像發現食物的餓狼一樣,爭相報導這個故事。不過,如果坎達的表現沒有這麼好,比如猜對六次,猜錯七次,還會被人報導嗎?

明尼蘇達州蘋果谷市明尼蘇達動物園的官員也不甘示弱,他們表示,一隻叫做明迪(Mindy)的海豚成功預測出了NFL比賽的結果。他們製作了一些樹脂玻璃片,每個玻璃片上寫有不同球隊的名稱。他們將每場比賽隊伍對應的兩塊樹脂玻璃片扔到明迪的游泳池裡,被明迪交還給訓練員的那塊玻璃片便是「預測」。訓練員表示,明迪在五十三場比賽中猜對了三十二場。根據這種說法,明迪的成功率為六〇%,這足以幫助人們藉此贏得美式足球比賽的賭局。

有多少鳥兒、蜜蜂和野獸曾經嘗試預測NFL比賽、但預測失敗而沒有得到報導呢?我們一無所知,而這正是問題的關鍵。如果數百隻寵物曾經被迫進行毫無意義的預測,而且我們只知道上過新聞的成功寵物,沒有考慮到數百隻沒上新聞的失敗寵物,我們就會產生錯誤的想法。

這個問題不限於美式足球。明尼亞波利斯的一名股票經紀人曾經吹噓說,當他選擇股票時,他會把《華爾街日報》(The Wall Street Journal)鋪在地板上,讓他的黃金獵犬把右前爪放在報紙上,然後選擇牠第一個指甲碰到的股票。他認為這種說法可以吸引投資者的關注,這說明他本人可能是有問題的——他的顧客可能也有問題。

另一個因素是,為了出風頭,人們可能會捏造資料,以便吸引公眾的注意。明尼亞波利斯那個股票經紀人和他的狗每天早上都會得到公正的監督嗎?過去,橋牌曾經是美國最流行的紙牌遊戲,當時有許多人向當地報紙表示,他們抽到了同一花色的十三張牌。一位喜歡數學的橋牌選手研判,通報次數太過離譜。考慮抽到這種牌的可能性,當時總局數遠遠不足以產生如此眾多的「同花色局」。值得注意的是,報出來的花色通常是黑桃。顯然,為了讓自己的名字出現在報紙上,人們修改了自己的經歷。

在章魚保羅獲得全世界的關注以後,新加坡一個原本默默無聞的算命先生便表示,他的助手長尾小鸚鵡馬尼(Mani)正確預測出了世界盃八強四支獲勝球隊。於是,馬尼獲得了全世界的關注。接著,牠預測了後面的比賽,認為在四強賽中烏拉圭將擊敗荷蘭,西班牙將擊敗德國,而在決賽中,西班牙將擊敗烏拉圭。在荷蘭戰勝烏拉圭以後,馬尼改變預測,選擇了荷蘭,這個結果當然又錯了。不過,前來拜訪這位算命先生的顧客,從每天十個人增加到了每小時十個人——面對這個結果,你可能會疑惑:這位主人的動機真的僅僅是娛樂嗎?最初馬尼的八強賽預測是真的嗎?

保羅和馬尼本應默默無聞。為什麼牠們會聲名鵲起、受到足球愛好者的認真看待,甚至受到他們的讚美和詛咒?真正有問題的不是牠們,而是我們自己。

……

如果你对《常識統計學:拆穿混淆的假設、揪出偏差的數據、識破扭曲的結論,耶魯大學最受歡迎的十八堂公開課》这本书感兴趣,可以在下面下载这本书的epub版本:

发表评论