電影訊息
電影評論更多影評

括寶棠

2015-03-16 03:34:55

分析和解讀


霍夫曼扮演的角色在影片結尾時說,儘管我們一生從事著棒球這份職業,可其實我們從未了解它。

看這部片子的觀眾如果不了解棒球,很難理解這部電影中很多話到底在說什麼。比如霍夫曼說出這句話的這一刻,他一定理解了線性回歸為什麼幫助了他們的球隊——奧克蘭A。

本文我想說的是線性回歸的侷限性和人的認知盲點。真可惜豆瓣不能使用圖片。MIT的老師課程中重現了片中主角哈佛高才生Paul的使用線性回歸的過程,數據是一樣的。只是MIT沒有採用置信區間去得出區間,Paul和MIT的結果與真實成績雖近,但對於纖毫畢爭得競技運動,還不夠精確。

棒球運動中的得分,大部份由上壘或者叫跑壘得到,小部份由全壘打得到。高度相關的數據分別是上壘次數,對方上壘次數和得分情況。得分情況直接影響贏得比賽的次數。

MIT使用2011年之前數據預測2012年數據,上壘次數更接近實際情況。而Paul在對方上壘次數和最終贏得場次中更精準。而兩份數據同時顯示,獲得的全壘打次數越多,贏得的比賽次數將更少。真正相關的是防守率和攻擊率(投手和擊球手同時擁有這兩個數據)。尤其是第一點出乎所有球探和教練的經驗,這也是霍夫曼在片中最後一句話的意思。

我們就從全壘打開始,如果在細節上追究得不夠深,我不覺得一個人能在某件事的廣度和深度上得到真正的啟發。

全壘打負相關的原因有二。

一,在棒球界有這麼一種情況,擁有一個完美的可以擊打出全壘打的球員,球隊就很容易賺錢。因為吸引眼球,尤其是在成績極差的隊伍上,他們只花錢購買一個出色擊球手,並同時利用其建立一個悲情氛圍來賺錢。(球迷看全壘打,得到類似高潮的體驗,同時這就是球隊賺錢的點。)而一個成績極差又花大量時間在賺錢上面的球隊,獲勝率有多高就可以想像了。

二,球員在打出全壘打之後,雖然要看具體情況, 但多數時候,隊員的情緒會容易變得激動,這在大多數時候不是好事。(不太符合人們所想,但實際情況就是如此)

而排除出現機率極小的全壘打,正常得分情況是與擊打率和防守率相關的。這點居然大多數經理人,教練和球探都沒有意識到,他們花太多時間在球隊賺錢上了。

我知道這點很多人都會笑,花時間在這種事上有什麼錯誤。不過數據不會說謊,我們還是繼續看數據吧。一個球隊的賺錢能力是在一定範圍內,除非它能同時在棒球以外開發新的領域賺錢。而Moneyball所做的事是省錢,球隊利用技術怪才省下了大筆的一般球探費用,同時購買了更多符合他們數據模型的球員,這些球員有可能被嚴重低估了身價也低。因此,奧克蘭A成為了唯一一個在獲勝場次同等的球隊中最省錢的球隊,在花費同等的球隊中獲勝場次最高的球隊。奧克蘭A與片中結尾出現的「豪門」紅襪隊擁有一樣的獲勝場次,但奧克蘭A每年花費30萬美元,而紅襪隊每年花費100萬美元。

在棒球這個領域所看到的問題與相關人員的解決方法中發現,大部份從業人員都忽視了顯而易見與得分相關的確定的事。就是擊打率和防守率與上壘率直接相關。這句話在日常生活的範疇是一句廢話,但在統計的領域卻至關重要。

線性回歸實際上只能做出一定估計,而且所有學過該科目的人都知道,數據不能做過度擬合,一旦你添加的變量過多,誠然看上去與真實數據十分接近,但卻不再對未來有預測性。還有一點,比賽分常規賽和季後賽,季後賽數據少,賽程短,基本上無法利用此前任何數據得到一個確定的結果。這都是回歸模型的侷限性。

線性回歸還有一個缺陷,就是它是以均值作為一個確定情況的分析工具,就是我們日常理解的平均值。如標準誤差,總離差平方合都是以平均作為其計算方法中的一種。均值在預測上十分無力,為了得到更準確的情況,回歸分析還添加了中位數和加權平均這些概念,實際上不過是撒了一個慌用更大的謊言去掩蓋它們而已。

在充分理解這些可見的缺陷後。我們還應該知道分析和解讀是完全不一樣的兩件事。所謂數據分析,就是我剛才上面所說的利用回歸分析進行一步一步查看數據以得到更近似的結果的過程。而解讀則應該如下,今天的比賽如果王牌擊球手不能上場,球隊還能拿下比賽嗎?引入一個不確定性看上去不符合我之前說的確定性,可是你真的了解清楚了確定性的情況了嗎?如果你了解清楚了,又怎麼會不能解讀了呢?

我現在回想起了霍夫曼在比賽中堅定使用某一球員的眼神。也回想起了2014年世界盃的決賽場上,德國隊缺少了赫迪拉,阿根廷缺少了迪馬利亞。上場一刻兩隊教練的表情是否也傳遞了某種資訊呢。
評論