Saturday, May 03, 2008

談談圖表的「化約」

昨天王建民拿下本季第六勝,PTT上的鄉民大家都興高采烈的討論目前在勝投榜上王建民的對手有哪些。結果有個熱心的鄉民用BBS介面畫了一張圖表:

1


其實我無意苛責什麼,用BBS介面畫圖表說不定真的很難(至少我就不會),但就圖表而論,這張圖表犯了很多錯誤:

 ‧建議用長條圖而非柱狀圖。面臨項目比較時,柱狀圖多半用在與日期有關的比較上,所以如果只是數字高低排列,長條圖還是比較清楚。

 ‧三個數據的座標軸都不一樣。這個情況如果只有表達兩個數據可能還好(一個看左邊Y軸、另一個看右邊Y軸),但是這圖表同時表達了「勝投數」、「防禦率」、「三振」,又沒有附上座標軸,這樣就會變成三振20次、5勝與防禦率1.98一樣高?

 ‧用顏色來區別數據,反而會造成畫面的混亂。不是說不能用,但我認為,如果你畫的圖表必須要用「圖示」的方式,可能代表你要表達的數據是不是太多了。「圖示」除了會讓讀者額外負擔「來回參照」的麻煩外,顏色暗示的意義也應該謹慎處理。像這張圖把防禦率用綠色,會讓人誤以為有「愈高愈正面」的意思。

「說這麼多,那你自己畫的又如何呢?」所以顧不得昨天看到這張圖表已經午夜12點多,我還是馬上就來研究一下,這樣的數據到底該怎麼表達。

‧用英文字母排列其實沒意義
原作者圖表項目的排列順序,除了簡單依照勝投依序排列外,對於一樣勝投數的投手並沒有謹慎處理順序,王建民排第一,但是他的三振與防禦率都比Webb差,後面四個並列五勝的投手,除了「用英文字母排列」外,我找不出別的邏輯,但在這張圖表上,用英文字母排有意義嗎?我想這是在製作圖表前應該思考的。

先把圖表還原成表格:

3


老實講,還原成表格後,我反而覺得比原作者畫的圖表還要來得清楚些XD。

一還原我就發現一個問題,就是如果同時處理防禦率跟勝投數還好,但如加入三振次數,會把座標軸拉得很大很開,把防禦率的差距縮小很多。

三振次數拉開了Y軸


所以我想到把三振次數換成K/9,說不定會比較好掌握。

繪圖2


上圖是昨天睡覺前完成的。其實我很不滿意,原因是因為同時表達三個數據,雖然我避開了來回參照的圖示,但是整體還是顯得有點凌亂不易理解。其實這裡頭犯了一個迷思,就是你擺進圖表的數據,是不是真的有意義?就這個例子來講,把勝投與防禦率放在一起,可以比較這個投手拿勝投是靠自己還是靠隊友,但如把三振拿來一起看,是不是就顯得好像意義不大?

(按:因為三振就意義上來看,只是一個一個的出局數,跟滾地球出局,在表面上的差別不大。三振多的投手,還是有可能被打爆。一般勝投排行榜如果出現並列,多半會再比防禦率而非三振數。)

也許你會說,「像你這樣畫,根本就無法凸顯其他投手在數據上的表現啊。只有圖表沒有數據,這樣誰知道啊?」如果是這樣的話,我會建議你去看表格。在圖表上每一個都標上數據,那只是「圖表格」而已,失去製作圖表的意義。

‧試著「化約」看看
今天早上起床我又想了一想,因為在這個數據上,勝投數變化比較少(就只有6勝跟5勝兩種,如果現在是球季後半段也許變化會更多),但在這裡如果讓座標軸遷就這兩個簡單的數據,其實反而麻煩;不如把它化約一下,讓整體圖表顯得更簡單一點。

2008 MLB五勝以上投手比較

(更清楚的版本按此

這樣是不是更簡單了?

但嚴格來講,我還是不認為三振數跟其他兩個數據擺在一起畫圖表有什麼更好的意義。畫到後來還是要回歸一個重點,就是你畫這張圖表,重點到底是什麼?你到底想表達什麼?如果你想藉由圖表鉅細靡遺的呈現所有數據,那我還是建議還是別浪費時間,乖乖做表格就好。