Thursday, August 09, 2007

散佈圖初探

有機會看到這篇blog,或偶會瀏覽小弟Flickr中的圖表的朋友,應該不難發現小弟特偏好「量化圖表」;其中又以能夠呈現數據質量感的柱狀圖(column)、長條圖(bar)及圓餅圖(circle)為多。折線圖(line)出現的機率極少,而散佈圖(line),老實說小弟還沒畫過。

其實真正的資訊圖表,量化圖表只是其中的一部份,而量化圖表的形式又何止侷限在上述幾種類型而已?有可能是恰好小弟想表達的數據剛好較適用長條圖、橫條圖與折線圖。但我發現,這樣長久以來的「恰好」可能會導致我在製圖上的盲點:就是習慣以這三種類型為優先思考。

-----------------------------------------------------------------------------------------------------

今天要來處理的數據是「台鐵的火車票價與準點率之關係」,這是我去年就盯上的題材。台鐵以往總是被人貼上「虧損、散漫、公務員心態、不負責任」的標籤,偶來一個大誤點、大改點,往往會成為媒體注目的焦點,相關的補償措施也常常被社會大眾盯的滿頭包。我就想:既然台鐵各級列車時速都差不多(約110~130km/h),差別只在於停的站多寡的話,那我們繳的錢到底價值在哪?

持著這樣的好奇心,經過資料的蒐集後,出現了這樣的結果:

‧錯誤的慣性思考

火車愈快愈不準時


若先看黑色的橫條,可以很明顯的發現票價的高低依序是自強號、莒光號、復興號、普通車;但同樣一個項目排序,若注意到較淡的灰色橫條,就可以發現票價愈低的車次,準點率反而愈高!

OK,或許你覺得這樣的畫法已經有突顯到我想表達的「火車愈貴愈不準時」了,先別急,你先看看下一張圖:


票價愈高愈不準時


怎麼樣?同是長條圖的畫法喔,只是一個是群組型長條圖,一個是成對型長條圖(Paired bar),呈現相同的訊息,但是在視覺的乾淨度上,成對型的是不是比群組型好?

其實群組型長條圖,比較適合表現同一個項目在不同時間情況下的呈現,若要強調兩個項目間的關係(按:此圖為「票價」與「準點率」的關係),成對型長條圖的表現還是較為恰當。

如果你以為這樣就結束了,其實還有個選擇:

‧散佈重「趨勢」,長條重「質量」

付愈多錢不代表愈準時


沒錯,這是小弟第一次嘗試畫散佈圖。雖說散佈圖與成對型長條圖所呈現的資訊圖像意義相同,但實際製作後,就可發現成對型長條圖比散佈圖更能表達數據所呈現的質量感(可應用在欲表達數據間的落差),但散佈圖在「趨勢感」則明顯較成對型長條圖為優。

就這此使用的數據來看,成對型長條圖的表現似乎比散佈圖更好。此次比較的數據只有四組,在散佈圖上的趨勢性較不強烈,而在成對型長條圖呈現的「自強/不準時」與「普通/很準時」的數據質量感,很明顯的較為具體;但事實上,若今天比較的數據超過10項以上,成對型長條圖呈現的圖形可能會顯得有點凌亂,此時散佈圖的表現可能會比直方圖好些。

另外,散佈圖上還有兩個地方可以跟大家來討論一下。散佈圖上各個資料的點所代表的名稱,到底該用在點的旁邊,還是標上序號,再於圖的空白處說明?我個人是認為,鑑於減低讀者來回參照的麻煩,在散佈圖數據數量較少,且圖上空間允許名稱不會互相干擾的情況之下,可以寫在點旁;若數據較多,就可用參照的方式說明。畢竟數據一多,數據的趨勢意義應該比相對型長條圖強調的「個體差異」還要重要。如果真要在很多數據形成的散佈圖上強調個體差異,我是覺得可以只把你要強調的數據名稱標示出來就好,其他的就省略也無妨。

‧「預想模式」該指向哪方?

另外一個就是「預想模式」的問題。在這次散佈圖上,我加了一條強調「預想模式」的趨勢線;這條趨勢線的意義在於表達「人們原本以為」的情況。意思就是,人們一般都認為票價愈高,列車到站的準點率應該愈高,若真是如此,整體點的分佈應該會朝該箭頭的所引導的趨勢集中;但就圖上四個點來看,其實是恰恰相反的。

「預想模式」雖說是幫助讀者理解,但製圖者或演說者必須額外支出時間向讀者說明如何閱讀,就「縮短閱讀資料時間、快速形成印象」的製圖意義來看,似乎是相違的。若真為如此,此箭頭是不是該改成與圖中欲強調之趨勢相符為佳?(老實說我也沒答案)


付愈多錢不代表愈準時2


‧散佈圖可能產生的視覺誤差

談到這裡,眼尖的讀者應該有發現,在成對型長條圖中,普通車跟復興號的準點率分別為「98.5/98.9」,但若表示在散佈圖上,看起來是不是像100%?

我想這是各類圖表都有可能產生的缺點,就是較接近100%的數據,在圖表「正常規格」的表達下,無法明確的顯示其數據,會有「100%」的假象;如果真的表達出來,必須要拉到這樣長才行:

散佈圖的盲點


如果被誤解的數據並不是主要表達的內容,我覺得可以容許這種非統計性的誤差;但如果會影響到數據失真,那可就不行了。

綜合以上來看,如果要表達兩個變數間的關係,在數據少的情況下,成對型的長條圖似比散佈圖更好,但若數據一多,散佈圖的趨勢上的視覺解讀就比成對型長條圖好。但請注意喔,這裡並不是說散佈圖會導致讀者對資料的誤解,只是「相對較好」而已。

況且散佈圖種類也不只這一種喔,以後有機會遇到再跟大家分享!

-----------------------------------------------------------------------------------------------------

後記:雖說資訊圖表的製作與類型選擇,對於欲呈現的數據意義而言佔有非常重要的地位,但最後還是要回歸到數據本身的重要性吧?

就這張圖來看,是不是某種程度打破你我「付愈多錢就有愈高級、愈有水準、愈不會出差錯的服務」的迷思與成見呢?

從事過服務業後,我常覺得你收人家錢,就是要對你的服務內容負起責任;這個概念小至便利商店營業員,乃至於公務員在上班時的表現(你是收納稅人的錢)等等,都在這個範疇之中。而決定你這個服務值多少錢,關鍵就在於你提供了多少服務。今天台鐵如果只是單純的以「付比較多錢就『只是』比較快一點,其他的都沒差」的心態來要求自己旗下的服務品質,也難怪在面臨航空、客運乃至於高鐵的競爭下,會連連虧損(excel檔)了。