Monday, December 10, 2007

圖表四格漫畫試作

別忘了拍照留念!



承蒙Dr.李帶進圖表的領域,我從單純的將數據視覺化,慢慢的注意到「如何用圖表發覺有趣的數字現象」。

我相信所有的記者(不認真的記者除外)應該都會注意到,這一兩年吵得很熱的「政府資訊公開法」。儘管現在政府對於資訊公開的原則訂定的非常的模糊且沒有強制力,但我想除了記者們除了一方面繼續衝撞、督促政府依法令公開資訊外,另外一方面的腳步也不該停歇,應該從現有政府公開的資訊,去挖掘一些隱藏「在細節的魔鬼」才對。

而身為一個資訊圖表的追隨者(推動者應該是江湖人稱「圖表鬼見愁」李博士才是XD),我自己在向身旁的人解說資訊圖表的重要性,乃至於一些製作的原則時,往往帶來的都是一些敷衍的眼神及不甚瞭解的語氣,這其實是很令人心寒的!大多數人都不知道圖表的製作是有它一些特殊的脈絡可循,絕對不是打開EXCEL框起來框起來按圖表再按完成這麼簡單!

綜合以上,我覺得要推動「圖表運動」,除了要將隱藏在數字背後的資訊透過圖表有效率的表達出來外,如何讓圖表變得有故事性,是我最近突然發想的一個idea。於是,就出現了這個東西:

圖表四格漫畫


這四張圖表的資料來源全是由交通部網站所公布的統計數據,重點就是在強調雖然會自己開車的女生愈來愈多,但真的會以開車為職業的女性,其實並不多。我不知道說國外幾個女權比較進步的國家,在職業上的性別差異是不是也像台灣這麼嚴重?會造成這樣差異的原因,不曉得跟治安有沒有關係?

話再說回來,雖然這是交通部提供的資料,我還是要建議大家看看「圖表的概念」就可以了。原因是因為,交通部這份資料的來源全是靠問卷得來,除了樣本數、抽樣方式等完全沒有公布外,這種按照百分比的作法容易使趨勢產生失真。舉例來講,女性自行開車的比例雖然有逐年上升,但由於是全部100%,有可能代表是因為男性自行開車的比例下降,才會使女性自行開車的比例「相對的」上升;抑或女性自行開車的人數增加的比男性多,但因為男性先天分母比較多,造成女性成長比例無法完全反應?

不過我還真不懂,這種資料從各地監理站匯集不就得了,為什麼要用問卷這種不精確的方式呢?

Friday, August 17, 2007

世界上最遠的距離XD(關係圖試作)

一表三千里


據說很多司法圈的記者早就知道,王金平侯寬仁有「遠房親戚」的關係。結果王金平接受媒體查證時,說了一句華人常見的俚語「一表三千里」來形容他跟侯寬仁的關係。其實作成關係圖來看,這關係並不算太遠,一言以蔽之就是「侯寬仁的姐(妹)夫是王金平的小舅子」;但就華人慣有的親戚交往圈來看,王金平和侯寬仁不熟甚至說沒有來往,是可以理解的。

只是諷刺的是,王金平和侯寬仁的這層關係,竟然因為侯寬仁起訴王金平的「另類政敵」馬英九而浮上檯面。那王金平和侯寬仁的關係若是「三千里」,那王金平和這位同黨同志馬英九的關係應該是「????」里?

Thursday, August 09, 2007

散佈圖初探

有機會看到這篇blog,或偶會瀏覽小弟Flickr中的圖表的朋友,應該不難發現小弟特偏好「量化圖表」;其中又以能夠呈現數據質量感的柱狀圖(column)、長條圖(bar)及圓餅圖(circle)為多。折線圖(line)出現的機率極少,而散佈圖(line),老實說小弟還沒畫過。

其實真正的資訊圖表,量化圖表只是其中的一部份,而量化圖表的形式又何止侷限在上述幾種類型而已?有可能是恰好小弟想表達的數據剛好較適用長條圖、橫條圖與折線圖。但我發現,這樣長久以來的「恰好」可能會導致我在製圖上的盲點:就是習慣以這三種類型為優先思考。

-----------------------------------------------------------------------------------------------------

今天要來處理的數據是「台鐵的火車票價與準點率之關係」,這是我去年就盯上的題材。台鐵以往總是被人貼上「虧損、散漫、公務員心態、不負責任」的標籤,偶來一個大誤點、大改點,往往會成為媒體注目的焦點,相關的補償措施也常常被社會大眾盯的滿頭包。我就想:既然台鐵各級列車時速都差不多(約110~130km/h),差別只在於停的站多寡的話,那我們繳的錢到底價值在哪?

持著這樣的好奇心,經過資料的蒐集後,出現了這樣的結果:

‧錯誤的慣性思考

火車愈快愈不準時


若先看黑色的橫條,可以很明顯的發現票價的高低依序是自強號、莒光號、復興號、普通車;但同樣一個項目排序,若注意到較淡的灰色橫條,就可以發現票價愈低的車次,準點率反而愈高!

OK,或許你覺得這樣的畫法已經有突顯到我想表達的「火車愈貴愈不準時」了,先別急,你先看看下一張圖:


票價愈高愈不準時


怎麼樣?同是長條圖的畫法喔,只是一個是群組型長條圖,一個是成對型長條圖(Paired bar),呈現相同的訊息,但是在視覺的乾淨度上,成對型的是不是比群組型好?

其實群組型長條圖,比較適合表現同一個項目在不同時間情況下的呈現,若要強調兩個項目間的關係(按:此圖為「票價」與「準點率」的關係),成對型長條圖的表現還是較為恰當。

如果你以為這樣就結束了,其實還有個選擇:

‧散佈重「趨勢」,長條重「質量」

付愈多錢不代表愈準時


沒錯,這是小弟第一次嘗試畫散佈圖。雖說散佈圖與成對型長條圖所呈現的資訊圖像意義相同,但實際製作後,就可發現成對型長條圖比散佈圖更能表達數據所呈現的質量感(可應用在欲表達數據間的落差),但散佈圖在「趨勢感」則明顯較成對型長條圖為優。

就這此使用的數據來看,成對型長條圖的表現似乎比散佈圖更好。此次比較的數據只有四組,在散佈圖上的趨勢性較不強烈,而在成對型長條圖呈現的「自強/不準時」與「普通/很準時」的數據質量感,很明顯的較為具體;但事實上,若今天比較的數據超過10項以上,成對型長條圖呈現的圖形可能會顯得有點凌亂,此時散佈圖的表現可能會比直方圖好些。

另外,散佈圖上還有兩個地方可以跟大家來討論一下。散佈圖上各個資料的點所代表的名稱,到底該用在點的旁邊,還是標上序號,再於圖的空白處說明?我個人是認為,鑑於減低讀者來回參照的麻煩,在散佈圖數據數量較少,且圖上空間允許名稱不會互相干擾的情況之下,可以寫在點旁;若數據較多,就可用參照的方式說明。畢竟數據一多,數據的趨勢意義應該比相對型長條圖強調的「個體差異」還要重要。如果真要在很多數據形成的散佈圖上強調個體差異,我是覺得可以只把你要強調的數據名稱標示出來就好,其他的就省略也無妨。

‧「預想模式」該指向哪方?

另外一個就是「預想模式」的問題。在這次散佈圖上,我加了一條強調「預想模式」的趨勢線;這條趨勢線的意義在於表達「人們原本以為」的情況。意思就是,人們一般都認為票價愈高,列車到站的準點率應該愈高,若真是如此,整體點的分佈應該會朝該箭頭的所引導的趨勢集中;但就圖上四個點來看,其實是恰恰相反的。

「預想模式」雖說是幫助讀者理解,但製圖者或演說者必須額外支出時間向讀者說明如何閱讀,就「縮短閱讀資料時間、快速形成印象」的製圖意義來看,似乎是相違的。若真為如此,此箭頭是不是該改成與圖中欲強調之趨勢相符為佳?(老實說我也沒答案)


付愈多錢不代表愈準時2


‧散佈圖可能產生的視覺誤差

談到這裡,眼尖的讀者應該有發現,在成對型長條圖中,普通車跟復興號的準點率分別為「98.5/98.9」,但若表示在散佈圖上,看起來是不是像100%?

我想這是各類圖表都有可能產生的缺點,就是較接近100%的數據,在圖表「正常規格」的表達下,無法明確的顯示其數據,會有「100%」的假象;如果真的表達出來,必須要拉到這樣長才行:

散佈圖的盲點


如果被誤解的數據並不是主要表達的內容,我覺得可以容許這種非統計性的誤差;但如果會影響到數據失真,那可就不行了。

綜合以上來看,如果要表達兩個變數間的關係,在數據少的情況下,成對型的長條圖似比散佈圖更好,但若數據一多,散佈圖的趨勢上的視覺解讀就比成對型長條圖好。但請注意喔,這裡並不是說散佈圖會導致讀者對資料的誤解,只是「相對較好」而已。

況且散佈圖種類也不只這一種喔,以後有機會遇到再跟大家分享!

-----------------------------------------------------------------------------------------------------

後記:雖說資訊圖表的製作與類型選擇,對於欲呈現的數據意義而言佔有非常重要的地位,但最後還是要回歸到數據本身的重要性吧?

就這張圖來看,是不是某種程度打破你我「付愈多錢就有愈高級、愈有水準、愈不會出差錯的服務」的迷思與成見呢?

從事過服務業後,我常覺得你收人家錢,就是要對你的服務內容負起責任;這個概念小至便利商店營業員,乃至於公務員在上班時的表現(你是收納稅人的錢)等等,都在這個範疇之中。而決定你這個服務值多少錢,關鍵就在於你提供了多少服務。今天台鐵如果只是單純的以「付比較多錢就『只是』比較快一點,其他的都沒差」的心態來要求自己旗下的服務品質,也難怪在面臨航空、客運乃至於高鐵的競爭下,會連連虧損(excel檔)了。

Friday, June 16, 2006

亂入!溺水與媒體涵化

媒體開放之涵化效果與意外之相關


「投降輸一半!」先承認,這張圖表是來亂入的。雖然總是嚷嚷我老媽受到電視新聞涵化的影響才會不喜歡讓我去海邊玩,但是自己畢竟浸潤媒介資訊時久,也難免對海邊有些負面的印象。

回來後一查網路資料,才發現白沙灣曾經榮獲海巡署十大危險海灘之首,還真是讓我嚇出一身冷汗!

但對於受社會科學教育、又學過精確新聞報導的我來講,如果就這樣讓「海邊=容易發生意外」這樣的媒體誤現蔓延下去,也太~~辜負我之前所受過的教育了。

所以,登登!這張圖表就誕生了。本著涵化理論的角度出發,這張圖表嘗試把我國媒體開放所造成的資訊量大增,與一般民眾對於海灘危險的認知程度連結,進而在從事戲水等活動時會更謹慎。圖中點出的幾個點都有其象徵意義:從報禁解除造成的媒體開放,到有線電視合法化、廣電三法通過使得衛星頻道湧現,媒體在激烈競爭下對社會、災禍新聞的渲染,最後到民國92年蘋果日報來台,其對於社會新聞的偏好與議題擴散,在在都使得社會、災禍新聞成為當今最hito的收視率保證。

講了那麼多,還是要再度提醒:這張圖是亂入的XD!要知道,意外溺水死亡的人數呈現下降的趨勢,除了可能與媒體喜愛社會災禍新聞的渲染,所造成的警惕效果外,主管單位的宣導與防範、台北市將游泳列為國民教育的畢業條件、乃至於水泥岸的逐漸增加使得民眾戲水場地變少等等,都可能相關,豈是小弟區區一張圖表就可以說明?

Sunday, April 30, 2006

從「零」開始

鎮宇大學時期較優科目錯誤示範


之前為了在研究所的推甄資料上呈現自己的成績(另一方面也是為了「展」一下自己的圖表功力),我在自傳上附了這張圖表。

當然,在資料送出去前,我也給了很多人看過這份自傳,當時大家都覺得沒什麼問題;雖然後來「時也、命也、運也,非我不能也」,台大、政大的推甄都不幸落榜,但我一直認為是自己努力不夠,這份自傳沒什麼「問題」。

直到最近為了準備世新新聞所的面試,我安排了很多德高望重的大師幫我模擬面試,其中也包括的在圖表界是大腕級、牛B級的李怡志大師。果不出其然,他一看到我的自傳,馬上就先問我:「你這張圖為什麼不從0開始?」

不是從零開始


嘿嘿,我想大家一時之間也沒察覺到吧!怡志一提醒,我趕忙回到excel原始檔去查看,果然沒錯,它是從75分開始的!

這又要談談excel的「美麗與哀愁」了。excel常常會自以為很貼心的設計一些功能,而這樣自動功能常常讓不明就裡的使用者發生一些操作上的失誤,就是說,聰明自誤?(摩亞口吻)

鎮宇大學時期較優科目


其實這張圖表從75分開始也不是說不可以,但在這次的圖表應用中,我主要是要呈現這些科目的成績都很高,但剛好其中有一科「只有85分」,與其他科比起來算是比較低,如果再從75分開始,85分與其他分數的差距會益發的明顯,這樣與我製作這張圖表的原始意義是不符的;如果拿去面試,說不定就是自己給自己找麻煩(但從另一方面來看,如果是有意凸顯一組相差不大的數據,可用此法)!所以這個故事告訴我們,每畫完一張圖表後,任何細節都必須小心的檢查才行!

Sunday, November 27, 2005

這樣也叫做「圖表設計」?





在此鄭重聲明,本人並非為了要幫中時晚報仇才來踢爆聯晚的圖表XD


初窺量化圖表的門徑後,我在看文章時常常會順道注意它所附的圖表。當然啦,10張有9張是「不適當」的畫法,其中又以時序列資訊圖表畫錯的最多。

那麼多張有問題的圖表,為什麼我選擇這張圖表作為「批判圖表」的第一炮呢?說穿了,就是看「圖表設計」這四個字不順眼。

3017894-1237414

《聯合晚報》,2005年11月20日,5版


請問各位冰雪聰明、目光敏銳的大大,你們看出這張圖表想要表達的意涵嗎?講真的,乍看之下看不出來吧?

其實這張圖表是為了搭配一則新聞「寄生族不婚 1年少5萬對新人」,該名記者主要是報導台灣地區適婚年齡的有偶率逐年下降的現象。照理說,這張圖表既然是要輔助讀者理解報導內容,那為什麼我看不到有偶率下降的趨勢?

很明顯的,這張圖表的類型用錯了。在時間序列的比較上,用折線圖(line)柱狀圖(column)才能表達其「時間演進」的意涵。一般來說,長條圖(bar)用在項目與項目間的次序比較上效果較佳。但如果把原本應該使用長條圖的時序列資訊用成了柱狀圖,就會讓資訊變得不易顯現,反而增加讀者的理解難度。

年輕人有偶率逐年下降

這樣畫是不是清楚多了呢?


報社既然有「圖表設計」、「美編組」這樣的單位配置,那這些單位的首要任務,就是要讓統計資訊能夠透過圖表適切的表達出來,而不是把資訊變得更複雜、生硬,讓讀者難以理解。今天聯晚這張圖的設計,完完全全違反了圖表製作的基本原則,把原本顯而易見的資訊變得艱澀難懂了,這樣,也可以叫做「圖表設計」?

---------------------------------------------------------------------------------------------------
後記:其實聯晚這則新聞的推論是有問題的。根據內政部資料(excel檔),近五年來50歲以下的有偶率幾乎都在下降,不是只有適婚年齡。何況,這些人晚結婚,也不代表他們沒有賺錢能力、「寄生」在家裡,聯晚這樣「扣帽子」也未免太武斷了吧?

Sunday, September 11, 2005

bar與column的抉擇

民調公信力也是(倒數)第一的報紙

有關於這張圖表背後的意涵之前已經論述過了,現在來談談這張圖表的技術層面。

這張圖表最主要是在突顯蘋果日報長期忽視有效樣本數對於民意調查的公信力,但也由於「時間」這個要素在這張圖表上並不是重點,所以我一度在要使用bar還是用column來表達中猶豫。後來決定使用column,是因為使用bar通常按照大小順序排列,且通常是為了突顯其中一個數列;也由於這次在數列中我加了一個「理想樣本數」,其與蘋果日報的差距甚大,所以並不適合這次的數據。

本來樣本數最高的月份(3月)也有標上數字629,但後來覺得既然重點是在凸顯蘋果的樣本數有多低,乾脆把它拿掉,並在座標軸旁加上數字,也許這樣會比較清楚。

怡志建議我把1068上面的空間加大到1500,並加上橫格線輔助,1068改用粗紅線表示,這樣感覺好多了。

希望這張圖能被蘋果日報的相關人員看到,好好思考一下其中的意義。

Monday, June 13, 2005

拉長、拉長、再拉長

2004年台灣赴大陸人次創近九年新高

為了在論文中證明大陸與台灣的交流愈來愈頻繁,我到陸委會的網站找了「臺灣地區人民前往大陸地區人次統計圖

其實陸委會這張圖已經畫得滿標準的。雖然我對「每個年度上頭都標上該年人數」有一點點意見,但是基本上「用柱狀圖來表示趨勢」是沒問題的。

在重畫的過程中,由於2003年SARS風暴讓台灣赴大陸的人次減少了近三分之一,但是基本上還是朝逐年增加的趨勢發展;即使如此在製作圖表的過程中,還是很難去避免「凸顯2003年」。

另外,因為2002與2004的人數實在太過接近,不論是折線圖還是柱狀圖,都很難凸顯2004年是近九年最高,那該怎麼辦呢?

經過請益後,圖表達人建議遇到這種特殊情況,應該以柱狀圖來表達;也為了凸顯數據、加深差距,可以把整張圖以長方形的方式來呈現,如此一來04與02年的差距就會「感覺」比較大。

有嗎?大夥看看吧!

Friday, May 13, 2005

「事件發生」在圖表中的表達

連爺爺,您終於回來啦

前一陣子銘報希望我幫忙注意中國時報在報導連戰訪中的新聞則數與版面,我整著整著突然就想要畫圖表了!之前在銘報處理的都是屬於沒有時間趨勢的圖表,難得有此機會來處理一下有時間趨勢的數據。

中間那兩條虛線是代表「事件發生」,可以看到連胡會後,中國時報隔天在相關報導的則數上明顯增加(廢話),也因為連戰此行最受矚目的就是與胡錦濤的會面,所以在連胡會後與連戰訪中相關的報導則數就明顯下降;到了5月1日藝人倪敏然的遺體被發現後,5月2日的中國時報報導連戰訪中的相關新聞更創新低(呃...這種用法大家懂意思就好)。

在畫這張圖表時曾遇到一個難題,就是如何把「事件發生」的時間點適當的表達在這張圖表上。因為事件發生後,見報會有一天的時差,本想說在圖的下方寫「註」來解釋;後來怡志建議我加虛線來表達,就成了上面這副德行,也不曉得對是不對?

圖表研究室正式開張!

想要弄這個「圖表研究室」想很久了。雖然早就在Nightpluie貼出預告,但一直苦無時間更新,而且本來打算把這個blog與無名小站連在一起,沒想到無名小站的圖不可以連結,我才轉而使用Flickr

今天花了一個下午把之前在銘報畫的圖表全部重畫一遍,內容、畫法有錯誤的部分也做了更正,未來會陸陸續續在這個blog發表!