Sunday, August 17, 2008

這是我畫的圖表嗎?

2008年7月31日,我從社會組轉到教科文組第一天,就遇到了一個製作圖表的機會。

其實這是在社會組很難遇到的,因為社會組平時偏重的是「獨家」,雖然教科文組也喜歡獨家(廢話,哪個記者不喜歡?),但教科文組平時處理的新聞是比較有系統的,可能是有資料、有數據的,所以應用圖表的機會也比較多。

第一天上線,就遇到個可以大展身手的機會,當然不能放過啦!今天的題目是「消基會抽檢市售浴廁清潔劑pH值」,抽檢十八件商品中只有三件在環保規章建議的5~9範圍。

先來看一下當天聯晚的圖表:

4450611-1906551


甭說啦,這其實是「貌似圖表」的表格,但它的排序並沒有什麼讓讀者容易理解的邏輯,一下從上到下將pH值由小到大,一下又由大排到小,而且它只有列出不在環保規章建議範圍中的產品,對於那些在範圍內的「乖寶寶」清潔劑,反而沒有好好的「嘉獎」一下。

下午報稿的時候回報報社,本來交代叫我做一張表就好,但我怎麼可能讓這機會從手中溜過呢?為了怕被人打槍,我索性圖、表都做,讓報社自己挑:

抽檢十八件只有三件符合環保規章表格


這也不是我在說,我連做一張表格,都可以輕輕鬆鬆打敗聯晚這張令人看不懂的表格(甩頭)。

抽檢十八件只有三件符合環保規章(原)


這張是本來一開始畫好的版本,出發點是只要讓讀者知道哪些比較酸、哪些比較鹼,哪些是比較溫和,詳細的數據對讀者來講可能不重要。而在底色的部分,則是採用石蕊試紙對於酸鹼的顏色判定。

之所以用散佈圖而非長條圖,是基於以下兩個考量;

 此次表達的數據是重趨勢而非質量:pH值的高低代表的只是一種趨勢,不像財物損失、人數等這麼質感,所以這次用散佈圖。

 要表達的數據有趨近0的數字:有幾個商品的pH值在0~1之間,如果做成長條圖,會使得該項目非常的扁,在表達上可能會有問題。

當然啦,製作完成,還是跟李大師討論一下,結果認為,如果能利用白線淡化可能產生的複雜,又能產生數值的意義,是個不錯的作法。而在底色部分,並不是所有人都知道石蕊試紙對於酸鹼性的顏色,所以還是以最簡單的「綠色代表安全,紅色代表危險」來呈現就好。

抽檢十八件只有三件符合環保規章


不錯吧!出來的作品來我自己都很滿意。結果報社也同意用圖表,但沒想到隔天出來卻變成這樣...

DSC07768


沒想報社用是用了,但偉大的美編不但脫褲子放屁的把每個產品pH值都給加上,還把底色換成毫無意義的顏色來「美化」,更扯的是,他還把「潔瓷」的pH值0.56誤植成0.26,天啊~~~這不是肯德基!

講真的,像這時候就很尷尬,圖表明明就是我設計的,但是自作聰明修改的美編們卻又不掛名,搞得好像是我一開始就覺得這樣畫一樣,這樣有損我的名聲啊!

這故事告訴我們,要讓自己的作品「完整」的呈現在報紙上是有非常大的難度!不過也好啦,至少在長官的力挺下,終於見報一張圖表,我相信未來繼續努力,應該還會有機會「完整呈現」的!

Saturday, May 03, 2008

談談圖表的「化約」

昨天王建民拿下本季第六勝,PTT上的鄉民大家都興高采烈的討論目前在勝投榜上王建民的對手有哪些。結果有個熱心的鄉民用BBS介面畫了一張圖表:

1


其實我無意苛責什麼,用BBS介面畫圖表說不定真的很難(至少我就不會),但就圖表而論,這張圖表犯了很多錯誤:

 ‧建議用長條圖而非柱狀圖。面臨項目比較時,柱狀圖多半用在與日期有關的比較上,所以如果只是數字高低排列,長條圖還是比較清楚。

 ‧三個數據的座標軸都不一樣。這個情況如果只有表達兩個數據可能還好(一個看左邊Y軸、另一個看右邊Y軸),但是這圖表同時表達了「勝投數」、「防禦率」、「三振」,又沒有附上座標軸,這樣就會變成三振20次、5勝與防禦率1.98一樣高?

 ‧用顏色來區別數據,反而會造成畫面的混亂。不是說不能用,但我認為,如果你畫的圖表必須要用「圖示」的方式,可能代表你要表達的數據是不是太多了。「圖示」除了會讓讀者額外負擔「來回參照」的麻煩外,顏色暗示的意義也應該謹慎處理。像這張圖把防禦率用綠色,會讓人誤以為有「愈高愈正面」的意思。

「說這麼多,那你自己畫的又如何呢?」所以顧不得昨天看到這張圖表已經午夜12點多,我還是馬上就來研究一下,這樣的數據到底該怎麼表達。

‧用英文字母排列其實沒意義
原作者圖表項目的排列順序,除了簡單依照勝投依序排列外,對於一樣勝投數的投手並沒有謹慎處理順序,王建民排第一,但是他的三振與防禦率都比Webb差,後面四個並列五勝的投手,除了「用英文字母排列」外,我找不出別的邏輯,但在這張圖表上,用英文字母排有意義嗎?我想這是在製作圖表前應該思考的。

先把圖表還原成表格:

3


老實講,還原成表格後,我反而覺得比原作者畫的圖表還要來得清楚些XD。

一還原我就發現一個問題,就是如果同時處理防禦率跟勝投數還好,但如加入三振次數,會把座標軸拉得很大很開,把防禦率的差距縮小很多。

三振次數拉開了Y軸


所以我想到把三振次數換成K/9,說不定會比較好掌握。

繪圖2


上圖是昨天睡覺前完成的。其實我很不滿意,原因是因為同時表達三個數據,雖然我避開了來回參照的圖示,但是整體還是顯得有點凌亂不易理解。其實這裡頭犯了一個迷思,就是你擺進圖表的數據,是不是真的有意義?就這個例子來講,把勝投與防禦率放在一起,可以比較這個投手拿勝投是靠自己還是靠隊友,但如把三振拿來一起看,是不是就顯得好像意義不大?

(按:因為三振就意義上來看,只是一個一個的出局數,跟滾地球出局,在表面上的差別不大。三振多的投手,還是有可能被打爆。一般勝投排行榜如果出現並列,多半會再比防禦率而非三振數。)

也許你會說,「像你這樣畫,根本就無法凸顯其他投手在數據上的表現啊。只有圖表沒有數據,這樣誰知道啊?」如果是這樣的話,我會建議你去看表格。在圖表上每一個都標上數據,那只是「圖表格」而已,失去製作圖表的意義。

‧試著「化約」看看
今天早上起床我又想了一想,因為在這個數據上,勝投數變化比較少(就只有6勝跟5勝兩種,如果現在是球季後半段也許變化會更多),但在這裡如果讓座標軸遷就這兩個簡單的數據,其實反而麻煩;不如把它化約一下,讓整體圖表顯得更簡單一點。

2008 MLB五勝以上投手比較

(更清楚的版本按此

這樣是不是更簡單了?

但嚴格來講,我還是不認為三振數跟其他兩個數據擺在一起畫圖表有什麼更好的意義。畫到後來還是要回歸一個重點,就是你畫這張圖表,重點到底是什麼?你到底想表達什麼?如果你想藉由圖表鉅細靡遺的呈現所有數據,那我還是建議還是別浪費時間,乖乖做表格就好。

Monday, December 10, 2007

圖表四格漫畫試作

別忘了拍照留念!



承蒙Dr.李帶進圖表的領域,我從單純的將數據視覺化,慢慢的注意到「如何用圖表發覺有趣的數字現象」。

我相信所有的記者(不認真的記者除外)應該都會注意到,這一兩年吵得很熱的「政府資訊公開法」。儘管現在政府對於資訊公開的原則訂定的非常的模糊且沒有強制力,但我想除了記者們除了一方面繼續衝撞、督促政府依法令公開資訊外,另外一方面的腳步也不該停歇,應該從現有政府公開的資訊,去挖掘一些隱藏「在細節的魔鬼」才對。

而身為一個資訊圖表的追隨者(推動者應該是江湖人稱「圖表鬼見愁」李博士才是XD),我自己在向身旁的人解說資訊圖表的重要性,乃至於一些製作的原則時,往往帶來的都是一些敷衍的眼神及不甚瞭解的語氣,這其實是很令人心寒的!大多數人都不知道圖表的製作是有它一些特殊的脈絡可循,絕對不是打開EXCEL框起來框起來按圖表再按完成這麼簡單!

綜合以上,我覺得要推動「圖表運動」,除了要將隱藏在數字背後的資訊透過圖表有效率的表達出來外,如何讓圖表變得有故事性,是我最近突然發想的一個idea。於是,就出現了這個東西:

圖表四格漫畫


這四張圖表的資料來源全是由交通部網站所公布的統計數據,重點就是在強調雖然會自己開車的女生愈來愈多,但真的會以開車為職業的女性,其實並不多。我不知道說國外幾個女權比較進步的國家,在職業上的性別差異是不是也像台灣這麼嚴重?會造成這樣差異的原因,不曉得跟治安有沒有關係?

話再說回來,雖然這是交通部提供的資料,我還是要建議大家看看「圖表的概念」就可以了。原因是因為,交通部這份資料的來源全是靠問卷得來,除了樣本數、抽樣方式等完全沒有公布外,這種按照百分比的作法容易使趨勢產生失真。舉例來講,女性自行開車的比例雖然有逐年上升,但由於是全部100%,有可能代表是因為男性自行開車的比例下降,才會使女性自行開車的比例「相對的」上升;抑或女性自行開車的人數增加的比男性多,但因為男性先天分母比較多,造成女性成長比例無法完全反應?

不過我還真不懂,這種資料從各地監理站匯集不就得了,為什麼要用問卷這種不精確的方式呢?

Friday, August 17, 2007

世界上最遠的距離XD(關係圖試作)

一表三千里


據說很多司法圈的記者早就知道,王金平侯寬仁有「遠房親戚」的關係。結果王金平接受媒體查證時,說了一句華人常見的俚語「一表三千里」來形容他跟侯寬仁的關係。其實作成關係圖來看,這關係並不算太遠,一言以蔽之就是「侯寬仁的姐(妹)夫是王金平的小舅子」;但就華人慣有的親戚交往圈來看,王金平和侯寬仁不熟甚至說沒有來往,是可以理解的。

只是諷刺的是,王金平和侯寬仁的這層關係,竟然因為侯寬仁起訴王金平的「另類政敵」馬英九而浮上檯面。那王金平和侯寬仁的關係若是「三千里」,那王金平和這位同黨同志馬英九的關係應該是「????」里?

Thursday, August 09, 2007

散佈圖初探

有機會看到這篇blog,或偶會瀏覽小弟Flickr中的圖表的朋友,應該不難發現小弟特偏好「量化圖表」;其中又以能夠呈現數據質量感的柱狀圖(column)、長條圖(bar)及圓餅圖(circle)為多。折線圖(line)出現的機率極少,而散佈圖(line),老實說小弟還沒畫過。

其實真正的資訊圖表,量化圖表只是其中的一部份,而量化圖表的形式又何止侷限在上述幾種類型而已?有可能是恰好小弟想表達的數據剛好較適用長條圖、橫條圖與折線圖。但我發現,這樣長久以來的「恰好」可能會導致我在製圖上的盲點:就是習慣以這三種類型為優先思考。

-----------------------------------------------------------------------------------------------------

今天要來處理的數據是「台鐵的火車票價與準點率之關係」,這是我去年就盯上的題材。台鐵以往總是被人貼上「虧損、散漫、公務員心態、不負責任」的標籤,偶來一個大誤點、大改點,往往會成為媒體注目的焦點,相關的補償措施也常常被社會大眾盯的滿頭包。我就想:既然台鐵各級列車時速都差不多(約110~130km/h),差別只在於停的站多寡的話,那我們繳的錢到底價值在哪?

持著這樣的好奇心,經過資料的蒐集後,出現了這樣的結果:

‧錯誤的慣性思考

火車愈快愈不準時


若先看黑色的橫條,可以很明顯的發現票價的高低依序是自強號、莒光號、復興號、普通車;但同樣一個項目排序,若注意到較淡的灰色橫條,就可以發現票價愈低的車次,準點率反而愈高!

OK,或許你覺得這樣的畫法已經有突顯到我想表達的「火車愈貴愈不準時」了,先別急,你先看看下一張圖:


票價愈高愈不準時


怎麼樣?同是長條圖的畫法喔,只是一個是群組型長條圖,一個是成對型長條圖(Paired bar),呈現相同的訊息,但是在視覺的乾淨度上,成對型的是不是比群組型好?

其實群組型長條圖,比較適合表現同一個項目在不同時間情況下的呈現,若要強調兩個項目間的關係(按:此圖為「票價」與「準點率」的關係),成對型長條圖的表現還是較為恰當。

如果你以為這樣就結束了,其實還有個選擇:

‧散佈重「趨勢」,長條重「質量」

付愈多錢不代表愈準時


沒錯,這是小弟第一次嘗試畫散佈圖。雖說散佈圖與成對型長條圖所呈現的資訊圖像意義相同,但實際製作後,就可發現成對型長條圖比散佈圖更能表達數據所呈現的質量感(可應用在欲表達數據間的落差),但散佈圖在「趨勢感」則明顯較成對型長條圖為優。

就這此使用的數據來看,成對型長條圖的表現似乎比散佈圖更好。此次比較的數據只有四組,在散佈圖上的趨勢性較不強烈,而在成對型長條圖呈現的「自強/不準時」與「普通/很準時」的數據質量感,很明顯的較為具體;但事實上,若今天比較的數據超過10項以上,成對型長條圖呈現的圖形可能會顯得有點凌亂,此時散佈圖的表現可能會比直方圖好些。

另外,散佈圖上還有兩個地方可以跟大家來討論一下。散佈圖上各個資料的點所代表的名稱,到底該用在點的旁邊,還是標上序號,再於圖的空白處說明?我個人是認為,鑑於減低讀者來回參照的麻煩,在散佈圖數據數量較少,且圖上空間允許名稱不會互相干擾的情況之下,可以寫在點旁;若數據較多,就可用參照的方式說明。畢竟數據一多,數據的趨勢意義應該比相對型長條圖強調的「個體差異」還要重要。如果真要在很多數據形成的散佈圖上強調個體差異,我是覺得可以只把你要強調的數據名稱標示出來就好,其他的就省略也無妨。

‧「預想模式」該指向哪方?

另外一個就是「預想模式」的問題。在這次散佈圖上,我加了一條強調「預想模式」的趨勢線;這條趨勢線的意義在於表達「人們原本以為」的情況。意思就是,人們一般都認為票價愈高,列車到站的準點率應該愈高,若真是如此,整體點的分佈應該會朝該箭頭的所引導的趨勢集中;但就圖上四個點來看,其實是恰恰相反的。

「預想模式」雖說是幫助讀者理解,但製圖者或演說者必須額外支出時間向讀者說明如何閱讀,就「縮短閱讀資料時間、快速形成印象」的製圖意義來看,似乎是相違的。若真為如此,此箭頭是不是該改成與圖中欲強調之趨勢相符為佳?(老實說我也沒答案)


付愈多錢不代表愈準時2


‧散佈圖可能產生的視覺誤差

談到這裡,眼尖的讀者應該有發現,在成對型長條圖中,普通車跟復興號的準點率分別為「98.5/98.9」,但若表示在散佈圖上,看起來是不是像100%?

我想這是各類圖表都有可能產生的缺點,就是較接近100%的數據,在圖表「正常規格」的表達下,無法明確的顯示其數據,會有「100%」的假象;如果真的表達出來,必須要拉到這樣長才行:

散佈圖的盲點


如果被誤解的數據並不是主要表達的內容,我覺得可以容許這種非統計性的誤差;但如果會影響到數據失真,那可就不行了。

綜合以上來看,如果要表達兩個變數間的關係,在數據少的情況下,成對型的長條圖似比散佈圖更好,但若數據一多,散佈圖的趨勢上的視覺解讀就比成對型長條圖好。但請注意喔,這裡並不是說散佈圖會導致讀者對資料的誤解,只是「相對較好」而已。

況且散佈圖種類也不只這一種喔,以後有機會遇到再跟大家分享!

-----------------------------------------------------------------------------------------------------

後記:雖說資訊圖表的製作與類型選擇,對於欲呈現的數據意義而言佔有非常重要的地位,但最後還是要回歸到數據本身的重要性吧?

就這張圖來看,是不是某種程度打破你我「付愈多錢就有愈高級、愈有水準、愈不會出差錯的服務」的迷思與成見呢?

從事過服務業後,我常覺得你收人家錢,就是要對你的服務內容負起責任;這個概念小至便利商店營業員,乃至於公務員在上班時的表現(你是收納稅人的錢)等等,都在這個範疇之中。而決定你這個服務值多少錢,關鍵就在於你提供了多少服務。今天台鐵如果只是單純的以「付比較多錢就『只是』比較快一點,其他的都沒差」的心態來要求自己旗下的服務品質,也難怪在面臨航空、客運乃至於高鐵的競爭下,會連連虧損(excel檔)了。

Friday, June 16, 2006

亂入!溺水與媒體涵化

媒體開放之涵化效果與意外之相關


「投降輸一半!」先承認,這張圖表是來亂入的。雖然總是嚷嚷我老媽受到電視新聞涵化的影響才會不喜歡讓我去海邊玩,但是自己畢竟浸潤媒介資訊時久,也難免對海邊有些負面的印象。

回來後一查網路資料,才發現白沙灣曾經榮獲海巡署十大危險海灘之首,還真是讓我嚇出一身冷汗!

但對於受社會科學教育、又學過精確新聞報導的我來講,如果就這樣讓「海邊=容易發生意外」這樣的媒體誤現蔓延下去,也太~~辜負我之前所受過的教育了。

所以,登登!這張圖表就誕生了。本著涵化理論的角度出發,這張圖表嘗試把我國媒體開放所造成的資訊量大增,與一般民眾對於海灘危險的認知程度連結,進而在從事戲水等活動時會更謹慎。圖中點出的幾個點都有其象徵意義:從報禁解除造成的媒體開放,到有線電視合法化、廣電三法通過使得衛星頻道湧現,媒體在激烈競爭下對社會、災禍新聞的渲染,最後到民國92年蘋果日報來台,其對於社會新聞的偏好與議題擴散,在在都使得社會、災禍新聞成為當今最hito的收視率保證。

講了那麼多,還是要再度提醒:這張圖是亂入的XD!要知道,意外溺水死亡的人數呈現下降的趨勢,除了可能與媒體喜愛社會災禍新聞的渲染,所造成的警惕效果外,主管單位的宣導與防範、台北市將游泳列為國民教育的畢業條件、乃至於水泥岸的逐漸增加使得民眾戲水場地變少等等,都可能相關,豈是小弟區區一張圖表就可以說明?

Sunday, April 30, 2006

從「零」開始

鎮宇大學時期較優科目錯誤示範


之前為了在研究所的推甄資料上呈現自己的成績(另一方面也是為了「展」一下自己的圖表功力),我在自傳上附了這張圖表。

當然,在資料送出去前,我也給了很多人看過這份自傳,當時大家都覺得沒什麼問題;雖然後來「時也、命也、運也,非我不能也」,台大、政大的推甄都不幸落榜,但我一直認為是自己努力不夠,這份自傳沒什麼「問題」。

直到最近為了準備世新新聞所的面試,我安排了很多德高望重的大師幫我模擬面試,其中也包括的在圖表界是大腕級、牛B級的李怡志大師。果不出其然,他一看到我的自傳,馬上就先問我:「你這張圖為什麼不從0開始?」

不是從零開始


嘿嘿,我想大家一時之間也沒察覺到吧!怡志一提醒,我趕忙回到excel原始檔去查看,果然沒錯,它是從75分開始的!

這又要談談excel的「美麗與哀愁」了。excel常常會自以為很貼心的設計一些功能,而這樣自動功能常常讓不明就裡的使用者發生一些操作上的失誤,就是說,聰明自誤?(摩亞口吻)

鎮宇大學時期較優科目


其實這張圖表從75分開始也不是說不可以,但在這次的圖表應用中,我主要是要呈現這些科目的成績都很高,但剛好其中有一科「只有85分」,與其他科比起來算是比較低,如果再從75分開始,85分與其他分數的差距會益發的明顯,這樣與我製作這張圖表的原始意義是不符的;如果拿去面試,說不定就是自己給自己找麻煩(但從另一方面來看,如果是有意凸顯一組相差不大的數據,可用此法)!所以這個故事告訴我們,每畫完一張圖表後,任何細節都必須小心的檢查才行!