Open Data 的人才培育

2013.04.20

最近因為台灣的台北市電腦公會正在籌備「Open Data 聯盟」,我在第二次籌備會時,對於各國開放資料的發展做了一點介紹。不過有點心虛,心虛的並不是講不出來,而是30分鐘僅能抓個概況,再加上「產業」一詞實在是畫的過早。不過在籌備會後的討論相當精采,我也當場直言,開放之路相當繁瑣艱難,絕對不如一般想像之簡單。

隔幾日收到數個單位和朋友來信,情商開放資料人才培育一事。以課程為法,希望能加速培育人才。我覺得這件事雖立意良善,但有點錯亂。快寫幾言,僅供參考:

1. 開放資料貧瘠

台灣目前堪稱開放政府資料的資料源,幾乎寥寥無幾。大多是公開資料 (public data) 而不是開放資料 (open data),在資料源貧瘠的情況之下,你說要培養開放資料的人才,是要人才做什麼?寫 scraper 爬政府網站資料嗎?還是只要教會用圓鍬,就可以直接帶隊進沙漠挖礦了?

2. 只專注在開放資料本身,的確很難有商機

一直要強調開放資料有商機,是很有問題的。不是說沒商機,而是商機不會是落在 “kitchen.gov.tw” 給妳一匙鹽一杯油一顆蛋全部下鍋炒一炒,就會有炒蛋可以賣的這種譬喻。資料的擷取、彙整、轉換、整理、分析、認證、刊登、印刷出版,或是提供各種人為介入或消費者自理的檢索服務等,的確是有不少的機會。但開放資料貧瘠先不說,地方政府所釋出號稱開放資料的資料在授權上,全部都是有問題時,請問,你是要有什麼商機?

3. 商機在學研、委託和活動

如果台灣的開放資料發展順利,那麼在2013年Q2之後,我們就有機會看到純粹運用開放資料所萌發的「商機」。今年所謂的商機,我想主要就是學術和研究機構會做一些案子。至於其他部分,商機處處,但沒有這麼快,除非(一)你經手計畫的所有人從上到下都能體會 “open data on the web" 的價值而且也有 web 服務的實務經驗,或是(二)很知道資料的轉換處理怎麼在本地捆包賣出價值,不然是不可能的。

4. 歐盟的高手也還在摸索,承認吧

此外,據我所知,幾個在歐盟各計畫內負責開放政府資料相關計畫的朋友們,都還停留在探索公開資料 (public data) 的產業鏈到底是什麼的階段。歐盟各國的開放資料發展,相當不錯,因為會員國不少,每週都有不少令人驚奇的開放資料集 (datasets) 上線。運用這些資料的單位,也並不特別限於新創或是已上市的公司。比如說,A公部門透過開放資料集的釋出,而能快速拿到B部門的業務資料,可能就省去了不知多少的人時成本。

5. 所以人才培育要開什麼課?

開課當然是可以的,但那「商機」不太是想像中的那樣。對於開放資料應該更有興趣的,其實是新聞媒體業者,這在我之前的受訪文章已經談過一次。就以英國 ODI 和 Journalism.co.uk 所合辦的「開放資料與新聞」的課程來看,總時數七個小時,相當豐富,定位就是提供一個基礎的入門的「學習框架」:

  • 什麼是資料?
  • 資料如何被法律所保護?
  • 運用資料說故事
  • 找到可以信任的資料來源
  • 取得的資料的信度是否足夠?如何確認資料是正確的?
  • 如何和資料源保持同步?
  • 從資料中找出故事
  • 運用現成工具分析資料
  • 清理資料
  • 試算表的基本功夫
  • 透過群眾外包模式讓群眾協助分析資料
  • 資料授權的選擇如何影響到你的新聞作品
  • 如何運用主流的資料視覺化工具?
很實際的課程,但每項課程內容都有更為深度發揮的餘地,不只是像表面上看起來如此淺顯。

6. 最該被培育的是,政府

事實上我覺得最該好好「上課」的,就是實際在擬定開放資料政策、執行開放資料計畫的人員,這包含從策略到執行階段的承辦人員都是。在2013年這個階段,資料的開放,最大的長遠受益者是政府單位,因為開放資料是來解決政府內部自己本身的數位落差,所以人才的培育要從上游、中游(例如工研院、資策會)開始,而不是孤立的從下游加速進行。我個人偏向不使用「上課」一詞,而是開放資料的發展本來就很需要「共同協作」,無論是透過網路或是實體的活動來達成。這也是 Code For Tomorrow 會什麼要在4月27日舉辦「地球日開放發展工作坊」的主要目的之一。

政府少了點數位落差,多點數位包容,數位機會就會多出很多。

7. 什麼課不該開出來

最後,只要課程裡有出現「雲端」兩個字的,百分之百一定和 Open Data 的人才培育沒有實質關係。

所以呢?

昨天 Code for Tomorrow 的一場工作坊,規模不大,但強度極高。報名的朋友角色各異,專長也不同,但在短短三小時內,卻迸發不少火花。籌劃的過程有些想法,容後說明。

最近開放資料,方興未艾,炒作的高度雖不若巨量資料 (big data),但這也是好事。不過問題來了,要怎麼開放,每個環節都是問題。目前有幾股明顯的勢力:

  1. 行政院研考會的壓力,致使各部會總要上繳幾個資料集 (datasets) 到即將上線的資料入口網。
  2. 相對蓬勃的社群。我不單指自由軟體社群 (community),而是更為廣義的社群/社區,也是 data.gov 常用的定義。舉凡自由軟體、獨立 app 開發者、數位媒體、非營利組織、社會企業、資訊教育、人權團體(資訊、隱私)、醫療公衛團體、科研機構、都市規劃和私人機構(後述)等。洋洋灑灑可以列出相當的多,但有聽過或是有實際花點時間去看看 open data 到底是在做什麼的,我確信在台灣的部份,已經有足夠的核心人數。
  3. 私人企業開始扮演更關鍵的角色。有些私人企業感覺到,因為之前和公營機構合作了不少案子,資料放著也是放著,趁著這個時候,開放資料尚稱熱絡,不妨試試。當然這只是個特例,不過透過機會,鼓勵內部開始善用資料,運用資料,開出一個跟社會資源接口,聽起來也不錯。有興趣的私人企業,規模不等,從小到大,都有。
所謂的巨量資料,人才奇缺無比,開放資料的狀況也是一樣。有充沛的人才紅利,才能滾動長遠的發展。但如之前所述,開放資料的現況,可以拿1994年的網際網路發展來做的對比。網際網路對當時的所有人來說,都是一個摸不太到整個面貌的時代趨力。搭著這股風想做些事的人,背景也都不同。不過可以肯定的是,專業間的交流頻繁,的確在那個時代幫了不少忙。

Code for Tomorrow 昨天的工作坊,也是在這個脈絡底下而籌劃的。專注在 open data 上手和 small data(小資料都搞不定,怎麼搞大資料?)。工作坊僅開放20個報名人數,加上工作人員,剛好30個人。

規模很小,但在籌備階段,卻至少開了四次核心會議、三次分別會議,以及多次線上討論。在準備工作坊的實際工作項目,則由 CK 主導,Dongpo, Allen, KNY, Ronny 熱力支援,以及 Fred 和所有人在工作之餘,透過網路協力進行:(1) 活動設計 (2) 流程設計 (3) 資料辨認 (4) 資料擷取 (5) 資料清理 (6) 資料分析 (7) 資料應用測試 (8) Android 雛形設計和開發 (9) 文件撰寫 (10) 社群發展等。

你沒聽錯,這只是一個小小開放資料工作坊籌備所要做的,至少有10個項目的工作要攤開來分別執行,背後有個完整、敏捷和自我修復的流程。除此之外,在工作坊的當日,還有來自現場活動的實際構思、互動、討論和體驗實作等。從一開始策劃到昨日結束的過程,都有完整的記錄。精采的討論、更多針對農業和食品的資料連結,以及後續商業服務雛形的市場面討論:

這跟開放資料的人才培育有什麼關係?當然有關係。這些人都不可能待在同一家公司,同一個機構,或是剛好都有時間,可以在同一個時段,把該做的事情一次做出來。什麼樣的平台,是在培育開放資料人才時需要的?

我們做了一個小的示範。

社會是多樣的,寫程式改造社會,也需要社會的不同環節投入。不用大,但要能走到社會(到地方),走出社會(到雲端),回饋社會。這場工作坊的意義,還會在後續計畫的執行過程,獲致發揚。

另外,工作坊剛好刻意選在 “Open Data on Web” 和 “G-8 International Conference on Open Data for Agriculture” 之間,選擇「農業」和「食品」這兩個攸關民生和資料的領域。這是一個加速器的過程,但加速若用現有政策工具的方式來加速,首先要克服的就是,執行加速如柴油車的各種機構,本來就不是被設計來跑高轉速,藉由速度來突破巨大產發慣性泥淖的選擇。你需要的是敏捷輕量又互能協力支持的團隊、信任、默契,和開放發展 (open development) 的方法論。在開放資料甚至是巨量資料人才的培育上,這是目前最需要的。

results matching ""

    No results matching ""