那接下來,如果我們談到數據要成為資料科學家
它到底,它整個技術養成的地圖會長什麼樣子?
它彼此之間在能力上的分佈有哪些差別? 我先介紹兩個專有名詞。
第一個專有名詞叫 Data Engineer。
如同各位看 34 頁的投影片上面, Data Engineering
就是資料工程師, 或者是 Data Scientist 叫做資料科學家。
這兩個聽起來好像,那我們也試著
把它界定,從幾個面向來界定它能力上應該做出來的差異。
第一個各位也可以看到投影片,從領域知識。
什麼叫領域知識?Domain Knowhow。
就是如果你在銀行業工作,你一定要懂銀行業的領域知識。
包括如果是做放款的要懂放款的產品,做外匯的要懂外匯的產品,
做理財要懂理財的產品,信用卡要懂信用卡的產品、 點點點。
所以領域知識很重要。
但是這兩者之間有 一點差別。
如果是 Data Engineer 領域知識可以少一點, 可是 scientist, 要做科學家,你的領域知識要很豐富。
因為這樣你才能夠有真正的洞見與洞察。
那第二個是對數據的了解。
那如果是 Data Engineer 對數據 背後意義的了解可以少一點。
因為你可以不要 通通都跟業務端的人一樣這麼了解那個數據背後的商業意義,
可是資料科學家呢你就要了解很多。
那我們再來看如果是資料清洗處理。
data cleansing。
那這一段 Data Engineer 就要非常地厲害。
我們現在看到一個很重要的趨勢, 未來很多的資料其實是直接
拿來去用而不是先把它變成結構化的欄位然後再來使用。
以前傳統的資料分析是 如果我收集了很多的資料,我一定要把這些收集的資料先把它
把欄位規格開好,再把這些資料一筆一筆地對應到我的欄位裡面去。
比如說我要知道地址,比如說我要知道年齡,比如 說我要知道他的婚姻狀況,比如說我要知道他的性別。
可是現在呢這些資料可以不用先結構化, 都散的也沒關係,就是把資料全部
load 下來呢 我們自己用資料科學的技術把這些有意義的資訊萃取出來,
再把它結構化以後變成我們要分析的東西。
所以這個資料處理的能力,現在的技術進步是跟以前比起來是大得非常非常地多。
所以這也是 Data Engineer 他需要的能力。
這一方面的能力會比較偏 IT。
那 Data Scientist 也需要一些,再來當然是統計跟機器學習。
這也很好理解。
Data Scientist 也要懂很多。
那另外就是報表跟 視覺化,處理報表跟視覺化,因為 Data Scientist
他要跟 我們的業務單位進行很多的討論跟溝通。
所以這方面他所要具備的能力要比
資料的這種工程師要多更多,也就是他要很懂得 如何往前去溝通。
那另外呢可以看到這個 技能養成的地圖。
那這個技能養成的地圖上面列的這一些呢
其實都是各位在學校就已經可以準備的事情,不一定是到職場才來準備。
那這個只是給大家一個未來各位如果有心要成為一個資料科學家或 Data Engineer, 你可以先做這些準備。
那裡面有個很特別的事情,各位可以仔細去看,有個叫做 story telling 說故事的能力。
那為什麼說故事的能力很重要? 因為我們都是透過數據做創新。
而在創新的過程中最難的就是說個好故事。
讓別人先為你的創新故事而感動 才有辦法去說服別人接受你的創新。