身為數(shù)據(jù)科學家怎么能不掌握這四大技能!
數(shù)據(jù)科學家往往希望將他們所知道的每一種技術和算法都應用于每一個問題的解決方案上。相應地,這就會使系統(tǒng)非常復雜難以維護。
數(shù)據(jù)科學確實需要復雜抽象的模型及大量的復雜技術(從Hadoop到Tensorflow)。在這個充斥著復雜性的領域,人們會傾向于開發(fā)復雜的系統(tǒng)和算法,稍不留神就會在開發(fā)中涉及四、五種不同的技術并使新的熱門算法或框架。然而,像大多數(shù)涉及工程的其他領域一樣,減少復雜性往往會帶來諸多好處。
如果馮•諾依曼,埃爾溫•薛定諤和愛因斯坦可以幫助我們理解數(shù)學和物理驅動領域的復雜性,那么我們數(shù)據(jù)科學家不能隱藏在復雜性背后。
工程師的角色就是去簡化任務。如果你曾經建造或看到過魯布•戈德堡機械(Rube Goldberg machine),你會理解什么是用復雜方法去完成簡單任務。一些數(shù)據(jù)科學家的算法和數(shù)據(jù)系統(tǒng)看起來像是用膠帶和口香糖粘起來的老鼠夾,而不是簡潔有效的解決方案。更簡單的系統(tǒng)意味著隨著時間推移系統(tǒng)會更加容易維護,并且未來的數(shù)據(jù)科學家能夠按需添加和刪除模塊。但若你使用三種不同的語言,兩個數(shù)據(jù)源,十個算法且沒有留下任何文檔資料,未來的工程師可能會默默詛咒你哦。
簡單的算法和系統(tǒng)也應使添加和刪減模塊是容易的。因此當需要技術進行改變和更新或者需要刪除模塊時,可憐的未來數(shù)據(jù)科學家不會陷入和你的代碼一起玩疊疊樂積木游戲(Jenga)的困境 。但會糾結于“如果刪了這段代碼,系統(tǒng)會不會崩潰”。(這一糾結的根源是怕出現(xiàn)技術債務)
知道如何在沒有主鍵的情況下關聯(lián)匹配數(shù)據(jù)
強大的數(shù)據(jù)專家能做的重要工作之一是:將可能沒有主鍵或明顯聯(lián)系的數(shù)據(jù)集關聯(lián)在一起。數(shù)據(jù)可以呈現(xiàn)人之間或業(yè)務之間的日常交互。能夠在這些數(shù)據(jù)中找出統(tǒng)計模式,是數(shù)據(jù)科學家可以幫助決策者作出明智決定的重要能力。然而,你想要關聯(lián)在一起的數(shù)據(jù)并不總是位于相同的系統(tǒng)或有著相同粒度。
與數(shù)據(jù)打交道的人會知道,數(shù)據(jù)并不總是很好的整合在一個數(shù)據(jù)庫中。比如,財務數(shù)據(jù)與IT服務管理數(shù)據(jù)通常是分開存放的,外部的數(shù)據(jù)源往往可能并不是在同一個維度進行的聚合。這會成為一個問題,因為找出數(shù)據(jù)中的價值有時確實會需要來自其他部門或系統(tǒng)的數(shù)據(jù)。

責任編輯:任我行