身為數據科學家怎么能不掌握這四大技能！

2018-02-12 09:04:01 51CTO　點擊量：評論 (0)

想成為一名高級數據科學家除了擁有卓越的專業技能，你還需要其它技能來拉近和業務經理的距離。這看起來簡單，但隨著每年新技術的不斷累積，...

數據科學家往往希望將他們所知道的每一種技術和算法都應用于每一個問題的解決方案上。相應地，這就會使系統非常復雜難以維護。
數據科學確實需要復雜抽象的模型及大量的復雜技術(從Hadoop到Tensorflow)。在這個充斥著復雜性的領域，人們會傾向于開發復雜的系統和算法，稍不留神就會在開發中涉及四、五種不同的技術并使新的熱門算法或框架。然而，像大多數涉及工程的其他領域一樣，減少復雜性往往會帶來諸多好處。

身為數據科學家怎么能不掌握這四大技能！

如果馮•諾依曼，埃爾溫•薛定諤和愛因斯坦可以幫助我們理解數學和物理驅動領域的復雜性，那么我們數據科學家不能隱藏在復雜性背后。
工程師的角色就是去簡化任務。如果你曾經建造或看到過魯布•戈德堡機械(Rube Goldberg machine)，你會理解什么是用復雜方法去完成簡單任務。一些數據科學家的算法和數據系統看起來像是用膠帶和口香糖粘起來的老鼠夾，而不是簡潔有效的解決方案。更簡單的系統意味著隨著時間推移系統會更加容易維護，并且未來的數據科學家能夠按需添加和刪除模塊。但若你使用三種不同的語言，兩個數據源，十個算法且沒有留下任何文檔資料，未來的工程師可能會默默詛咒你哦。
簡單的算法和系統也應使添加和刪減模塊是容易的。因此當需要技術進行改變和更新或者需要刪除模塊時，可憐的未來數據科學家不會陷入和你的代碼一起玩疊疊樂積木游戲(Jenga)的困境。但會糾結于“如果刪了這段代碼，系統會不會崩潰”。(這一糾結的根源是怕出現技術債務)
知道如何在沒有主鍵的情況下關聯匹配數據
強大的數據專家能做的重要工作之一是：將可能沒有主鍵或明顯聯系的數據集關聯在一起。數據可以呈現人之間或業務之間的日常交互。能夠在這些數據中找出統計模式，是數據科學家可以幫助決策者作出明智決定的重要能力。然而，你想要關聯在一起的數據并不總是位于相同的系統或有著相同粒度。
與數據打交道的人會知道，數據并不總是很好的整合在一個數據庫中。比如，財務數據與IT服務管理數據通常是分開存放的，外部的數據源往往可能并不是在同一個維度進行的聚合。這會成為一個問題，因為找出數據中的價值有時確實會需要來自其他部門或系統的數據。

身為數據科學家怎么能不掌握這四大技能！