身為數據科學家怎么能不掌握這四大技能!
想成為一名高級數據科學家除了擁有卓越的專業技能,你還需要其它技能來拉近和業務經理的距離。這看起來簡單,但隨著每年新技術的不斷累積,
數據科學家往往希望將他們所知道的每一種技術和算法都應用于每一個問題的解決方案上。相應地,這就會使系統非常復雜難以維護。
數據科學確實需要復雜抽象的模型及大量的復雜技術(從Hadoop到Tensorflow)。在這個充斥著復雜性的領域,人們會傾向于開發復雜的系統和算法,稍不留神就會在開發中涉及四、五種不同的技術并使新的熱門算法或框架。然而,像大多數涉及工程的其他領域一樣,減少復雜性往往會帶來諸多好處。
如果馮•諾依曼,埃爾溫•薛定諤和愛因斯坦可以幫助我們理解數學和物理驅動領域的復雜性,那么我們數據科學家不能隱藏在復雜性背后。
工程師的角色就是去簡化任務。如果你曾經建造或看到過魯布•戈德堡機械(Rube Goldberg machine),你會理解什么是用復雜方法去完成簡單任務。一些數據科學家的算法和數據系統看起來像是用膠帶和口香糖粘起來的老鼠夾,而不是簡潔有效的解決方案。更簡單的系統意味著隨著時間推移系統會更加容易維護,并且未來的數據科學家能夠按需添加和刪除模塊。但若你使用三種不同的語言,兩個數據源,十個算法且沒有留下任何文檔資料,未來的工程師可能會默默詛咒你哦。
簡單的算法和系統也應使添加和刪減模塊是容易的。因此當需要技術進行改變和更新或者需要刪除模塊時,可憐的未來數據科學家不會陷入和你的代碼一起玩疊疊樂積木游戲(Jenga)的困境 。但會糾結于“如果刪了這段代碼,系統會不會崩潰”。(這一糾結的根源是怕出現技術債務)
知道如何在沒有主鍵的情況下關聯匹配數據
強大的數據專家能做的重要工作之一是:將可能沒有主鍵或明顯聯系的數據集關聯在一起。數據可以呈現人之間或業務之間的日常交互。能夠在這些數據中找出統計模式,是數據科學家可以幫助決策者作出明智決定的重要能力。然而,你想要關聯在一起的數據并不總是位于相同的系統或有著相同粒度。
與數據打交道的人會知道,數據并不總是很好的整合在一個數據庫中。比如,財務數據與IT服務管理數據通常是分開存放的,外部的數據源往往可能并不是在同一個維度進行的聚合。這會成為一個問題,因為找出數據中的價值有時確實會需要來自其他部門或系統的數據。
責任編輯:任我行
免責聲明:本文僅代表作者個人觀點,與本站無關。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。
我要收藏
個贊
-
碳中和戰略|趙英民副部長致辭全文
2020-10-19碳中和,碳排放,趙英民 -
兩部門:推廣不停電作業技術 減少停電時間和停電次數
2020-09-28獲得電力,供電可靠性,供電企業 -
國家發改委、國家能源局:推廣不停電作業技術 減少停電時間和停電次數
2020-09-28獲得電力,供電可靠性,供電企業
-
碳中和戰略|趙英民副部長致辭全文
2020-10-19碳中和,碳排放,趙英民 -
深度報告 | 基于分類監管與當量協同的碳市場框架設計方案
2020-07-21碳市場,碳排放,碳交易 -
碳市場讓重慶能源轉型與經濟發展并進
2020-07-21碳市場,碳排放,重慶
-
兩部門:推廣不停電作業技術 減少停電時間和停電次數
2020-09-28獲得電力,供電可靠性,供電企業 -
國家發改委、國家能源局:推廣不停電作業技術 減少停電時間和停電次數
2020-09-28獲得電力,供電可靠性,供電企業 -
2020年二季度福建省統調燃煤電廠節能減排信息披露
2020-07-21火電環保,燃煤電廠,超低排放
-
四川“專線供電”身陷違法困境
2019-12-16專線供電 -
我國能源替代規范法律問題研究(上)
2019-10-31能源替代規范法律 -
區域鏈結構對于數據中心有什么影響?這個影響是好是壞呢!