身為數據科學家怎么能不掌握這四大技能!
數據嚙合是需要在相同的粒度級別上進行的。一種理解的方式是:將一塊大拼圖與由許多小塊數據拼圖組成的大拼圖組合起來。
例如,假如給你提供了醫療保單、信用卡和社區犯罪率的數據,想由此找出這些社會經濟因素如何影響病人,你會怎樣處理?一些數據可能是以人為單位,而另一些數據可能是街道或城市級別,而且沒有明確的方式來關聯這些數據集。最好的處理方式是什么?這成為了一個不能忽視且必須被解決的問題。
對項目進行優先排序
作為數據科學家,你需要知道如何解釋可能不劃算的項目的投資回報率(ROI)。這與良好的直接溝通有關(我們的團隊永遠不會停止討論如何溝通),也與能夠清楚表達價值并且對長短期目標進行優先排序有關(重申一遍,說起來容易做起來難)
團隊總是會有超出他們處理能力的過多的項目和項目要求。有經驗的團隊成員需要起帶頭作用來幫助決策者決定哪些項目是值得進行的。在有很大機會成功但可能不會有最高投資回報率的短期項目和很有可能會失敗但同時也會產生較大投資回報率的長期項目之間需要有一個良好的平衡。
這種情況下,決策矩陣會有助于簡化過程。
經典的決策矩陣之一是一個2*2矩陣,行和列分別為重要性和緊迫性。多數的大學商業課程中都會出現這種矩陣,它很簡單,這也是它很棒的原因。
我曾在公司和一些很聰明的人共事,但還是工作中的每個項目都被列為優先。如果你沒聽過這個說法,我會在這里講出來:
如果每件事都被優先考慮,那么,相當于沒有事情被排在優先。
選擇正確的項目意味著必須做出取舍。不是所有的事情都是高優的。
許多公司都存在這個問題,這就是為什么對于數據科學家團隊中有經驗的成員,能夠清晰表達出哪些項目需要當下執行還是以后執行是非常重要的。而使用這個簡單的矩陣能帶來一定幫助。
(簡潔十分重要,使用矩陣來明確投資回報率是有幫助的)。
有了簡明直接的溝通,項目繼續向前推進,信任也隨之建立起來了。
能夠開發出穩健且最優的系統
做出能在受控環境中操作的算法或模型是一回事。將穩健模型集成到實時且能處理大量數據的系統又是另一回事。根據公司的不同,有時數據科學家只需開發算法本身,之后開發人員或機器學習工程師會負責將其轉為上線的產品。
然而還會有其他的情況,小的公司和小的團隊可能會需要數據科學家團隊來將代碼轉為上線產品。這意味著算法需要能以合理的速度控制數據流量。如果算法要運行三個小時并且需要被實時訪問,這顯然不能在產品上使用。因此,良好的系統設計及優化是必要的。
隨著數據增多,越來越多的人會與系統交互,模型跟上腳步是十分重要的。
當高級數據專家的技術能力和其他能力相結合時,才能對他們自身和其公司產生最大的影響。數據科學家寶貴的經驗是非常有價值的,這些經驗能夠指導年輕的開發人員做出更好的設計決策,幫助管理者找出哪些項目會帶來最好的投資回報率,從而也放大了他們的參與對于團隊的影響。
責任編輯:任我行
-
碳中和戰略|趙英民副部長致辭全文
2020-10-19碳中和,碳排放,趙英民 -
兩部門:推廣不停電作業技術 減少停電時間和停電次數
2020-09-28獲得電力,供電可靠性,供電企業 -
國家發改委、國家能源局:推廣不停電作業技術 減少停電時間和停電次數
2020-09-28獲得電力,供電可靠性,供電企業
-
碳中和戰略|趙英民副部長致辭全文
2020-10-19碳中和,碳排放,趙英民 -
深度報告 | 基于分類監管與當量協同的碳市場框架設計方案
2020-07-21碳市場,碳排放,碳交易 -
碳市場讓重慶能源轉型與經濟發展并進
2020-07-21碳市場,碳排放,重慶
-
兩部門:推廣不停電作業技術 減少停電時間和停電次數
2020-09-28獲得電力,供電可靠性,供電企業 -
國家發改委、國家能源局:推廣不停電作業技術 減少停電時間和停電次數
2020-09-28獲得電力,供電可靠性,供電企業 -
2020年二季度福建省統調燃煤電廠節能減排信息披露
2020-07-21火電環保,燃煤電廠,超低排放
-
四川“專線供電”身陷違法困境
2019-12-16專線供電 -
我國能源替代規范法律問題研究(上)
2019-10-31能源替代規范法律 -
區域鏈結構對于數據中心有什么影響?這個影響是好是壞呢!