身為數(shù)據(jù)科學家怎么能不掌握這四大技能!
數(shù)據(jù)嚙合是需要在相同的粒度級別上進行的。一種理解的方式是:將一塊大拼圖與由許多小塊數(shù)據(jù)拼圖組成的大拼圖組合起來。
例如,假如給你提供了醫(yī)療保單、信用卡和社區(qū)犯罪率的數(shù)據(jù),想由此找出這些社會經(jīng)濟因素如何影響病人,你會怎樣處理?一些數(shù)據(jù)可能是以人為單位,而另一些數(shù)據(jù)可能是街道或城市級別,而且沒有明確的方式來關聯(lián)這些數(shù)據(jù)集。最好的處理方式是什么?這成為了一個不能忽視且必須被解決的問題。
對項目進行優(yōu)先排序
作為數(shù)據(jù)科學家,你需要知道如何解釋可能不劃算的項目的投資回報率(ROI)。這與良好的直接溝通有關(我們的團隊永遠不會停止討論如何溝通),也與能夠清楚表達價值并且對長短期目標進行優(yōu)先排序有關(重申一遍,說起來容易做起來難)
團隊總是會有超出他們處理能力的過多的項目和項目要求。有經(jīng)驗的團隊成員需要起帶頭作用來幫助決策者決定哪些項目是值得進行的。在有很大機會成功但可能不會有最高投資回報率的短期項目和很有可能會失敗但同時也會產(chǎn)生較大投資回報率的長期項目之間需要有一個良好的平衡。
這種情況下,決策矩陣會有助于簡化過程。
經(jīng)典的決策矩陣之一是一個2*2矩陣,行和列分別為重要性和緊迫性。多數(shù)的大學商業(yè)課程中都會出現(xiàn)這種矩陣,它很簡單,這也是它很棒的原因。
我曾在公司和一些很聰明的人共事,但還是工作中的每個項目都被列為優(yōu)先。如果你沒聽過這個說法,我會在這里講出來:
如果每件事都被優(yōu)先考慮,那么,相當于沒有事情被排在優(yōu)先。
選擇正確的項目意味著必須做出取舍。不是所有的事情都是高優(yōu)的。
許多公司都存在這個問題,這就是為什么對于數(shù)據(jù)科學家團隊中有經(jīng)驗的成員,能夠清晰表達出哪些項目需要當下執(zhí)行還是以后執(zhí)行是非常重要的。而使用這個簡單的矩陣能帶來一定幫助。
(簡潔十分重要,使用矩陣來明確投資回報率是有幫助的)。
有了簡明直接的溝通,項目繼續(xù)向前推進,信任也隨之建立起來了。
能夠開發(fā)出穩(wěn)健且最優(yōu)的系統(tǒng)
做出能在受控環(huán)境中操作的算法或模型是一回事。將穩(wěn)健模型集成到實時且能處理大量數(shù)據(jù)的系統(tǒng)又是另一回事。根據(jù)公司的不同,有時數(shù)據(jù)科學家只需開發(fā)算法本身,之后開發(fā)人員或機器學習工程師會負責將其轉為上線的產(chǎn)品。
然而還會有其他的情況,小的公司和小的團隊可能會需要數(shù)據(jù)科學家團隊來將代碼轉為上線產(chǎn)品。這意味著算法需要能以合理的速度控制數(shù)據(jù)流量。如果算法要運行三個小時并且需要被實時訪問,這顯然不能在產(chǎn)品上使用。因此,良好的系統(tǒng)設計及優(yōu)化是必要的。
隨著數(shù)據(jù)增多,越來越多的人會與系統(tǒng)交互,模型跟上腳步是十分重要的。
當高級數(shù)據(jù)專家的技術能力和其他能力相結合時,才能對他們自身和其公司產(chǎn)生最大的影響。數(shù)據(jù)科學家寶貴的經(jīng)驗是非常有價值的,這些經(jīng)驗能夠指導年輕的開發(fā)人員做出更好的設計決策,幫助管理者找出哪些項目會帶來最好的投資回報率,從而也放大了他們的參與對于團隊的影響。

責任編輯:任我行