【算法】機器學習和數據科學最常用到的TOP10算法
數據科學的實踐,需要使用算法和數據科學方法,來幫助數據專業人員從數據中提取洞察力和價值。Kaggle最近的一項調查顯示,數據專家在2017年比其他數據科學方法更多地使用數據可視化、邏輯回歸、交叉驗證和決策樹技術。展望2018年,數據專業人員對學習深度學習(41%)最感興趣。
Kaggle于2017年8月對16,000多名數據專業人員進行了調查。 他們的調查包括數據科學,機器學習,教育等方面的各種問題。 Kaggle發布了原始調查數據,根據這些調查數據,我發現一些有趣的東西。今天的文章是關于2017年數據專業人員使用的數據科學和機器學習方法,以及2018年最令他們興奮的機器學習/數據科學方法。
1. 2017年最受歡迎的數據科學/分析工具,技術和語言
調查包括一個針對數據專業從業人員的問題,“在工作中,你經常使用以下數據科學方法? (選擇所有使用的)”。平均而言,數據專家在2017年使用了5種(中值)數據科學方法。2017年使用的前5種數據科學方法是(見圖1):
- 數據可視化(49%)
- Logistic回歸(42%)
- 交叉驗證(38%)
- 決策樹(36%)
- 隨機森林(34%)
- 時間序列分析(31%)
- 神經網絡(28%)
- PCA和維度降低(27%)
- kNN和其他聚類算法(26%)
- 文本分析(25%)
對于自稱為“數據科學家”的數據專業人員,這些方法的使用率更高。這些數據科學家的采用率大約高出15-20個百分點(例如,66%用于數據可視化,61%用于邏輯回歸, 56%為決策樹,56%為隨機森林)。
KDNuggets最近的一項調查發現,與目前的研究結果類似。在他們的研究中,頂級數據科學和機器學習方法還包括回歸(60%),聚類(55%),可視化(51%),決策樹/規則(51%)和隨機森林(46%)。
2. 哪些2018年學習最為興奮的機器學習和數據科學方法?
另一個調查是,所有數據專業人士(不管是否正在工作),了解他們在下一年最興奮的機器學習/數據科學方法。結果顯示,數據專業人員對深度學習最感興趣:
- 深度學習(41%)
- 神經網絡(13%)
- 時間序列分析(6%)
- 貝葉斯方法(5%)
- 文本挖掘(5%)
3. 小結
Kaggle對16,000多名數據專家的調查結果,揭示了工作中使用的最流行的數據科學方法。數據可視化和邏輯回歸列在首位。
毫不奇怪,10位數據專業人士中有4位表示,他們非常高興在明年學習深度學習。
深度學習是一類機器學習算法,它是根據大腦的信息處理和通信模式建模的。
深度學習使用單位層或節點進行特征提取和轉換,每層使用前一層的輸出作為輸入。
深度學習方法可用于營銷,汽車,語音識別等領域。
這種對學習深度學習興趣的同時,調查結果還表明,用于深度學習的流行的開源軟件TensorFlow是專業人士有興趣學習的頂級工具數據。
本文翻譯自:
http://businessoverbroadway.com/top-machine-learning-and-data-science-methods-used-at-work
責任編輯:售電衡衡
-
權威發布 | 新能源汽車產業頂層設計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設
2020-11-03新能源,汽車,產業,設計 -
中國自主研制的“人造太陽”重力支撐設備正式啟運
2020-09-14核聚變,ITER,核電 -
探索 | 既耗能又可供能的數據中心 打造融合型綜合能源系統
2020-06-16綜合能源服務,新能源消納,能源互聯網
-
新基建助推 數據中心建設將迎爆發期
2020-06-16數據中心,能源互聯網,電力新基建 -
泛在電力物聯網建設下看電網企業數據變現之路
2019-11-12泛在電力物聯網 -
泛在電力物聯網建設典型實踐案例
2019-10-15泛在電力物聯網案例
-
權威發布 | 新能源汽車產業頂層設計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設
2020-11-03新能源,汽車,產業,設計 -
中國自主研制的“人造太陽”重力支撐設備正式啟運
2020-09-14核聚變,ITER,核電 -
能源革命和電改政策紅利將長期助力儲能行業發展
-
探索 | 既耗能又可供能的數據中心 打造融合型綜合能源系統
2020-06-16綜合能源服務,新能源消納,能源互聯網 -
5G新基建助力智能電網發展
2020-06-125G,智能電網,配電網 -
從智能電網到智能城市