【數據】即使不會爬蟲技術,也能輕松獲取的重要數據
1 對于具體的業務問題,如何做好數據準備?
很多做數據分析的同學,對數據的獲取有一個誤區,覺得在互聯網上獲取數據,必須通過爬蟲進行爬取。殊不知,有些必須知道的數據,即使不會爬蟲的技能,也可以輕松獲取。
根據這些數據類型的不同,我把它們劃分為實時數據、趨勢數據以及關聯數據,這里,我們先來了解一下,互聯網上,有哪些基于地理位置信息的實時數據。
一、實時數據
實時數據,顧名思義,是事物當前狀態的數據。更好的,經過整合的實時數據,可以為我們盡早地處理問題,提供最佳的契機。
那么,互聯網上,有哪些實時數據可以唾手可得呢,下面我們先來看看,和地圖,也就是地理位置有關的實時數據吧?
1、高德地圖交通大數據,網址:http://report.amap.com
高德地圖在所有的導航App中,目前市場占有量第一,通過高德地圖交通大數據,我們可以得到很多關于交通方面的實時數據。
1)城市交通詳情,通過高德地圖交通大數據,我們可以輕松從網站上面,查出目前每個城市的擁堵指數,如下圖所示:
點擊到具體的城市里面,還可以看到每個城市的每個區域,交通的擁堵情況,如下圖所示:
甚至還可以知道每條主干道的交通指數情況:
2)交通生活圈,通過高德地圖交通大數據,我們可以輕松從網站上面,查出我國各大城市地標建筑在20、30、45、60、90分鐘內,可以到達的地方,例如如果選擇了廣州的北京路作為出發地,30分鐘內可達到的地區,如下圖所示:
3)擁堵榜,通過高德地圖交通大數據,我們可以輕松從網站上面,查出我國每個火車站、機場、收費站以及高速公路的擁堵指數,例如選擇沈海高速,即可得到沈海高速目前每一段的擁堵情況顯示,如下圖所示:
4)交通預測,通過高德地圖交通大數據,我們可以輕松從網站上面,查出我國主要城市未來一周的交通預測情況,例如選擇廣州市,廣州市未來一周的交通情況,即可通過下圖進行了解。
5)交通報告,通過高德地圖交通大數據,我們可以輕松從網站上面,下載到城市或者省份對應的交通報告,如下圖所示:
6)跨城出行,通過高德地圖交通大數據,我們可以輕松從網站上面,查看到某兩個城市之間,遷入、遷出的情況,例如選擇遷出為廣州,得到的數據如下圖所示:
2、騰訊位置大數據,網址:https://heat.qq.com
眾所周知,騰訊擁有移動互聯網時代人人都安裝的軟件微信,因此,在位置大數據方面,騰訊提供的位置大數據,必須是最準確的。
1)位置流量趨勢,通過騰訊位置大數據,可以得到一個地區,例如下圖廣東省廣州市廣州長隆區域的位置流量信息,可以看到,除了提供歷史的流量數據,騰訊位置大數據還提供了一天接下來的時間段的預測數據,可以通過預測數據,避免高峰出行。
2)區域熱力圖,通過騰訊位置大數據,可以得到一個地區內,每個時間點的人數人力圖,如下圖所示。
3)人口遷徙圖,輸入遷出/遷入的位置,即可得到遷徙圖,如下圖所示,類似高德出行大數據中的跨城出行的數據。
4)數據接口,騰訊位置大數據,為數據分析師提供了友好的數據接口,我們可以直接使用對應的數據接口進行數據的訪問呢,簡單實用,如下圖所示。
3、百度遷徙地圖,網址:http://qianxi.baidu.com/
百度基于百度地圖做的百度遷徙地圖,可以獲取到路況、遷徙、景區、樞紐、購物以及游樂場的實時數據。
1)路況,可以從中查看每條高速公路上的交通情況,如下圖所示:
2)遷徙,只能看到全國的遷徙情況,如下圖所示。
3)景區、樞紐、購物、游樂場,都是根據某個區域進行熱力圖的展現,如下圖所示,就是杭州西湖的人流熱力圖。
4)PM2.5空氣質量,網址:http://www.pm25.in/
PM2.5作為空氣污染的重要指標,在pm25.in網站中,可以查詢到,每個城市的PM2.5值,例如,從首頁進去之后,選擇廣州,即可得到廣州每個監測點的PM2.5指標數據,如下圖所示:
作為一個開源項目,PM25.in還為開發者提供給了API調用接口,真是一個良心項目。
5)電視實時關注度,網址:http://eye.kuyun.com/web/
酷云EYE網站可以查看當時全國每個電視臺播放節目的關注情況,如下圖所示:
6)票房實時大數據,網址:http://piaofang.maoyan.com
貓眼票房專業版,可以查看當前所有播放電影的實時票房情況,如下圖所示:
二、趨勢數據
要了解趨勢數據,首先要知道什么是趨勢分析。當我們要分析的數據,是由兩個時間點限定時,這類的分析,我們稱為趨勢分析。
下面我們來看看,有哪些現成的互聯網數據,可以實現趨勢分析。包括:
- 微信指數(網址:小程序)
- 微博指數(網址:http://data.weibo.com/index)
- 百度指數(網址:http://index.baidu.com/)
- 頭條指數(網址:https://index.toutiao.com/)
- 360趨勢(網址:http://trends.so.com/index)
- 騰訊瀏覽指數(網址:http://tbi.tencent.com/)
- 谷歌探索(網址:https://trends.google.com/trends/explore)
- 高德指數(網址:http://i.amap.com)
- 阿里指數(網址:https://alizs.taobao.com)
- 谷歌探索(網址:https://trends.google.com/trends/explore)
- 學術趨勢(網址:http://trend.cnki.net/TrendSearch/index.htm)
- 飛常準航空數據(網址:http://www.variflight.com)
- 農業大數據應用云平臺(網址:http://www.dataagri.com/agriculture/index.action)
下面以百度指數為例,演示一下如何使用趨勢數據。
最近,有兩位名人去世了,分別是物理學家霍金以及文學家李敖,我們來查詢一下,網民對兩位名人的去世的關注程度是怎樣的。
在關鍵字那里先輸入霍金,然后添加對比詞,輸入李敖,點擊確定,即可得到兩個單詞的熱度對比圖。從上圖我們可以看到,霍金去世網友的關注度的最高點(藍色曲線),遠高于李敖去世網友關注度的最高點(綠色曲線)。
三、關聯數據
要了解關聯數據,首先要知道什么是關聯分析。關聯分析的目的,是發現存在于大量數據集中的關聯性或相關性,從而描述了一個事物中某些屬性同時出現的規律和模式。
關聯數據可以通過百度指數提供的需求圖譜進行查閱,同樣,我們使用霍金和李敖兩個關鍵字,來查閱他們的需求圖譜是什么。
除了圖形,往下拉還可以查看具體的相關詞以及對應的熱度列表。
以上,就是數據分析師必須知道的互聯網中常用的數據了,趕緊收藏分享吧!!
責任編輯:售電衡衡
-
權威發布 | 新能源汽車產業頂層設計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設
2020-11-03新能源,汽車,產業,設計 -
中國自主研制的“人造太陽”重力支撐設備正式啟運
2020-09-14核聚變,ITER,核電 -
探索 | 既耗能又可供能的數據中心 打造融合型綜合能源系統
2020-06-16綜合能源服務,新能源消納,能源互聯網
-
新基建助推 數據中心建設將迎爆發期
2020-06-16數據中心,能源互聯網,電力新基建 -
泛在電力物聯網建設下看電網企業數據變現之路
2019-11-12泛在電力物聯網 -
泛在電力物聯網建設典型實踐案例
2019-10-15泛在電力物聯網案例
-
權威發布 | 新能源汽車產業頂層設計落地:鼓勵“光儲充放”,有序推進氫燃料供給體系建設
2020-11-03新能源,汽車,產業,設計 -
中國自主研制的“人造太陽”重力支撐設備正式啟運
2020-09-14核聚變,ITER,核電 -
能源革命和電改政策紅利將長期助力儲能行業發展
-
探索 | 既耗能又可供能的數據中心 打造融合型綜合能源系統
2020-06-16綜合能源服務,新能源消納,能源互聯網 -
5G新基建助力智能電網發展
2020-06-125G,智能電網,配電網 -
從智能電網到智能城市