前言
天下武功中,哪個(gè)是最簡(jiǎn)單,最實(shí)用的了?那當(dāng)然是程咬金的三板斧。傳說(shuō)中,程咬金晚上睡覺(jué),夢(mèng)見(jiàn)一老神仙,教了他三十六式板斧,這套功夫威力極大,而且招式簡(jiǎn)單,十分適合程咬金,但是程咬金醒來(lái)之后就只記住了三招,便有了這三板斧。就是這簡(jiǎn)單的三板斧,幫助李世民建立大唐江山。
這個(gè)教程將以簡(jiǎn)單,有效,實(shí)用為原則,讓大家也能簡(jiǎn)單入門(mén)Python數(shù)據(jù)分析,學(xué)會(huì)這三板斧,讓讀者以后在學(xué)習(xí)數(shù)據(jù)分析的過(guò)程中,少走彎路。
Python數(shù)據(jù)分析流程
用Python做數(shù)據(jù)分析的優(yōu)點(diǎn)就是,通過(guò)一個(gè)pandas庫(kù)就能完成整個(gè)數(shù)據(jù)分析流程。簡(jiǎn)單的流程是,一讀二看三處理四分析五展示,skr~。如下圖所示。
PS:所有數(shù)據(jù)分析不以業(yè)務(wù)為依托,都是耍流氓~

讀取數(shù)據(jù)
這里以全球星巴克的數(shù)據(jù)為例(https://www.kaggle.com/starbucks/store-locations),首先提出問(wèn)題(前文說(shuō)過(guò)要以業(yè)務(wù)為基礎(chǔ),這里我們只能提前定義幾個(gè)感興趣的問(wèn)題),哪些國(guó)家星巴克店鋪較多;哪些城市星巴克店鋪較多;中國(guó)星巴克店鋪分布情況。
首先通過(guò)read_csv讀取數(shù)據(jù),將文件轉(zhuǎn)換為DataFrame格式,這樣我們就可以在Python中進(jìn)行處理。當(dāng)然,pandas支持各種文件格式(read_excel,read_sql等等),做詳細(xì)系列的時(shí)候逐一講解。

查看數(shù)據(jù)
我們可以通過(guò)describe和info方法對(duì)整個(gè)數(shù)據(jù)有個(gè)大概的情況。describe用于查看數(shù)值型數(shù)據(jù)的分布情況。

info方法用于查看各字段的數(shù)據(jù)類(lèi)型,以及缺失情況,可用于后面的數(shù)據(jù)處理。這里我們根據(jù)問(wèn)題,對(duì)country和city字段感興趣,然后發(fā)現(xiàn)city缺失,所以后文中需要對(duì)其處理。

數(shù)據(jù)處理
數(shù)據(jù)處理,其實(shí)就是我們常說(shuō)的數(shù)據(jù)預(yù)處理(清洗數(shù)據(jù)),我們都知道,數(shù)據(jù)大部分情況下,是不干凈的(或者不是我們預(yù)期的),我們需要處理,清洗,常出現(xiàn)的處理任務(wù)如下:
這些都是需要根據(jù)實(shí)際情況來(lái)處理的。接著,我們就來(lái)處理星巴克數(shù)據(jù),首先,查看Brand字段的唯一值,發(fā)現(xiàn)除了星巴克還有其他商品(可能是同一廠商的,屌絲表示對(duì)星巴克一無(wú)所知),我們只取星巴克的數(shù)據(jù)。

之前我們用info函數(shù)可以查看缺失值,但是我們常用isnull函數(shù),這樣可以清楚看出各字段的缺失值都有多少數(shù)據(jù)。

因?yàn)閷?duì)city字段感興趣,所以我們查看到底缺失的數(shù)據(jù),是哪些,我們可以看出,大部分是埃及的國(guó)家(是不是這些國(guó)家沒(méi)有劃分城市,還是說(shuō)沒(méi)有錄入數(shù)據(jù))。

接著,我們就處理這些缺失值。缺失值一般的處理方法有兩種:
這里我們選擇就用國(guó)家字段填充到City字段上。
在數(shù)據(jù)分析中,我發(fā)現(xiàn)小美國(guó)的數(shù)據(jù)把臺(tái)灣當(dāng)做了國(guó)家,這我能忍么?直接重新賦值,換成了中國(guó)(中國(guó)一點(diǎn)都不能少)。整個(gè)的數(shù)據(jù)處理就到這了。
分析+可視化
在python數(shù)據(jù)分析中,我常常會(huì)把分析和可視化結(jié)合在一起,首先我們看看哪些國(guó)家星巴克店最多。
通過(guò)值計(jì)數(shù),看看前10個(gè)國(guó)家。當(dāng)然,數(shù)據(jù)分析中也會(huì)有各種方法:
接著,我們就用pandas可視化(后兩期再介紹功能更強(qiáng)大的可視化方法)。可以看出:美國(guó)和中國(guó)的是最多的。

接著同樣的方法,看看哪些城市的星巴克最多?默默發(fā)現(xiàn),上海市最多(竟然不是美國(guó)城市),果然中國(guó)市場(chǎng)很大嘛。

最后,篩選出中國(guó)地區(qū)的數(shù)據(jù),看看中國(guó)城市的星巴克數(shù)量排名。上海最多,北京第二,上榜的也可以看出都是經(jīng)濟(jì)較發(fā)達(dá)的城市~

今日互動(dòng)
代碼下載:https://github.com/panluoluo/crawler-analysis,下載完整數(shù)據(jù)和代碼。
來(lái)自公眾號(hào): 羅羅攀

? 2025. All Rights Reserved. 滬ICP備2023009024號(hào)-1