前言
天下武功中,哪個是最簡單,最實用的了?那當然是程咬金的三板斧。傳說中,程咬金晚上睡覺,夢見一老神仙,教了他三十六式板斧,這套功夫威力極大,而且招式簡單,十分適合程咬金,但是程咬金醒來之后就只記住了三招,便有了這三板斧。就是這簡單的三板斧,幫助李世民建立大唐江山。
這個教程將以簡單,有效,實用為原則,讓大家也能簡單入門Python數據分析,學會這三板斧,讓讀者以后在學習數據分析的過程中,少走彎路。
Python數據分析流程
用Python做數據分析的優點就是,通過一個pandas庫就能完成整個數據分析流程。簡單的流程是,一讀二看三處理四分析五展示,skr~。如下圖所示。
PS:所有數據分析不以業務為依托,都是耍流氓~

讀取數據
這里以全球星巴克的數據為例(https://www.kaggle.com/starbucks/store-locations),首先提出問題(前文說過要以業務為基礎,這里我們只能提前定義幾個感興趣的問題),哪些國家星巴克店鋪較多;哪些城市星巴克店鋪較多;中國星巴克店鋪分布情況。
首先通過read_csv讀取數據,將文件轉換為DataFrame格式,這樣我們就可以在Python中進行處理。當然,pandas支持各種文件格式(read_excel,read_sql等等),做詳細系列的時候逐一講解。

查看數據
我們可以通過describe和info方法對整個數據有個大概的情況。describe用于查看數值型數據的分布情況。

info方法用于查看各字段的數據類型,以及缺失情況,可用于后面的數據處理。這里我們根據問題,對country和city字段感興趣,然后發現city缺失,所以后文中需要對其處理。

數據處理
數據處理,其實就是我們常說的數據預處理(清洗數據),我們都知道,數據大部分情況下,是不干凈的(或者不是我們預期的),我們需要處理,清洗,常出現的處理任務如下:
這些都是需要根據實際情況來處理的。接著,我們就來處理星巴克數據,首先,查看Brand字段的唯一值,發現除了星巴克還有其他商品(可能是同一廠商的,屌絲表示對星巴克一無所知),我們只取星巴克的數據。

之前我們用info函數可以查看缺失值,但是我們常用isnull函數,這樣可以清楚看出各字段的缺失值都有多少數據。

因為對city字段感興趣,所以我們查看到底缺失的數據,是哪些,我們可以看出,大部分是埃及的國家(是不是這些國家沒有劃分城市,還是說沒有錄入數據)。

接著,我們就處理這些缺失值。缺失值一般的處理方法有兩種:
這里我們選擇就用國家字段填充到City字段上。
在數據分析中,我發現小美國的數據把臺灣當做了國家,這我能忍么?直接重新賦值,換成了中國(中國一點都不能少)。整個的數據處理就到這了。
分析+可視化
在python數據分析中,我常常會把分析和可視化結合在一起,首先我們看看哪些國家星巴克店最多。
通過值計數,看看前10個國家。當然,數據分析中也會有各種方法:
接著,我們就用pandas可視化(后兩期再介紹功能更強大的可視化方法)。可以看出:美國和中國的是最多的。

接著同樣的方法,看看哪些城市的星巴克最多?默默發現,上海市最多(竟然不是美國城市),果然中國市場很大嘛。

最后,篩選出中國地區的數據,看看中國城市的星巴克數量排名。上海最多,北京第二,上榜的也可以看出都是經濟較發達的城市~

今日互動
代碼下載:https://github.com/panluoluo/crawler-analysis,下載完整數據和代碼。
來自公眾號: 羅羅攀

? 2026. All Rights Reserved. 滬ICP備2023009024號-1