男人资源站-涩涩五月天-加勒比一区二区-欧美丰满少妇-清纯唯美亚洲-蜜臀久久99精品久久久久宅男-1024手机在线观看-a免费在线观看-日韩一区二区三免费高清在线观看-激情欧美一区二区-日韩综合网站-色小说av-夜夜夜操操操-色片在线播放-免费在线观看中文字幕

<menu id="ylwcs"><rp id="ylwcs"><big id="ylwcs"></big></rp></menu>

<button id="ylwcs"><ins id="ylwcs"></ins></button>

<td id="ylwcs"><dl id="ylwcs"><label id="ylwcs"></label></dl></td>

<rp id="ylwcs"><ins id="ylwcs"></ins></rp>

Home » 國際競賽 » Details

Python有趣|數(shù)據(jù)分析三板斧

Category: 國際競賽, 計算機國際競賽 Date: 2019年3月29日下午6:14

2026042107343788

前言

天下武功中，哪個是最簡單，最實用的了？那當然是程咬金的三板斧。傳說中，程咬金晚上睡覺，夢見一老神仙，教了他三十六式板斧，這套功夫威力極大，而且招式簡單，十分適合程咬金，但是程咬金醒來之后就只記住了三招，便有了這三板斧。就是這簡單的三板斧，幫助李世民建立大唐江山。
這個教程將以簡單，有效，實用為原則，讓大家也能簡單入門Python數(shù)據(jù)分析，學會這三板斧，讓讀者以后在學習數(shù)據(jù)分析的過程中，少走彎路。

Python數(shù)據(jù)分析流程

用Python做數(shù)據(jù)分析的優(yōu)點就是，通過一個pandas庫就能完成整個數(shù)據(jù)分析流程。簡單的流程是，一讀二看三處理四分析五展示，skr~。如下圖所示。
PS：所有數(shù)據(jù)分析不以業(yè)務(wù)為依托，都是耍流氓~

764799-ef11233e919bf2ff65336ba557236463

讀取數(shù)據(jù)

這里以全球星巴克的數(shù)據(jù)為例（https://www.kaggle.com/starbucks/store-locations），首先提出問題（前文說過要以業(yè)務(wù)為基礎(chǔ)，這里我們只能提前定義幾個感興趣的問題），哪些國家星巴克店鋪較多；哪些城市星巴克店鋪較多；中國星巴克店鋪分布情況。

首先通過read_csv讀取數(shù)據(jù)，將文件轉(zhuǎn)換為DataFrame格式，這樣我們就可以在Python中進行處理。當然，pandas支持各種文件格式（read_excel,read_sql等等），做詳細系列的時候逐一講解。

import numpy as np
import pandas as pd
data = pd.read_csv('directory.csv')
data.head()

764799-7e0c7c93df6582d058ba5acdc1ed2f4f

查看數(shù)據(jù)

我們可以通過describe和info方法對整個數(shù)據(jù)有個大概的情況。describe用于查看數(shù)值型數(shù)據(jù)的分布情況。

data.describe()

764799-fc73dca4e0232fe4d9561d7978ec6c3b

info方法用于查看各字段的數(shù)據(jù)類型，以及缺失情況，可用于后面的數(shù)據(jù)處理。這里我們根據(jù)問題，對country和city字段感興趣，然后發(fā)現(xiàn)city缺失，所以后文中需要對其處理。

data.info()

764799-f91b8db2f99a2312fb6f4e30d77a4a30

數(shù)據(jù)處理

數(shù)據(jù)處理，其實就是我們常說的數(shù)據(jù)預處理（清洗數(shù)據(jù)），我們都知道，數(shù)據(jù)大部分情況下，是不干凈的（或者不是我們預期的），我們需要處理，清洗，常出現(xiàn)的處理任務(wù)如下：

缺失值處理
異常值處理
重復值處理
多表處理
數(shù)據(jù)轉(zhuǎn)換處理

這些都是需要根據(jù)實際情況來處理的。接著，我們就來處理星巴克數(shù)據(jù)，首先，查看Brand字段的唯一值，發(fā)現(xiàn)除了星巴克還有其他商品（可能是同一廠商的，屌絲表示對星巴克一無所知），我們只取星巴克的數(shù)據(jù)。

764799-a0933533415c76ec7bfa43d397cf8419

之前我們用info函數(shù)可以查看缺失值，但是我們常用isnull函數(shù)，這樣可以清楚看出各字段的缺失值都有多少數(shù)據(jù)。

data.isnull().sum()

764799-e8c179d428ae89be585715929ace389f

因為對city字段感興趣，所以我們查看到底缺失的數(shù)據(jù)，是哪些，我們可以看出，大部分是埃及的國家（是不是這些國家沒有劃分城市，還是說沒有錄入數(shù)據(jù)）。

data[data['City'].isnull()]

764799-ea53d9758043b92b4f1dbf5ed5017f04

接著，我們就處理這些缺失值。缺失值一般的處理方法有兩種：

刪掉
填充

這里我們選擇就用國家字段填充到City字段上。

def fill_na(x):
return x
data['City'] = data['City'].fillna(fill_na(data['State/Province']))
data[data['Country']=='EG']

在數(shù)據(jù)分析中，我發(fā)現(xiàn)小美國的數(shù)據(jù)把臺灣當做了國家，這我能忍么？直接重新賦值，換成了中國（中國一點都不能少）。整個的數(shù)據(jù)處理就到這了。

data['Country'][data['Country'] == 'TW'] = 'CN'

分析+可視化

在python數(shù)據(jù)分析中，我常常會把分析和可視化結(jié)合在一起，首先我們看看哪些國家星巴克店最多。
通過值計數(shù)，看看前10個國家。當然，數(shù)據(jù)分析中也會有各種方法：

值計數(shù)
數(shù)據(jù)分組聚合
透視表

country_count = data['Country'].value_counts()[0:10]

接著，我們就用pandas可視化（后兩期再介紹功能更強大的可視化方法）。可以看出：美國和中國的是最多的。

import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['simhei'] #指定默認字體
plt.rcParams['axes.unicode_minus'] = False #解決保存圖像是負號'-'顯示為方塊的問題
%matplotlib inline
country_count.plot(kind='bar')

764799-98e87cada4c9a75f76c616c5ed6bbee3

接著同樣的方法，看看哪些城市的星巴克最多？默默發(fā)現(xiàn)，上海市最多（竟然不是美國城市），果然中國市場很大嘛。

764799-b659c110624289f25037454896180a86

最后，篩選出中國地區(qū)的數(shù)據(jù)，看看中國城市的星巴克數(shù)量排名。上海最多，北京第二，上榜的也可以看出都是經(jīng)濟較發(fā)達的城市~

china_data = data[data['Country'] == 'CN']
city_count = china_data['City'].value_counts()[0:10]
city_count.plot(kind='barh')

764799-8673ad3d86891eb7f70f0a35cf3b67e8

今日互動

代碼下載：https://github.com/panluoluo/crawler-analysis，下載完整數(shù)據(jù)和代碼。

來自公眾號：羅羅攀

以上就是關(guān)于【Python有趣|數(shù)據(jù)分析三板斧】的解答，如需了解學校/賽事/課程動態(tài)，可至翰林教育官網(wǎng)獲取更多信息。

往期文章閱讀推薦：

2026 NOAI國際AI奧賽中國站即將開考！賽事地址&日程已出！

2027 USAAIO美國AI奧賽啟動報名！MIT/谷歌/Jane Street集體站臺！

202510140151063

Previous post: 深度剖析感性思維與理性思維對數(shù)學學習的影響 Next post: 【信息學】什么是信息學奧賽？

? 2026. All Rights Reserved. 滬ICP備2023009024號-1

國際競賽

了解背提項目

國際課程

國際課程

國際課程

商務(wù)合作

商務(wù)合作

商務(wù)合作

課程試聽

Go to top

<tt id="rznyx"></tt>

<button id="rznyx"><ins id="rznyx"><tr id="rznyx"></tr></ins></button>