Kaggle是當(dāng)下最真實(shí)有效的數(shù)據(jù)科學(xué)學(xué)術(shù)活動(dòng)平臺(tái),也是目前最大的數(shù)據(jù)科學(xué)家、機(jī)器學(xué)習(xí)開發(fā)者社區(qū)。Kaggle適用于以下人群:
我是小白,但是對(duì)數(shù)據(jù)科學(xué)充滿求知欲。
我想要?dú)v練自己的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)技能,成為一名真正的數(shù)據(jù)科(lao)學(xué)(si)家。
我想贏取獎(jiǎng)金,成為人生贏家。
Kaggle創(chuàng)辦于2010年,目前已經(jīng)被Google收購,是全球頂級(jí)的權(quán)威性數(shù)據(jù)科學(xué)學(xué)術(shù)活動(dòng)平臺(tái),在數(shù)據(jù)科學(xué)領(lǐng)域中享有盛名,為全世界的數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的愛好者、研究者和創(chuàng)業(yè)者提供了公平、公正的學(xué)術(shù)活動(dòng)平臺(tái)。
在平臺(tái)上,企業(yè)或者研究者可以將數(shù)據(jù)、問題描述、期望的指標(biāo)發(fā)布到Kaggle上,以學(xué)術(shù)活動(dòng)的形式向廣大的數(shù)據(jù)科學(xué)家征集解決方案。Kaggle上的參賽者將數(shù)據(jù)下載下來,分析數(shù)據(jù),然后運(yùn)用機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等知識(shí),建立算法模型,解決問題得出結(jié)果,最后將結(jié)果提交,如果提交的結(jié)果符合指標(biāo)要求并且在參賽者中排名第一,將獲得比賽豐厚的獎(jiǎng)金。
適合對(duì)date science、date mining、machine learning感興趣的高中生;以及有一定計(jì)算機(jī)背景的人群。是絕佳提升申請(qǐng)背景的賽事。
Kaggle上的學(xué)術(shù)活動(dòng)有各種分類,例如獎(jiǎng)金極高競(jìng)爭(zhēng)激烈的“Featured”,相對(duì)平民化的 “Research”等等。但他們整體的項(xiàng)目模式是一樣的,就是通過出題方給予的訓(xùn)練集建立模型,再利用測(cè)試集算出結(jié)果用來評(píng)比。同時(shí),每個(gè)進(jìn)行中的學(xué)術(shù)活動(dòng)項(xiàng)目都會(huì)顯示剩余時(shí)間、參與的隊(duì)伍數(shù)量以及獎(jiǎng)金金額,并且還會(huì)實(shí)時(shí)更新選手排位。
Featured:是Kaggle最著名的比賽類型,適合數(shù)據(jù)科學(xué)高手參與。題目都是全面的機(jī)器學(xué)習(xí)問題,所以有一定難度,通常是商業(yè)目的的預(yù)測(cè)問題,獎(jiǎng)金池最大。
Research:同樣適合數(shù)據(jù)科學(xué)高手參與,以實(shí)驗(yàn)研究為主要方向的學(xué)術(shù)活動(dòng),獎(jiǎng)金相比Featured較少。Recruitment:適合想要去發(fā)布公司求職的人,以各大公司需要招募相關(guān)職業(yè)為主Getting 。
Started:適合基礎(chǔ)入門選手,與Featured學(xué)術(shù)活動(dòng)結(jié)構(gòu)類似,但并沒有獎(jiǎng)金,以初學(xué)者項(xiàng)目學(xué)習(xí)積攢經(jīng)驗(yàn)為主。
Masters:大師級(jí)別比賽的,難度最高,項(xiàng)目也最少。
Annual:有兩種類型的年度比賽。
第一個(gè)是March Machine Learning Competition,自2014年以來,該比賽每年都在美國大學(xué)籃球錦標(biāo)賽期間舉行。
第二個(gè)是Santa-themed optimization competition,每年在圣誕節(jié)前后舉行一次。
在截止日期之前,所有隊(duì)伍都可以自由加入學(xué)術(shù)活動(dòng),或者對(duì)已經(jīng)提交的方案進(jìn)行完善,因此排名也會(huì)不斷變動(dòng),不到最后一刻誰都不知道花落誰家。
由于這類問題并沒有標(biāo)準(zhǔn)答案,只有無限逼近最優(yōu)解,所以這樣的模式可以激勵(lì)參與者提出更好的方案,甚至推動(dòng)整個(gè)行業(yè)的發(fā)展。
Kaggle學(xué)術(shù)活動(dòng)另一個(gè)有趣的地方在于,每個(gè)人都有自己的Profile,上面會(huì)顯示所有自己參與過的項(xiàng)目、活躍度、實(shí)時(shí)排位、歷史最佳排位等,不僅看上去非常有成就感,更能在求職和申請(qǐng)的時(shí)候起Certificate的作用。
編程語言:最基礎(chǔ)的入門學(xué)者也得先學(xué)會(huì)初步使用一門編程語言。對(duì)于毫無基礎(chǔ)的新手,推薦使用Python,因?yàn)镻ython作為一種強(qiáng)大的膠水語言,可以迅速入門。探索數(shù)據(jù):光有編程語言是不夠的,還需要學(xué)習(xí)如何探索性分析你手上的數(shù)據(jù),這是進(jìn)入數(shù)據(jù)科學(xué)的第一步。因?yàn)橥ǔ5绞值臄?shù)據(jù)都多到不可思議,你要學(xué)會(huì)取舍和迅速獲取最有用的信息。模型訓(xùn)練:熟悉使用機(jī)器學(xué)習(xí)庫,培養(yǎng)良好的習(xí)慣,為之后的工作做鋪墊實(shí)戰(zhàn),從初級(jí)可以逐漸增加。
注冊(cè)Kaggle賬號(hào);
選擇感興趣的學(xué)術(shù)活動(dòng)項(xiàng)目,下載數(shù)據(jù)集(csv格式),數(shù)據(jù)集中一般包括訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集,查看數(shù)據(jù)描述和任務(wù)描述,明確需求;
用你擅長(zhǎng)的任何語言或算法來構(gòu)建模型,用訓(xùn)練集來訓(xùn)練,然后用訓(xùn)練好的模型推測(cè)測(cè)試集的labels,生成一個(gè)測(cè)試集labels作為最終的提交文件;
系統(tǒng)會(huì)從所提交文件中選取25%的數(shù)據(jù)進(jìn)行初評(píng),根據(jù)評(píng)測(cè)結(jié)果得到準(zhǔn)確率和排名。在比賽結(jié)束時(shí),采用剩下的75%的數(shù)據(jù)進(jìn)行終評(píng),作為最后的準(zhǔn)確率。
Kaggle在全球擁有超過80萬數(shù)據(jù)科學(xué)家的關(guān)注,有眾多知名公司or研究機(jī)構(gòu),發(fā)布自己接近真實(shí)的業(yè)務(wù)/研究數(shù)據(jù)和高額獎(jiǎng)金,懸賞尋求最好最新的解決辦法,甚至給出頂尖的工作機(jī)會(huì)。
Kaggle提供了一個(gè)介于“完美”與真實(shí)之間的過渡,問題的定義基本良好,卻夾著或多或少的難點(diǎn),一般沒有完全成熟的解決方案。
在參賽過程中與論壇上的其他參賽者互動(dòng),能不斷地獲得啟發(fā),受益良多。即使對(duì)于一些學(xué)有所成的高手乃至大牛,參加Kaggle也常常會(huì)獲得很多啟發(fā),與來著世界各地的隊(duì)伍進(jìn)行廝殺的刺激更讓人欲罷不能。
更重要的是,Kaggle是業(yè)界普遍承認(rèn)的學(xué)術(shù)活動(dòng)平臺(tái),能從Kaggle上的一些高質(zhì)量學(xué)術(shù)活動(dòng)獲取好名次,是對(duì)自己實(shí)力極好的證明,還能給自己的履歷添上光輝的一筆。
利用新聞報(bào)道預(yù)測(cè)股價(jià)走勢(shì):https://www.kaggle.com/c/two-sigma-financial-news/overview/description下面這位17歲的英國高中生Mikel Bober-Irizar,他是Kaggle史上最年輕的Grandmaster。Kaggle competition總共有122位Grandmaster,這代表了Kaggle學(xué)術(shù)活動(dòng)選手中的最高級(jí)別。Mikel在14歲加入Kaggle,三年時(shí)間便達(dá)到了Kaggle頂峰。談到數(shù)學(xué),Mikel說,“我不知道算法背后的所有數(shù)學(xué)原理,但就實(shí)際使用而言,我認(rèn)為對(duì)算法的工作方式有一個(gè)合理的理解更為重要。即使我不能從頭開始寫算法,我仍然知道它具體做了什么,這有助于我理解算法可能有用的地方。”
以上就是關(guān)于【谷歌Kaggle數(shù)據(jù)科學(xué)競(jìng)賽】的解答,如需了解學(xué)校/賽事/課程動(dòng)態(tài),可至翰林教育官網(wǎng)獲取更多信息。
往期文章閱讀推薦:
競(jìng)賽獲獎(jiǎng)≠名校offer,但拿下哈佛、MIT、牛劍Offer的學(xué)霸履歷里,都有一個(gè)共同點(diǎn)……
【十問十答】別盲目刷競(jìng)賽!10 個(gè)核心問答,理清國際賽事規(guī)劃底層邏輯!

? 2026. All Rights Reserved. 滬ICP備2023009024號(hào)-1