Kaggle是當下最真實有效的數(shù)據(jù)科學學術活動平臺,也是目前最大的數(shù)據(jù)科學家、機器學習開發(fā)者社區(qū)。Kaggle適用于以下人群:
我是小白,但是對數(shù)據(jù)科學充滿求知欲。
我想要歷練自己的數(shù)據(jù)挖掘和機器學習技能,成為一名真正的數(shù)據(jù)科(lao)學(si)家。
我想贏取獎金,成為人生贏家。
Kaggle創(chuàng)辦于2010年,目前已經(jīng)被Google收購,是全球頂級的權威性數(shù)據(jù)科學學術活動平臺,在數(shù)據(jù)科學領域中享有盛名,為全世界的數(shù)據(jù)科學和機器學習的愛好者、研究者和創(chuàng)業(yè)者提供了公平、公正的學術活動平臺。
在平臺上,企業(yè)或者研究者可以將數(shù)據(jù)、問題描述、期望的指標發(fā)布到Kaggle上,以學術活動的形式向廣大的數(shù)據(jù)科學家征集解決方案。Kaggle上的參賽者將數(shù)據(jù)下載下來,分析數(shù)據(jù),然后運用機器學習、數(shù)據(jù)挖掘等知識,建立算法模型,解決問題得出結果,最后將結果提交,如果提交的結果符合指標要求并且在參賽者中排名第一,將獲得比賽豐厚的獎金。
適合對date science、date mining、machine learning感興趣的高中生;以及有一定計算機背景的人群。是絕佳提升申請背景的賽事。
Kaggle上的學術活動有各種分類,例如獎金極高競爭激烈的“Featured”,相對平民化的 “Research”等等。但他們整體的項目模式是一樣的,就是通過出題方給予的訓練集建立模型,再利用測試集算出結果用來評比。同時,每個進行中的學術活動項目都會顯示剩余時間、參與的隊伍數(shù)量以及獎金金額,并且還會實時更新選手排位。
Featured:是Kaggle最著名的比賽類型,適合數(shù)據(jù)科學高手參與。題目都是全面的機器學習問題,所以有一定難度,通常是商業(yè)目的的預測問題,獎金池最大。
Research:同樣適合數(shù)據(jù)科學高手參與,以實驗研究為主要方向的學術活動,獎金相比Featured較少。Recruitment:適合想要去發(fā)布公司求職的人,以各大公司需要招募相關職業(yè)為主Getting 。
Started:適合基礎入門選手,與Featured學術活動結構類似,但并沒有獎金,以初學者項目學習積攢經(jīng)驗為主。
Masters:大師級別比賽的,難度最高,項目也最少。
Annual:有兩種類型的年度比賽。
第一個是March Machine Learning Competition,自2014年以來,該比賽每年都在美國大學籃球錦標賽期間舉行。
第二個是Santa-themed optimization competition,每年在圣誕節(jié)前后舉行一次。
在截止日期之前,所有隊伍都可以自由加入學術活動,或者對已經(jīng)提交的方案進行完善,因此排名也會不斷變動,不到最后一刻誰都不知道花落誰家。
由于這類問題并沒有標準答案,只有無限逼近最優(yōu)解,所以這樣的模式可以激勵參與者提出更好的方案,甚至推動整個行業(yè)的發(fā)展。
Kaggle學術活動另一個有趣的地方在于,每個人都有自己的Profile,上面會顯示所有自己參與過的項目、活躍度、實時排位、歷史最佳排位等,不僅看上去非常有成就感,更能在求職和申請的時候起Certificate的作用。
編程語言:最基礎的入門學者也得先學會初步使用一門編程語言。對于毫無基礎的新手,推薦使用Python,因為Python作為一種強大的膠水語言,可以迅速入門。探索數(shù)據(jù):光有編程語言是不夠的,還需要學習如何探索性分析你手上的數(shù)據(jù),這是進入數(shù)據(jù)科學的第一步。因為通常到手的數(shù)據(jù)都多到不可思議,你要學會取舍和迅速獲取最有用的信息。模型訓練:熟悉使用機器學習庫,培養(yǎng)良好的習慣,為之后的工作做鋪墊實戰(zhàn),從初級可以逐漸增加。
注冊Kaggle賬號;
選擇感興趣的學術活動項目,下載數(shù)據(jù)集(csv格式),數(shù)據(jù)集中一般包括訓練數(shù)據(jù)集和測試數(shù)據(jù)集,查看數(shù)據(jù)描述和任務描述,明確需求;
用你擅長的任何語言或算法來構建模型,用訓練集來訓練,然后用訓練好的模型推測測試集的labels,生成一個測試集labels作為最終的提交文件;
系統(tǒng)會從所提交文件中選取25%的數(shù)據(jù)進行初評,根據(jù)評測結果得到準確率和排名。在比賽結束時,采用剩下的75%的數(shù)據(jù)進行終評,作為最后的準確率。
Kaggle在全球擁有超過80萬數(shù)據(jù)科學家的關注,有眾多知名公司or研究機構,發(fā)布自己接近真實的業(yè)務/研究數(shù)據(jù)和高額獎金,懸賞尋求最好最新的解決辦法,甚至給出頂尖的工作機會。
Kaggle提供了一個介于“完美”與真實之間的過渡,問題的定義基本良好,卻夾著或多或少的難點,一般沒有完全成熟的解決方案。
在參賽過程中與論壇上的其他參賽者互動,能不斷地獲得啟發(fā),受益良多。即使對于一些學有所成的高手乃至大牛,參加Kaggle也常常會獲得很多啟發(fā),與來著世界各地的隊伍進行廝殺的刺激更讓人欲罷不能。
更重要的是,Kaggle是業(yè)界普遍承認的學術活動平臺,能從Kaggle上的一些高質量學術活動獲取好名次,是對自己實力極好的證明,還能給自己的履歷添上光輝的一筆。
利用新聞報道預測股價走勢:https://www.kaggle.com/c/two-sigma-financial-news/overview/description下面這位17歲的英國高中生Mikel Bober-Irizar,他是Kaggle史上最年輕的Grandmaster。Kaggle competition總共有122位Grandmaster,這代表了Kaggle學術活動選手中的最高級別。Mikel在14歲加入Kaggle,三年時間便達到了Kaggle頂峰。談到數(shù)學,Mikel說,“我不知道算法背后的所有數(shù)學原理,但就實際使用而言,我認為對算法的工作方式有一個合理的理解更為重要。即使我不能從頭開始寫算法,我仍然知道它具體做了什么,這有助于我理解算法可能有用的地方。”

? 2025. All Rights Reserved. 滬ICP備2023009024號-1