參賽時間
全年滾動,隨時可以報名
Kaggle是一個全球知名的數據科學學術活動在線平臺。由Anthony Goldbloom和Ben Hamner創立于2010年,是一個進行數據發掘和預測學術活動的在線平臺,也是全球最大的數據科學社區和數據科學學術活動平臺,2017年被Google收購。從公司的角度來講,可以提供一些數據,進而提出一個實際需要解決的問題;從參賽者的角度來講,他們將組隊參與項目,針對其中一個問題提出解決方案,最終由公司選出的最佳方案可以獲得5K-10K美金的獎金。
Kaggle以數據挖掘起家,為了快速高效的解決最棘手的問題,該平臺發布了眾多數據科學、機器學習相關的學術活動。Kaggle的多數學術活動由企業或者研究機構發布,以學術活動獎勵的方式向全球征集解決方案,通過眾包的方式解決建模問題,諸如Google、Facebook、Microsoft等知名科技公司均在Kaggle上舉辦過數據挖掘比賽。除此之外,Kaggle官方每年還會舉辦一次大規模的學術活動,獎金高達一百萬美金,吸引了廣大的數據科學愛好者參與其中。但是不同于傳統的低層次勞動力需求,Kaggle一直致力于解決業界難題,因此也創造了一種全新的勞動力市場——不再以學歷和工作經驗作為唯一的人才評判標準,而是著眼于個人技能,為頂尖人才和公司之間搭建了一座橋梁。
全年滾動,隨時可以報名
高中生/計算機背景的大學生
比賽全英文,可以練習英語
其難度從初學到高階以及求職均有涉及,最常見的競賽可以劃分為以下類型
特色
研究
入門比賽
游樂場比賽
類別/職業
分析
可以以個人或組隊的形式參加比賽,在參賽時可以相互分享經驗
01注冊賬號(一人只能有一個賬號)
02選擇想要參賽的項目
03下載題目的數據
04時間截止,評出最優者
05獲獎的隊伍必須提交源代碼
一段帶獎金高難度的Kaggle比賽的 Prize Winner經歷并不會比一段互聯網大廠數據分析實習經歷遜色,大大提高你的錄取概率。
最基礎的入門學者也需要學會初步使用一門編程語言。對于毫無基礎的新手,推薦使用Python,因為Python作為一種強大的膠水語言,可迅速入門。
光有編程語言是不夠的,還需要學習如何探索性分析你手上的數據,這是進入數據科學的第一步。因為通常到手的數據都多到不可思議,你要學會取舍和迅速獲取最有用的信息。
熟悉使用機器學習庫,培養良好的習慣,為之后的工作做鋪墊實戰,從初級可以逐漸增加難度。
Simple Competitions:
遵循標準 Kaggle 格式的比賽。在簡單的比賽中,用戶在接受比賽規則后,可以在比賽開始時訪問完整的數據集。作為競爭對手,您將下載數據,在本地或筆記本中構建模型,生成預測文件,然后將您的預測作為提交上傳到 Kaggle。到目前為止,Kaggle 上的大多數比賽都遵循這種格式。
Two-stage:
分為第一階段和第二階段,第二階段建立在團隊在第 1 階段取得的成績的基礎上。第 2 階段涉及在階段開始時發布的新測試數據集。第 2 階段的資格通常需要在第 1 階段提交。在兩個階段的比賽中,閱讀和理解比賽的具體規則和時間表尤為重要。
Code Competitions:
在這些比賽中,所有提交都是在 Kaggle 筆記本內部提交的,并且無法直接將提交上傳到比賽。
這些比賽有兩個吸引人的特點。競爭更加平衡,因為所有用戶都有相同的硬件限額。獲勝模型往往比其他比賽中的獲勝模型簡單得多,因為它們必須在平臺施加的計算限制內運行。對您可以提交的筆記本配置了自己獨特的約束。這些可能受到以下特征的限制:CPU 或 GPU 運行時、使用外部數據的能力以及對 Internet 的訪問。要了解您必須遵守的限制,請查看該特定比賽的要求。
這是傳奇的Titanic ML比賽——對你來說是深入ML比賽并熟悉Kaggle平臺如何工作的最好的第一個挑戰。
比賽很簡單:使用機器學習來創建一個模型,預測哪些乘客在泰坦尼克號沉船中幸存下來。
在愛荷華州艾姆斯市,有79個解釋變量(幾乎)描述了住宅住宅的每個方面,這項競賽要求你預測每個住宅的最終價格。
你的工作是預測每棟房子的銷售價格。對于測試集中的每個 ID,必須預測 SalePrice 變量的值。
歡迎來到2912年,這里需要你的數據科學技能來解決一個宇宙之謎。我們收到了來自四光年外的信號情況不妙。
為了幫助救援人員并找回失蹤的乘客,你面臨的挑戰是利用從飛船受損的計算機系統中恢復的記錄來預測哪些乘客被異常運送。
Allstate索賠預測挑戰?- 使用客戶的購物歷史記錄來預測他們購買的保險單
有害評論分類挑戰?- 預測維基百科上有害評論的存在和類型
Zillow獎?- 構建一個機器學習算法,可以挑戰Zesow,Zillow房地產價格估算算法
谷歌地標檢索挑戰 - 如果有圖像,您能在數據集中找到所有相同的地標嗎?
右鯨識別 - 識別航空照片中瀕臨滅絕的露脊鯨
大規模分層文本分類 - 將維基百科文檔分類為約300,000個類別之一
泰坦尼克號:從災難中進行機器學習,預測泰坦尼克號的生存幾率
房價預測:回歸方法
貓與狗:創建一種算法去區分貓與狗
紐約出租車行程持續時間:通過數據改善乘車時間預測
kaggle的評價體系 kaggle的用戶評價體系是基于三個維度的:學術活動、代碼以及社區參與
Kaggle是計算機科學領域中最知名的學術活動之一,為學習計算機科學的人提供了一個絕佳的平臺。如果你在計算機科學領域從未聽說過Kaggle,就好比在學習數學專業的過程中從未聽說過AMC,簡直難以置信。 Kaggle學術...
在人工智能盛行的時代,STEM(科學、技術、工程和數學)已經成為最受矚目的學科領域。作為人工智能的核心學科,計算機領域成為了眾多留學生爭相涌入的申請賽道。雖然STEM領域有很多學術活動活動,但專注于人工智...
在這個信息技術爆炸的時代,理工高中生需要掌握許多關鍵技能。其中一個非常重要的技能就是數據能力。隨著人工智能和機器學習的不斷發展,這些前沿科技離不開大數據的支持。無論是AI機器學習訓練,還是生物、物理...
Kaggle是一個全球知名的數據科學學術活動平臺,也是當今最大的數據科學家和機器學習開發者社區之一。成立于2010年,Kaggle致力于舉辦在線數據科學學術活動,為數據科學領域的專業人士提供了一個交流與學習的平臺...
1、參賽者背景如何?
從比賽目標出發,參賽者主要分為2種:
① 一種是以獎金和排名為目的,包括靠獎金為生的職業Kaggler;
② 另外一種就是以提升相關skills和背景為目的業余愛好者甚至在校學生了。從背景來看,前者的來源主要有豐富data science、data mining、machine learning工作經驗的業內人士,或者是實力強勁的民間“技術宅”;而后者則往往是一些有一定技術能力,但經驗欠缺,從中進行學習和鍛煉的“長江后浪”。
2、在比賽中獲勝或者拿到好的排名難嗎?
在Kaggle比賽中,贏得一個獎項甚至贏得一個好位置的難度非常高,通常有數千人參與一個項目,只有Top1才能獲得獎金,可以說是高手中的高手。
一般來說,幾個人在行業內有一定水平在臨時組團的情況下最多能拿到20個左右的排名成績,排名還想要往前走就需要有一定的默契和合作經驗。
我在哪里可以獲得我的比賽數據集?
我們建議您使用自己的數據,因為通常最好使用參與者無法訪問的數據(以盡量減少作弊的誘惑)。
但是,如果你不介意參與者完全可以訪問它(例如純粹的教育競賽),可以考慮瀏覽Kaggle的數據集平臺。它擁有數千個公共數據集,并擁有豐富的搜索和過濾工具,可以幫助您找到適合您需求的內容。每個數據集都應該包含一個數據使用許可,這將表明您是否可以將其用于您的競爭。
我收到(一個錯誤),我該如何解決?
從閱讀本安裝指南開始。如果你仍然不能解決這個問題,試著在Kaggle論壇上詢問其他社區競賽的主持人。
我想再次參加同樣的比賽。我需要從頭開始嗎?
現在,你還不能復制過去的比賽。您需要從頭開始安裝。
誰能看到我的比賽?
這取決于您選擇的隱私設置。Kaggle有2個隱私設置-公共和有限。公開意味著你的競爭對手會在kaggle.com上被列出和發現。有限的意思是只有提供URL的人才可以觀看和參加比賽。
我在哪里可以找到邀請鏈接?
如果你選擇了“公開”,你可以在你的瀏覽器標簽上分享你的比賽——任何人都可以看到比賽。如果您的比賽設置為有限隱私,請訪問您的比賽>主機>隱私>共享URL(如果您選擇了有限)。
Kaggle禁止作弊
在Kaggle上,作弊是不會被輕視的。我們會在比賽期間監控我們的合規賬戶(舉報作弊者或因作弊行為提起移除請求的正式渠道)。我們還會在每場比賽結束時花大量時間審查可疑活動,并將違反規則的人從排行榜上刪除。當我們認為我們有足夠的證據時,我們會通過刪除甚至可能封禁帳戶來采取行動。
我們還會在一周內監控和調查審核報告(抄襲、投票圈等),并采取適當的行動,包括移除獎牌和完全屏蔽賬戶。
如果您認為您有證據表明某個隊伍違反了競賽規則,請將其報告給競賽合規賬戶,以便進行徹底調查。