了解比賽,首先我們要了解比賽數(shù)據(jù)是什么,例如要處理的是圖像數(shù)據(jù),文本數(shù)據(jù),表格數(shù)據(jù),還是kaggle提供的環(huán)境數(shù)據(jù)比如AI對戰(zhàn)的強化學習;其次,需要了解數(shù)據(jù)量的大小,一般情況下,文本,圖像數(shù)據(jù)都很大,比如腎小球的分割就有幾百G,這種情況沒有卡的話很難處理,2080ti以上才能訓練,表格數(shù)據(jù)會比較小,可以直接使用kaggle的kernel環(huán)境直接訓練。
除此以外,還要了解目標,分類任、目標檢測,分割,預測(一般是回歸),還有圖像轉文本(kaggle有一個化學公式圖片轉文字的),還有語音識別的分類、強化學習等。熟悉要求Kaggle的比賽中一般的信息是公開的,但是在點擊加入之前是無法看到具體數(shù)據(jù)的,所以我們這里需要查看以下部分,可以獲取到具體的信息:
1、Description:這是背景描述,大概看一遍即可,這里有基本的信息,如果決定要參加則需要詳細看一遍以了解背景知識等。
2、Evaluation:這個需要看,并且要每個字都看,尤其是決定參加比賽以后,這個是你最后評分的標準,必須要熟悉,通過這個可以看到具體的任務目標和指標。
3、timeline:里面是時間點的要求,這個主要看我們有沒有時間參與,即時間夠不夠。
4、Prices:一般我是不關注,沒卡也達不到那個標準,哈
5、Code requirements:這里也需要重點關注,有時候會有GPU和CPU的時間要求,注意別超了,超時是無效的
參加比賽的目的這里將參加比賽的目的分成三種:
1、純學習:沒有知識積累或者想了解相關的內容,那么可以直接加入,具體怎么快速學習,我在最后的技巧中會提到。
2、想試試拿名次或者試試自己水平:這里主要的問題就是時間是否夠用和我們的GPU計算資源是否能夠hold住,如何判斷計算資源在下面的判斷能不能參加介紹,如果想積累實際經驗,也需要有一些相關的基礎知識否則參加起來會很費時間。我想類目的的小伙伴會很多吧。
3、為了拿名次的:我想這樣的應該不會看這篇文章吧,當然如果有這樣的大佬,歡迎與我聯(lián)系,哈
判斷能不能參加的標準在了解了比賽的大概知識后,我們可以了解下面內容來判斷能否參加這個比賽,或者說我現(xiàn)在有沒
有實例參加:
1、結束時間,想正經參加比賽的話建議參加還有1個月以上時間的比賽,否則訓練和熟悉的時間很可能不夠,一般kaggle比賽周期是3個月左右。
2、在未加入比賽前是不可以看具體數(shù)據(jù)的,但是我們能看到數(shù)據(jù)量,選擇一個比賽,點擊data,看下面的data ?explorer,能看到訓練和測試數(shù)據(jù)的總量。
3、未加入比賽但是可以看到公榜的分數(shù),點擊Leaderboard,可以看到排名,例如這個:G-Research Crypto Forecasting
評價指標是”皮爾遜相關系數(shù)",而且已經到1了還有好多0.9999,熟悉皮爾遜相關系數(shù)應該知道“1”的含義是什么,這種比賽就不建議參加,參加了也浪費時間,因為無論從學習還是比賽的角度都沒有任何的意義。
還有上次那個外星信號檢測SETI Breakthrough Listen - E.T. Signal Search,使用的指標是AUC,公榜基本上都是0.99,后來調整以后才變成0.96,類似這樣的比賽都不建議大家參加,真的浪費時間,如果想學習的話,直接等比賽完看分享就好了。
4、了解完公榜以后,可以大概看看訓練時間:我們點擊Code,在搜索框中搜索“train”,一般情況下都會有訓練代碼的分享,這時候可以看看這些代碼在kaggle上訓練了多久。隨便找個進去看看,主要看使用了那個模型,訓練了多少輪次和使用了多少時間,還是以TensorFlow - Help Protect the Great Barrier Reef為例
紅色的說明花費了1萬多秒,我們在代碼中可以找到 epoch: 20/20,也就是說訓練了20個輪次,除法計算500多秒(小10分鐘)一個輪次,這里要說明的是kaggle的GPU是V100,但是磁盤和內存不太好,所以基本上和我們線下自己的2080ti時間相近,這樣有了這些對比就能夠知道這個比賽我們現(xiàn)有的硬件水平能否參加了。
5、最后就是,一般情況下表格的數(shù)據(jù)都可以使用kaggle的kernel線上計算,比如現(xiàn)在每個月的Tabular Playground Series,如果想學習的話這個目前是很好的選擇。快速了解比賽內容的一些技巧剛才已經說到了查看分享的訓練代碼,無論你加入不加入這個比賽,都可以使用下面的方法快速了解比賽的內容:
1、搜索“EDA”,會有EDA的code分享,多看幾個就能夠了解數(shù)據(jù)分布和比賽更具體的信息
2、搜索“baseline”或者“train" 會有訓練代碼分享,可以快速查看
3、搜索”infer“或”submit“ 會有提交代碼,并且可以使用公榜的分數(shù)進行排序,可以查看分數(shù)最高的思路
4、看公榜,如果提交代碼也公開了的話會在公榜顯示代碼鏈接,直接點擊去就好,就像上面截圖的G-Research Crypto Forecasting 第4名那個樣子,點擊就能夠看到完整代碼。
選擇參加那個比賽
1、初學者也沒卡,可以先看看表格類的數(shù)據(jù)挖掘比賽,比如每個月的Tabular Playground Series。第一可以了解完整的流程,為以后打基礎。第二表格類的數(shù)據(jù)直接使用kaggle的kernel就可以,也不需要我們的資源。第三,表格類的數(shù)據(jù)目前還是以提升樹和模型的cv,stack為主,所以概念比較簡單很好上手。是入門的最佳選擇。
2、有一定知識而且有卡,這個可以根據(jù)自己的方向選擇比賽參加和學習,可以參考我上面總結的內容。
3、特殊的方向,比如強化學習或者音頻方向,這類的比賽kaggle上不多,只能等等機會或者看看別的類似比賽要不就換個平臺。
4、初學者但是有卡,有資源就能夠快速學習,可以選定自己的方向,看看公開的代碼自己線下復現(xiàn)并且改造,如果能完整參見1-2個比賽絕對可以達到行業(yè)中80%左右的水平了。
如果你想?yún)⒓觡aggle比賽、找隊友組隊或者獲得kaggle比賽的相關內容交流,可以掃碼咨詢,專業(yè)的老師給你最專業(yè)的規(guī)劃,還能【免費領取】備賽資料大禮包~


? 2025. All Rights Reserved. 滬ICP備2023009024號-1