14歲斬獲多個(gè)金銀獎(jiǎng)項(xiàng),
從計(jì)算機(jī)“小白”到大數(shù)據(jù)神童,
從好奇到熱愛,
是什么力量支持他走過(guò)四場(chǎng)比賽?
他的奪冠秘籍是什么呢?
大數(shù)據(jù)“天才”A同學(xué)的奪冠之旅
Win a Championship

A同學(xué)
美國(guó)華盛頓州華裔高一新生
曾在Kaggle大數(shù)據(jù)平臺(tái)獲得一金二銀
?01從單純喜愛到系統(tǒng)學(xué)習(xí)
A同學(xué)很小的時(shí)候就對(duì)數(shù)學(xué)、人工智能和計(jì)算機(jī)科學(xué)有著濃厚的興趣。幾年前,他正式開始了對(duì)這些領(lǐng)域的深入探索。
起初,A同學(xué)自行學(xué)習(xí)了課程內(nèi)容以外的數(shù)學(xué)和編程知識(shí)。由于從小對(duì)計(jì)算機(jī)科學(xué)著迷,他將學(xué)習(xí)重點(diǎn)逐步轉(zhuǎn)向了編程。
在自學(xué)編程不久后,他可以獨(dú)立制作出一些基于回溯算法的小項(xiàng)目,比如數(shù)獨(dú)求解器。

數(shù)獨(dú)生成器的代碼
隨著所學(xué)知識(shí)越來(lái)越多,疑問也隨之而來(lái)——A同學(xué)開始疑惑編程學(xué)科的用途。這時(shí),“Kaggle”和“數(shù)據(jù)科學(xué)領(lǐng)域”等詞匯進(jìn)入了A同學(xué)的視野。
?02?奪金之旅路途坎坷
第一次下場(chǎng)參與,A同學(xué)參加了使用回歸技術(shù)預(yù)測(cè)房?jī)r(jià)的初學(xué)者學(xué)術(shù)活動(dòng)。這一階段,A同學(xué)對(duì)自己的知識(shí)掌握程度有了更清楚的認(rèn)識(shí),并發(fā)現(xiàn)了自己最大的缺點(diǎn):經(jīng)驗(yàn)。
失敗是成功之母。第一次失敗并不能使A同學(xué)氣餒,他回憶了自己初次參與時(shí)的諸多不足,并且開始在Kaggle官網(wǎng)論壇上瀏覽各種問題討論和筆記。

很快,自認(rèn)為準(zhǔn)備充分的A同學(xué)朋友一起參加了第二次活動(dòng)——Mechanisms of Action (MoA) 學(xué)術(shù)活動(dòng)。果不其然,涉世未深的兩個(gè)少年在活動(dòng)時(shí)被論壇上那些看起來(lái)很專業(yè)的代碼和技術(shù)討論嚇住了。
所有賽前準(zhǔn)備付之一炬,A同學(xué)決定從頭開始。在討論帖的幫助下他和隊(duì)友開始了緊張又忙碌的訓(xùn)練,直到他們能夠在短時(shí)間內(nèi)建立基線。最終,二人的解決方案進(jìn)入了前 4%。
來(lái)之不易的勝利讓A同學(xué)和他的隊(duì)友看到了曙光。他們緊接著又趁熱打鐵參加了另外兩個(gè)學(xué)術(shù)活動(dòng)。功夫不負(fù)有心人,他們分別取得了銀牌和首個(gè)金牌。
?03A同學(xué)在Kaggle上所得經(jīng)驗(yàn)分享
在獲得了諸多獎(jiǎng)項(xiàng)之外,A同學(xué)積累了很多編程經(jīng)驗(yàn),也總結(jié)了許多奪金技巧。他表示很愿意和大家分享。
數(shù)據(jù)科學(xué)VS機(jī)器學(xué)習(xí)
對(duì)于很多人來(lái)說(shuō),由于先前知識(shí)的積累,學(xué)習(xí)數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)方法有所不同,如何成功拿下?
以下是A同學(xué)的成功秘訣:
●數(shù)學(xué)是一切的基礎(chǔ),線性代數(shù)和微積分是使用的機(jī)器學(xué)習(xí)中最重要的概念。幾乎所有的機(jī)器學(xué)習(xí)算法都與這兩個(gè)領(lǐng)域相關(guān)。
●統(tǒng)計(jì)也非常重要,數(shù)據(jù)科學(xué)是關(guān)于數(shù)據(jù)的。數(shù)據(jù)的預(yù)處理和特征工程在很大程度上依賴于統(tǒng)計(jì)學(xué)。
●編寫代碼。與簡(jiǎn)單地遵循代碼和復(fù)制粘貼不同,一定要確保自己理解了代碼背后的數(shù)學(xué)原理。
A同學(xué)在Kaggle中遵循的pipeline
●仔細(xì)閱讀數(shù)據(jù)描述和概述,稍微探索領(lǐng)域知識(shí)。
●在閱讀任何論文、討論或筆記之前,嘗試自己創(chuàng)建一個(gè)基準(zhǔn)。
●制定一個(gè)可行的交叉驗(yàn)證策略并提交至排行榜,這一點(diǎn)非常重要。
●在模型或特征層面對(duì)基準(zhǔn)進(jìn)行調(diào)整。每次只調(diào)整一個(gè)內(nèi)容,以了解模型提升或表現(xiàn)更差的原因。
●盡可能多地探索新方法,不要將時(shí)間和精力浪費(fèi)在無(wú)法發(fā)揮作用的內(nèi)容上。
●如果所有方法都不起作用,可以試試集成或堆疊。
●提交結(jié)果時(shí)選擇分?jǐn)?shù)較好的,并確保自己能夠清楚表述原因。
著重關(guān)注學(xué)術(shù)論文
在 MoA 學(xué)術(shù)活動(dòng)中,初賽時(shí)大有用途的論壇和討論帖對(duì)A同學(xué)和他的隊(duì)友設(shè)計(jì)的模型沒有任何幫助。在這種情況下,他們把參考目標(biāo)鎖定在了對(duì)于這個(gè)年齡段難度較高的學(xué)術(shù)論文。
“要敢于深入閱讀和研究論文。在我當(dāng)時(shí)正在參加的這個(gè)學(xué)術(shù)活動(dòng)中,多標(biāo)簽分類并不常見,我也沒有找到任何簡(jiǎn)單的教程。最后,我找到了一篇使用問題轉(zhuǎn)換來(lái)比較多標(biāo)簽特征選擇的論文。”在采訪中,A同學(xué)如是說(shuō)。
創(chuàng)造性建模
關(guān)于建模,A同學(xué)提供的關(guān)鍵詞是:創(chuàng)造性。
“這種創(chuàng)造性不僅體現(xiàn)在模型結(jié)構(gòu)上,在模型如何能夠作用于不同類型的數(shù)據(jù)這一問題上也要有創(chuàng)造性思維。”
●稍微調(diào)整模型使其具有非線性拓?fù)浣Y(jié)構(gòu)或者為表格數(shù)據(jù)創(chuàng)建類 ResNet 結(jié)構(gòu)的網(wǎng)絡(luò)。
●探索去噪、變分和稀疏編碼器等不同類型的自編碼器,這些工具遠(yuǎn)遠(yuǎn)超出了簡(jiǎn)單特征工程所能實(shí)現(xiàn)的結(jié)果;
●集成(殺手锏)。總結(jié)不同模型的結(jié)果,增加解決方案的綜合性,使其更加和穩(wěn)定。
●實(shí)時(shí)關(guān)注新論文,并探索論壇中沒有提到的內(nèi)容。稍稍改進(jìn)激活函數(shù)和優(yōu)化器(以 AdaBelief 替代 Adam 等)或許可以從模型中「榨出」一些額外性能。
●不走尋常路。使用 1D CNN 在表格數(shù)據(jù)上執(zhí)行特征提取,或者利用 CNN 的優(yōu)勢(shì),使用 DeepInsight 將表格數(shù)據(jù)轉(zhuǎn)換為圖像。

RANZCR CLiP-Catheter and Line Position
挑戰(zhàn)賽(醫(yī)學(xué)影像插管分類)中的第一名解決方案。
*采訪內(nèi)容來(lái)源于網(wǎng)絡(luò)
看過(guò)了A同學(xué)的經(jīng)歷才明白
“神童”其實(shí)并不神
能獲得如此驚人的履歷
皆因把握住了機(jī)遇和自己不懈的努力
計(jì)算機(jī)、大數(shù)據(jù)學(xué)子們
這些機(jī)遇不容再錯(cuò)過(guò)!!
高含金量計(jì)算機(jī)活動(dòng)盤點(diǎn)
Let's go!
?01Kaggle大數(shù)據(jù)學(xué)術(shù)活動(dòng)平臺(tái)
活動(dòng)簡(jiǎn)介
kaggle是全球極具權(quán)威性數(shù)據(jù)科學(xué)學(xué)術(shù)活動(dòng)平臺(tái),也是當(dāng)今世界范圍內(nèi)廣泛的數(shù)據(jù)科學(xué)家、機(jī)器學(xué)習(xí)開發(fā)者社區(qū),其行業(yè)地位獨(dú)一無(wú)二。
自2010創(chuàng)立至今,專注于舉辦數(shù)據(jù)科學(xué)周邊的線上學(xué)術(shù)活動(dòng)。2017年,kaggle被Google收購(gòu),不僅身價(jià)大漲,而且社區(qū)擁有Google提供的云技術(shù)支持。
活動(dòng)時(shí)間
全年線上報(bào)名參賽,視想要參與的項(xiàng)目決定。
適合學(xué)生
對(duì)計(jì)算機(jī)、大數(shù)據(jù)等有濃厚的興趣,有一定技術(shù)能力,但是欠缺經(jīng)驗(yàn),需要從中進(jìn)行學(xué)習(xí)和鍛煉的高中學(xué)生。
項(xiàng)目設(shè)置(水平由高到低)
●Featured:這些通常是由公司、組織甚至政府贊助的,該項(xiàng)目設(shè)置包含了巨大的獎(jiǎng)金池。
●Research:這些是研究方向的學(xué)術(shù)活動(dòng),也含有少量可瓜分的獎(jiǎng)金池。
●Recruitment:這些是由想要招聘數(shù)據(jù)科學(xué)家的公司贊助的。目前仍然相對(duì)少見。
●Getting Started(練習(xí)項(xiàng)目):這些學(xué)術(shù)活動(dòng)的結(jié)構(gòu)和 Featured 學(xué)術(shù)活動(dòng)類似,但沒有獎(jiǎng)金。包含更簡(jiǎn)單的數(shù)據(jù)集、大量教程。
參與優(yōu)勢(shì)
Kaggle的比賽在Machine Learning領(lǐng)域中屬于什么地位?
Walmart lab data scientist面試官:
寫上參加過(guò)Kaggle比賽,我會(huì)看簡(jiǎn)歷。
得過(guò)一次10%,我會(huì)給電話面試。
得過(guò)2次或者以上10%,我會(huì)給on site面試。
得過(guò)一次前10,我們會(huì)談笑風(fēng)生。
?02USACO美國(guó)計(jì)算機(jī)奧賽
活動(dòng)簡(jiǎn)介
USACO(UnitedStates of America Computing Olympiad,美國(guó)計(jì)算機(jī)奧林匹克學(xué)術(shù)活動(dòng)) 是全美教育界認(rèn)可度很高的計(jì)算機(jī)學(xué)術(shù)活動(dòng),面向全世界所有的高中信息學(xué)學(xué)術(shù)活動(dòng)選手。
活動(dòng)時(shí)間(參考2020-2021賽季)
第一場(chǎng)月賽:2020年12月18日-21日
第二場(chǎng)月賽:2021年1月22日-25日
第三場(chǎng)月賽:2021年2月26日-3月1日
公開賽:2021年4月2日-4月5日
(每場(chǎng)比賽時(shí)間為4h)
適合學(xué)生
全世界范圍內(nèi)有一定要有編程語(yǔ)言基礎(chǔ)的高中生均可免費(fèi)線上注冊(cè)參與。
接受語(yǔ)言:C++、Java、Python、C、Pascal。
等級(jí)設(shè)置
USACO共設(shè)置青銅、白銀、白金、黃金四個(gè)等級(jí)、參與者依次晉級(jí)。
參與優(yōu)勢(shì)
參與者有機(jī)會(huì)躋身IOI(國(guó)際信息學(xué)奧賽),USACO等級(jí)受美國(guó)TOP30大學(xué)認(rèn)可,可在簡(jiǎn)歷中平替以下成績(jī):

*該學(xué)術(shù)挑戰(zhàn)活動(dòng)主辦方為海外機(jī)構(gòu),不與任何中國(guó)的大學(xué)、中學(xué)或小學(xué)升學(xué)加分活動(dòng)掛鉤,其成績(jī)不會(huì)作為任何中國(guó)中小學(xué)升學(xué)或評(píng)優(yōu)的依據(jù),僅定位為針對(duì)中學(xué)計(jì)算機(jī)愛好者的課外興趣活動(dòng)和國(guó)際計(jì)算機(jī)教學(xué)交流活動(dòng)。
以上就是關(guān)于【從計(jì)算機(jī)小白到Kaggle冠軍,14歲天才學(xué)霸是如何養(yǎng)成的?】的解答,如需了解學(xué)校/賽事/課程動(dòng)態(tài),可至翰林教育官網(wǎng)獲取更多信息。
往期文章閱讀推薦:
USACO計(jì)算機(jī)奧賽如何認(rèn)證成績(jī)?2026賽季黃金鉑金組“定時(shí)開賽”規(guī)則詳解!
USACO計(jì)算機(jī)奧賽考試語(yǔ)言是什么?C++、Python、Java選哪個(gè)效率最高?

? 2026. All Rights Reserved. 滬ICP備2023009024號(hào)-1