14歲斬獲多個金銀獎項,
從計算機“小白”到大數據神童,
從好奇到熱愛,
是什么力量支持他走過四場比賽?
他的奪冠秘籍是什么呢?
大數據“天才”A同學的奪冠之旅
Win a Championship

A同學
美國華盛頓州華裔高一新生
曾在Kaggle大數據平臺獲得一金二銀
?01從單純喜愛到系統學習
A同學很小的時候就對數學、人工智能和計算機科學有著濃厚的興趣。幾年前,他正式開始了對這些領域的深入探索。
起初,A同學自行學習了課程內容以外的數學和編程知識。由于從小對計算機科學著迷,他將學習重點逐步轉向了編程。
在自學編程不久后,他可以獨立制作出一些基于回溯算法的小項目,比如數獨求解器。

數獨生成器的代碼
隨著所學知識越來越多,疑問也隨之而來——A同學開始疑惑編程學科的用途。這時,“Kaggle”和“數據科學領域”等詞匯進入了A同學的視野。
?02?奪金之旅路途坎坷
第一次下場參與,A同學參加了使用回歸技術預測房價的初學者學術活動。這一階段,A同學對自己的知識掌握程度有了更清楚的認識,并發現了自己最大的缺點:經驗。
失敗是成功之母。第一次失敗并不能使A同學氣餒,他回憶了自己初次參與時的諸多不足,并且開始在Kaggle官網論壇上瀏覽各種問題討論和筆記。

很快,自認為準備充分的A同學朋友一起參加了第二次活動——Mechanisms of Action (MoA) 學術活動。果不其然,涉世未深的兩個少年在活動時被論壇上那些看起來很專業的代碼和技術討論嚇住了。
所有賽前準備付之一炬,A同學決定從頭開始。在討論帖的幫助下他和隊友開始了緊張又忙碌的訓練,直到他們能夠在短時間內建立基線。最終,二人的解決方案進入了前 4%。
來之不易的勝利讓A同學和他的隊友看到了曙光。他們緊接著又趁熱打鐵參加了另外兩個學術活動。功夫不負有心人,他們分別取得了銀牌和首個金牌。
?03A同學在Kaggle上所得經驗分享
在獲得了諸多獎項之外,A同學積累了很多編程經驗,也總結了許多奪金技巧。他表示很愿意和大家分享。
數據科學VS機器學習
對于很多人來說,由于先前知識的積累,學習數據科學和機器學習方法有所不同,如何成功拿下?
以下是A同學的成功秘訣:
●數學是一切的基礎,線性代數和微積分是使用的機器學習中最重要的概念。幾乎所有的機器學習算法都與這兩個領域相關。
●統計也非常重要,數據科學是關于數據的。數據的預處理和特征工程在很大程度上依賴于統計學。
●編寫代碼。與簡單地遵循代碼和復制粘貼不同,一定要確保自己理解了代碼背后的數學原理。
A同學在Kaggle中遵循的pipeline
●仔細閱讀數據描述和概述,稍微探索領域知識。
●在閱讀任何論文、討論或筆記之前,嘗試自己創建一個基準。
●制定一個可行的交叉驗證策略并提交至排行榜,這一點非常重要。
●在模型或特征層面對基準進行調整。每次只調整一個內容,以了解模型提升或表現更差的原因。
●盡可能多地探索新方法,不要將時間和精力浪費在無法發揮作用的內容上。
●如果所有方法都不起作用,可以試試集成或堆疊。
●提交結果時選擇分數較好的,并確保自己能夠清楚表述原因。
著重關注學術論文
在 MoA 學術活動中,初賽時大有用途的論壇和討論帖對A同學和他的隊友設計的模型沒有任何幫助。在這種情況下,他們把參考目標鎖定在了對于這個年齡段難度較高的學術論文。
“要敢于深入閱讀和研究論文。在我當時正在參加的這個學術活動中,多標簽分類并不常見,我也沒有找到任何簡單的教程。最后,我找到了一篇使用問題轉換來比較多標簽特征選擇的論文。”在采訪中,A同學如是說。
創造性建模
關于建模,A同學提供的關鍵詞是:創造性。
“這種創造性不僅體現在模型結構上,在模型如何能夠作用于不同類型的數據這一問題上也要有創造性思維。”
●稍微調整模型使其具有非線性拓撲結構或者為表格數據創建類 ResNet 結構的網絡。
●探索去噪、變分和稀疏編碼器等不同類型的自編碼器,這些工具遠遠超出了簡單特征工程所能實現的結果;
●集成(殺手锏)。總結不同模型的結果,增加解決方案的綜合性,使其更加和穩定。
●實時關注新論文,并探索論壇中沒有提到的內容。稍稍改進激活函數和優化器(以 AdaBelief 替代 Adam 等)或許可以從模型中「榨出」一些額外性能。
●不走尋常路。使用 1D CNN 在表格數據上執行特征提取,或者利用 CNN 的優勢,使用 DeepInsight 將表格數據轉換為圖像。

RANZCR CLiP-Catheter and Line Position
挑戰賽(醫學影像插管分類)中的第一名解決方案。
*采訪內容來源于網絡
看過了A同學的經歷才明白
“神童”其實并不神
能獲得如此驚人的履歷
皆因把握住了機遇和自己不懈的努力
計算機、大數據學子們
這些機遇不容再錯過!!
高含金量計算機活動盤點
Let's go!
?01Kaggle大數據學術活動平臺
活動簡介
kaggle是全球極具權威性數據科學學術活動平臺,也是當今世界范圍內廣泛的數據科學家、機器學習開發者社區,其行業地位獨一無二。
自2010創立至今,專注于舉辦數據科學周邊的線上學術活動。2017年,kaggle被Google收購,不僅身價大漲,而且社區擁有Google提供的云技術支持。
活動時間
全年線上報名參賽,視想要參與的項目決定。
適合學生
對計算機、大數據等有濃厚的興趣,有一定技術能力,但是欠缺經驗,需要從中進行學習和鍛煉的高中學生。
項目設置(水平由高到低)
●Featured:這些通常是由公司、組織甚至政府贊助的,該項目設置包含了巨大的獎金池。
●Research:這些是研究方向的學術活動,也含有少量可瓜分的獎金池。
●Recruitment:這些是由想要招聘數據科學家的公司贊助的。目前仍然相對少見。
●Getting Started(練習項目):這些學術活動的結構和 Featured 學術活動類似,但沒有獎金。包含更簡單的數據集、大量教程。
參與優勢
Kaggle的比賽在Machine Learning領域中屬于什么地位?
Walmart lab data scientist面試官:
寫上參加過Kaggle比賽,我會看簡歷。
得過一次10%,我會給電話面試。
得過2次或者以上10%,我會給on site面試。
得過一次前10,我們會談笑風生。
?02USACO美國計算機奧賽
活動簡介
USACO(UnitedStates of America Computing Olympiad,美國計算機奧林匹克學術活動) 是全美教育界認可度很高的計算機學術活動,面向全世界所有的高中信息學學術活動選手。
活動時間(參考2020-2021賽季)
第一場月賽:2020年12月18日-21日
第二場月賽:2021年1月22日-25日
第三場月賽:2021年2月26日-3月1日
公開賽:2021年4月2日-4月5日
(每場比賽時間為4h)
適合學生
全世界范圍內有一定要有編程語言基礎的高中生均可免費線上注冊參與。
接受語言:C++、Java、Python、C、Pascal。
等級設置
USACO共設置青銅、白銀、白金、黃金四個等級、參與者依次晉級。
參與優勢
參與者有機會躋身IOI(國際信息學奧賽),USACO等級受美國TOP30大學認可,可在簡歷中平替以下成績:

*該學術挑戰活動主辦方為海外機構,不與任何中國的大學、中學或小學升學加分活動掛鉤,其成績不會作為任何中國中小學升學或評優的依據,僅定位為針對中學計算機愛好者的課外興趣活動和國際計算機教學交流活動。

? 2025. All Rights Reserved. 滬ICP備2023009024號-1