徐光福?ID:天靈靈地靈靈
對于挖掘類的比賽來說,數據探索非常重要,涉及的方方面面很多 (反正我也不知道有哪些方面),但是對于圖像類比賽來說,數據探索就相對簡單一些,依然以基于虛擬仿真環境下的自動駕駛交通標志識別https://www.datafountain.cn/competitions/339這個比賽為例,講一下計算機視覺類比賽的數據探索。
對于計算機視覺類比賽,數據探索主要是了解數據集的屬性、特點,以及如何進行一些數據預處理,例如圖像格式轉換,生成數據字典等等,為之后的數據加載做好準備。
首先我們看一下交通標志識別比賽的數據集:
1. 訓練集和測試集都有大約20000張圖片,格式為JPG
訓練集和測試集都有兩萬張圖片,在一般的比賽中應該屬于比較多的了,當然和coco、objects365之類的數據集沒法比,格式為JPG,不像某些醫療影像的比賽,還需要做特別的格式甚至坐標的轉換,這里不需要,算是一個不錯的開端
2. 訓練集和測試集的圖像大小都為固定大小,3200x1800
圖像大小固定,這也是一個好消息,相比圖像大小不一、縱橫比也很隨意的數據集來說好處理不少。但是,圖片大小3200x1800,就有點不一般了,前面說了,這是一個目標檢測比賽,這么大的圖是很難直接加載并訓練的。
面對這種大圖,通常我們有兩種選擇:縮圖和裁剪
縮小圖像對比賽尤其是目標檢測比賽來說,通常不是一個好選擇,因為無數經驗表明,圖大往往是提高目標檢測成績的最簡單最有效的選擇。能原圖訓練就不要縮小,如果能比原圖還大,那通常也是不錯的選擇,很少有例外;通常不是好選擇也不意味著就不能用,在沒有其它好的辦法的情況下,縮圖也是可以接受的,總之有點像無奈的選擇
再說說裁剪,裁剪意味著可以用很小的尺寸實現近似原圖訓練的效果,從這點上來說,他比起縮圖確實是占有優勢的,缺點是處理起來比較麻煩,有時候甚至是很難處理,比如目標比較密集,很容易就把很多目標切的七零八落。所以縮圖還是裁剪,還是要根據數據集的特點來選擇
3. 無論訓練集和測試集每張圖片都固定有一個、且只有一個目標
這簡直是福音了,每張圖片只有一個目標,這裁剪起來就方便了很多,所以在縮圖和裁剪這個問題上就不用糾結了,選擇裁剪吧。對于這種單目標的數據集來說,一個很好的選擇就是圍繞目標進行隨機裁剪,而且最好是以online的方式進行,這樣每次裁剪出的東西都不一樣,極大的增加了樣本的數量。
4. 目標為交通標志,一共有20類,其中有左側行駛、右側行駛這類左右對稱的目標
這個沒什么好說的,目標相對來說比較好識別,需要注意的是既然有左右對稱的目標,就不能直接使用左右翻轉的數據增強了,當然也可以進行一下特別的處理,比如翻轉后調整相應的類別標簽
5. 提供的訓練集標注為csv格式,每個目標一行
對于目標檢測來說,一般要把標注轉換為coco的格式,這通常也是代碼的第一步,至于如何轉換,首先需要熟悉一下coco的格式,代碼方面并沒有什么難度
數據探索完成之后,已經基本了解了數據集的屬性和特點,就可以開始代碼的工作了,先嘗試把數據集的標注轉換為coco的格式,邁出代碼的第一步吧~?王博?ID:000wangbo
數據探索在數據挖掘比賽中是特別重要的一部分。如果把我們的模型當作柯南,那我們喂進去的數據就是柯南的破案線索,而破案線索并不會簡簡單單越多越好 (數據清洗),柯南選擇通過毛利小五郎或者服部平次揭開真相的方式也不同 (模型、超參數選擇)。
機器學習類比賽數據探索一般包含缺失值處理、異常值處理、轉非數以及繪制關聯熱力圖等等。不過今天作為cv方向嘉賓,那我就從一個比賽導入下如何通過數據探索拿下Top。比賽地址:
https://www.datafountain.cn/competitions/315解題方案:
https://zhuanlan.zhihu.com/p/51870164周易大佬的知乎,強推一波,里面有很多大賽的開源賽題任務
天空的薄云,往往是天氣晴朗的象征;而那些低而厚密的云層,常常是陰雨風雪的預兆。我們希望選手基于大賽提供的海量云彩圖片,通過深
度學習訓練模型,識別圖片中不同類型的云彩,預測大賽提供的測試云彩圖片。?

?這是個比較明顯的五分類的比賽,評價指標是五類F1-score的均值。很多人看到這個題目,就趕緊上個五分類模型跑一哈然后各種數據增強模型融合,可能前期確實能在前排,但是最終一定拿不到Top。那我們開始數據探索,首先我們能看到這個數據的樣本不平衡,那就通過crop上采樣一些小樣本;
然后我們通過比較圖片的MD5值,發現竟然有好多重復的圖片,有一些的label還是矛盾的,清洗清洗!最終我們發現了一個驚天漏洞,test中的圖片還有大約100張左右和train里面是一樣的。
通過數據中的這些trick,我們做了不到10天就拿到了亞軍,足以看出數據探索在比賽中的重要程度了吧!最終,分享下最近一個遙感分類比賽的數據trick(通過排序能夠看到很多全黑圖片和異常圖片):http://rscup.bjxintong.com.cn/#/theme/1?
?
張浩?ID:reborn_ZH
大家好,本期我將和大家交流下自然語言處理賽題的數據探索部分,為了更好地與實戰接軌,后面的部分我都將以2019年搜狐內容識別算法大賽為例進行講解。
比賽鏈接:2019年搜狐內容識別算法大賽
賽題任務
給定若干文章,目標是判斷文章的核心實體以及對核心實體的情感態度。每篇文章識別最多三個核心實體,并分別判斷文章對上述核心實體的情感傾向(積極、中立、消極三種)。
評價指標
模型得分的計算方式:?

分數由實體詞的F1-score以及實體情感的F1-score組成,每個樣本計算micro F1-Score,然后取所有樣本分數的平均值。
實體詞的F1-score如下:?

實體情感的F1-score由實體_情緒的組合標簽進行判斷,只有實體情緒都正確才算正確的標簽。
實體情感的F1-score如下:?

?賽題數據

數據可視化
數據可視化作為數據探索中非常重要的一步,我們利用視覺獲取的信息量,遠遠比別的感官要多得多。通過圖形和色彩將關鍵數據和特征直觀地傳達出來,從而實現對于復雜的數據的深入洞察。數據可視化則是通過一目了然地方式,獲得客觀數據層面的引導或者驗證。
首先,我們對訓練集長度、實體詞位置、熱點詞進行可視化,幫助我們了解訓練集的基本信息和數據分布。?
?

從上面3個圖中可以得知,訓練集的樣本長度主要集中在500到1000之間,并且大多數樣本的實體詞在前幾個詞中就會出現。
接下來,我們對實體詞進行更細致的統計分析,這有利于幫助我們理解數據,便于我們后面對數據進行處理。?
???
?統計核心實體在新聞中出現的位置,在第0-100個索引(字)之間有74696個核心實體,100-200有5149個,以此類推。說明在識別實體的時候重點要放在文章的前部半分,不必分析整篇文章。分析前n個句子中出現的核心實體數以及占總實體數的百分之多少,前五個句子中出現了的核心實體數占所有實體數的80%多。說明我們只要將前幾句輸入到模型訓練就可得到很好的效果。?

? 2025. All Rights Reserved. 滬ICP備2023009024號-1