Kaggle 上的比賽有很多種,比如獎金很高的“Featured”、相對平民化的“Research”等等。?但它們的整體項目模式是相同的,即通過模型作者給出的訓練集,然后利用測試集計算結果進行評比。今天對 kaggle學術活動題目進行解析!
比賽名稱:美國專利短語匹配
您能否從源自發明的基于文本的大型數據集中提取意義?這是您這樣做的機會。
比賽鏈接:https://www.kaggle.com/c/us-patent-phrase-to-phrase-matching
比賽類型:文本匹配
比賽背景您能否從源自發明的基于文本的大型數據集中提取意義?這是您這樣做的機會。
在本次比賽中,您將在一個新穎的語義相似性數據集上訓練您的模型,以通過匹配專利文檔中的關鍵短語來提取相關信息。在專利檢索和審查過程中,確定短語之間的語義相似性對于確定之前是否已經描述過一項發明至關重要。
例如,如果一項發明聲稱是“電視機”,而先前的出版物描述了“電視機”,那么理想情況下,模型會識別出它們是相同的,并幫助專利代理人或審查員檢索相關文件。這超出了釋義識別;如果一項發明聲稱是“堅固的材料”而另一項發明使用“鋼”,那也可能是匹配的。比賽任務您能否建立一個模型來匹配短語以提取上下文信息,從而幫助專利界將數百萬個專利文件之間的點聯系起來?
評價指標根據預測和實際相似度s之間的Pearson 相關系數評估提交的內容。
對于測試集中的每個id(代表一對短語),您必須預測相似度score。
id,score
4112d61851461f60,0
09e418c93a776564,0.25
36baf228038e314b,1
etc.
數據描述在這個數據集中,你會看到成對的短語(一個anchor和一個target短語),并要求你在從 0(完全不相似)到 1(含義相同)的范圍內評估它們的相似程度。
這是一場代碼學術活動,您將在其中提交將針對看不見的測試集運行的代碼。未見過的測試集包含大約 12k 對短語。
分數在 0-1 范圍內,含義如下:
1.0 - 非常接近的匹配。這通常是完全匹配的,除了可能在共軛、數量(例如單數與復數)以及添加或刪除停用詞(例如“the”、“and”、“or”)方面的差異。0.75 - 近義詞,例如“手機”與“手機”。這也包括縮寫,例如“TCP”->“傳輸控制協議”。0.5 - 含義不同的同義詞(相同的功能,相同的屬性)。這包括寬窄(下位詞)和寬窄(下位詞)匹配。0.25 - 有些相關,例如這兩個短語在同一個高級域中但不是同義詞。這也包括反義詞。0.0 - 不相關。
文本說明:train.csv - 訓練集,包含短語、上下文及其相似度分數test.csv - 測試集,結構與訓練集相同,但沒有分數sample_submission.csv - 格式正確的示例提交文件
比賽賽程
2022年6月13日:報名截止日期。您必須在此日期之前接受比賽規則才能參加比賽。
2022年6月13日:團隊合并截止日期。這是參與者加入或合并團隊的最后一天。
2022年6月20日:最終提交截止日期。
賽題獎金1st Place - $12,000
2nd Place - $8,0003rd Place - $ 5,000解題思路賽題是一個典型的NLP文本相似度賽題,因此考慮使用Word2vec 或 BERT模型來完成。可以考慮使用外部數據集,爬取美國專利文本數據,構建外部知識圖譜。
每天Kaggle算法學術活動、干貨資訊匯總
可以掃描下方二維碼咨詢,了解詳細備賽計劃!


? 2025. All Rights Reserved. 滬ICP備2023009024號-1