如果你是一個有經驗的數據科學專家,你一定知道學習數據科學的最佳辦法是應用數據科學。?在大數據時代,比不會數據分析更可怕的是什么?——空有數據分析能力,卻沒有數據可以施展。今天,吐血整理這篇數據集干貨。各類公開數據集資源,從簡單通用到大型數據集,超級福利全部送上!
01簡單通用數據集
1.data.gov
網址:http://www.data.gov/
▌官方數據,數據量大這是美國政府公開數據的所在地,該站點包含了超過19萬的數據點。
▌數據內容覆蓋多領域?該數據庫包括氣候、教育、能源、金融等更多領域的數據集,可以進行數據可視化。

2.World Bank
網址:http://data.worldbank.org/
▌開放數據,工具廣泛世界銀行的開放數據。該平臺提供了open data catalog、世界發展指數、教育指數等幾個工具。
▌多主題時間序列數據該數據集包括分析和可視化工具,包含各種主題的時間序列集合。

3.Five?Thirty?Eight?Datasets
網址:http://github.com/fivethirtyeight/data
▌適用于調查分析Five Thirty Eight,亦稱作538,專注于民意調查分析、政治、經濟與體育的博客。
▌數據集內容完善每個數據集包括數據、解釋數據的字典和Five Thirty Eight文章的鏈接。

02大型數據集
1.Amazon Web?Services(AWS)datasets
網址:?https://aws.amazon.com/cn/datasets/
▌大數據集亞馬遜提供了一些大數據集,可以在他們的平臺上使用,也可以在本地計算機上使用。
▌數據集類型多樣?在亞馬遜上流行的數據集包括安然電子郵件數據集、NASA NEX數據集、百萬歌曲數據集等。

?2.Youtube?labeled?Video?Dataset
網址:https://research.google.com/youtube8m/
▌數據集內容龐大谷歌研究小組發布了YouTube上的數據集,它由800萬個YouTube視頻id和4800個視覺實體的相關標簽組成。
▌先進的視覺特征它來自數十億幀的預先計算的、最先進的視覺特征。

03機器學習數據集
1.Kaggle數據集
網址:https://www.kaggle.com/datasets
▌專業性強、多是學術活動數據集Kaggle是一個主要為開發商和數據科學家提供舉辦機器學習學術活動、托管數據庫、編寫和分享代碼的平臺。

2.加州大學歐文分校機器學習庫
網址:?http://archive.ics.uci.edu/ml/index.php
▌數據集龐大,適用于實證分析?加州大學歐文分校機器學習庫包含476個數據集。它是機器學習社區用于機器學習算法的實證分析的數據庫,是理論和數據生成器的集合。
▌適用于初學者和高階學習者?對于初學者和高級學習者來說,這是一個很好的“go-to-shop”。

3.Datahub,分享高質量數據集平臺
網址:?https://datahub.io/
▌高質量數據資源?Datahub數據集平臺擁有高質量的數據資源,包括書目數據、經濟數據與指標、人口統計學、醫療保健等相關數據集。

4.KDNuggets網站
網址:www.kdnuggets.com/datasets/
▌內容覆蓋廣泛?KDNuggets是一個內容覆蓋非常廣泛的網站,無論是就職干貨還是技術難題,它總會有相關的文章。
▌高質量數據集?在KDNuggets上有Datasets欄目,提供了一些高質量的數據集。

04圖像數據集
1.The?MNIST?Database
網址:http://yann.lecun.com/exdb/mnist/
▌最流行的圖像識別數據集它是最流行的圖像識別數據集,包括6萬個示例的測試集。

2.Chars74K
網址:http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/
▌字符識別,內容豐富?該數據集包括自然圖像中的字符識別,包含74000個圖像。

3.Chars74K
網址:http://www.cs.tau.ac.il/~wolf/ytfaces/
▌面部視頻數據這是一個面部視頻數據庫,旨在研究視頻中無約束的人臉識別問題。
▌數據量大該數據集包含3425個不同的人的視頻。

4.室內場景識別
網址:http://web.mit.edu/torralba/www/indoor.html
▌類別齊全、圖像量大該數據庫包含67個室內類別,總共15620個圖像。圖像數量因類別而異,但每個類別至少有100張圖像。?

05文本數據集
1.路透社新聞數據集
網址:https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection
▌新聞專線,常用于教程該數據集純粹基于分類,包含來自新聞專線的文本,常用于教程。

2.SQuAD:斯坦福問答數據集?
網址:?https://rajpurkar.github.io/SQuAD-explorer/
▌文本形式呈現?該數據集為應用廣泛的問答和閱讀理解的數據集,其中每個問題的答案都是以文本形式呈現。

3.Billion Words數據集?
網址:?http://www.statmt.org/lm-benchmark/
▌語言建模數據集?該數據集是一種大型通用語言建模數據集,通常用于訓練分布式單詞表征,如word2vec。

4.復旦大學中文文本分類語料庫?
網址:https://www.kesci.com/home/dataset/5d3a9c86cf76a600360edd04/document
▌可用于NLP學習該數據集包含20個不同的類別,可用于NLP學習。

5.6000條周杰倫微博超話數據?
網址:https://www.kesci.com/home/dataset/5d3551bdcf76a60036f605aa
▌最新數據,時效性強數據主要爬自周杰倫超話下網友的評論。字段為rid、用戶名稱、微博等級、微博內容、微博轉發量、微博評論量、微博點贊以及發布時間。獲取數據的時間為2019年7月22日12點。

5.來自Taylor Swift所有轉接的歌曲歌詞?
網址:https://www.kesci.com/home/dataset/5d301fa7cf76a60036e0d60a
▌可進行文本挖掘本數據集包含Taylor Swift六張錄音室專輯的全部歌詞信息,包括專輯名稱、曲目標題、追蹤號碼、歌詞文本、專輯發行年份。可以進行文本挖掘。

06語音數據集
1.LibriSpeech
網址:http://www.openslr.org/12/
▌文本與語音兼具?包含文本和語音的有聲讀物數據集,由多個朗讀者閱讀的近500小時的各種有聲讀物演講內容組成,包含帶有文本和語音的章節。

2.CHIME
網址:?http://spandh.dcs.shef.ac.uk/chime_challenge/data.html
▌數據為錄音,可進行語音分離與識別?數據集包含真實、仿真和干凈的錄音。真實錄音由4個揚聲器在4個嘈雜位置的近9000個錄音組成,仿真錄音由多個語音環境和清洗的無噪聲錄音結合而成。

07其他數據集
1.紐約出租車數據集
網址:http://www.nyc.gov/html/tlc/html/about/trip_record_data.shtml
▌數據量大、可進行可視化分析由FOIA請求而獲得的紐約出租車數據。數據集包括接送和下車日期/時間、接送和下車地點、行程距離、票價等。

2.Nottingham音樂數據集
網址:http://abc.sourceforge.net/NMD/
▌特殊文本格式該數據集中包含超過1000種以特殊文本格式儲存的民間音樂。

3.國內某共享單車數據集
網址:https://www.kesci.com/home/dataset/5d3163d3cf76a60036e57c88
▌數據量大,可進行大數據分析與挖掘該數據集包含某年某段時間某地區的300w條出行記錄,適合大數據分析和挖掘。其中包括了兩個文件,分別是訓練集和測試集。

4.上海車牌拍賣價格
網址:https://www.kesci.com/home/dataset/5d39268ccf76a60036079ba8
▌可用于預測時間序列問題上海每個月都會使用拍賣系統向汽車購買者出售數量有限的車牌。該數據集包括日期、頒發的車牌總數、最低價格、平均價格等,可以用來預測時間序列問題。

整理的以上數據集資料都是開源的,大家可以通過網址進行下載。?想要成為數據分析大神的你,趕快收藏這份數據集清單,施展你的數據分析技能!
掃碼添加翰林小助手


? 2025. All Rights Reserved. 滬ICP備2023009024號-1