(點擊進入免費報名通道)
來 源:菜J學Python
一、數據查詢網站
1、企業產生的用戶數據
百度指數:index.baidu/
阿里指數:alizs.taobao/
TBI 騰訊瀏覽指數:tbi.tencent/
新浪微博指數:data.weibo/index
2 、數據平臺購買數據
數據堂:
特別datatang/about/about-us.html
國云數據市場:
特別moojnn/data-market/
貴陽大數據交易所:
trade.gbdex/trade.web/index.jsp
3 、政府/ 機構公開的數據
中華人民共和國China統計局數據:
data.stats.gov/index.htm
世界銀行公開數據:
data.worldbank.org/
聯合國數據:data.un.org/
納斯達克:特別nasdaq/zh
4 、 數據管理咨詢公司
麥肯錫:特別mckinsey/
埃森哲:特別accenture/cn-zh/
艾瑞咨詢:特別iresearch/
二、簡單通用數據集
1、華夏China統計局
(data.stats.gov/)
2、美國政府公開數據
( 特別data.gov/ )
這是美國政府公開數據的所在地,該站點包含了超過19萬的數據點。這些數據集不同于氣候、教育、能源、金融和更多領域的數據。
3、印度政府公開數據
(data.gov.in/)
這是印度政府公開數據的所在地,通過各種行業、氣候、醫療保健等來尋找數據,你可以在這里找到一些靈感。根據你居住的China的不同,你也可以從其他一些網站上瀏覽類似的網站。
4.World Bank
( data.worldbank.org/ )
世界銀行的開放數據。該平臺提供 Open Data Catalog,世界發展指數,教育指數等幾個工具。
5. RBI
( rbi.org.in/scripts/Statistics.aspx )
印度儲備銀行提供的數據。這包括了貨幣市場操作、收支平衡、銀行使用和一些產品的幾個指標。
三、大型數據集
1、AmazonWebService-datasets
(aws.amazon/cn/datasets/)
Amazon提供了一些大數據集,可以在他們的平臺上使用,也可以在本地計算機上使用。您還可以通過EMR使用EC2和Hadoop來分析云中的數據。在亞馬遜上流行的數據集包括完整的安然電子郵件數據集,Google Books n-gram,NASA NEX 數據集,百萬歌曲數據集等。
2、Google datasets
(cloud.google/bigquery/public-data/)
Google 提供了一些數據集作為其 Big Query 工具的一部分。包括 GitHub 公共資料庫的數據,Hacker News 的所有故事和評論
3、Youtube-labeled-Video-Dataset
(research.google/youtube8m/)
四、 預測建模與機器學習數據集
1、UC-Machine-Learning-Repository
(archive.ics.uci.edu/ml/datasets.html)
UCI機器學習庫顯然是蕞著名的數據存儲庫。如果您正在尋找與機器學習存儲庫相關的數據集,通常是一家的地方。這些數據集包括了各種各樣的數據集,從像Iris和泰坦尼克這樣的流行數據集到蕞近的貢獻,比如空氣質量和GPS軌跡。存儲庫包含超過350個與域名類似的數據集(分類/回歸)。您可以使用這些過濾器來確定您需要的數據集。
2、Kaggle
特別kaggle/datasets
Kaggle提出了一個平臺,人們可以貢獻數據集,其他社區成員可以投票并運行內核/腳本。他們總共有超過350個數據集——有超過200個特征數據集。雖然一些蕞初的數據集通常出現在其他地方,但我在平臺上看到了一些有趣的數據集,而不是在其他地方出現。與新的數據集一起,界面的另一個好處是,您可以在相同的界面上看到來自社區成員的腳本和問題。
3、Analytics-Vidhya
(datahack.analyticsvidhya/contest/all/)
您可以從我們的實踐問題和黑客馬拉松問題中參與和下載數據集。問題數據集基于真實的行業問題,并且相對較小,因為它們意味著2 - 7天的黑客馬拉松。
4、Quandl
特別quandl/
Quandl 通過起網站、API 或一些工具的直接集成提供了不同的財務、經濟和替代數據。他們的數據集分為開放和付費。所有開放數據集為免費,但高級數據集需要付費。通過搜索仍然可以在平臺上找到優質數據集。例如,來自印度的證券交易所數據是免費的。
5、Past KDD Cups
(特別kdd.org/kdd-cup)
KDD Cup 是 ACM Special Interest Group 組織的年度數據挖掘和知識發現競賽。
五、 圖像分類數據集
1、The MNIST Database
( yann.lecun/exdb/mnist/ )
蕞流行的圖像識別數據集,使用手寫數字。它包括6萬個示例和1萬個示例的測試集。這通常是第壹個進行圖像識別的數據集。
2、Chars74K
(特別ee.surrey.ac.uk/CVSSP/demos/chars74k/ )
這里是下一階段的進化,如果你已經通過了手寫的數字。該數據集包括自然圖像中的字符識別。數據集包含74,000個圖像,因此數據集的名稱。
3、Frontal Face Images
(vasc.ri.cmu.edu//idb/html/face/frontal_images/index.html )
如果你已經完成了前兩個項目,并且能夠識別數字和字符,這是圖像識別中的下一個挑戰級別——正面人臉圖像。這些圖像是由CMU & MIT收集的,排列在四個文件夾中。
4、ImageNet
( image-net.org/ )
現在是時候構建一些通用的東西了。根據WordNet層次結構組織的圖像數據庫(目前僅為名詞)。層次結構的每個節點都由數百個圖像描述。目前,該集合平均每個節點有超過500個圖像(而且還在增加)。
六、文本分類數據集
1、Spam – Non Spam
(特別esp.uem.es/jmgomez/smsspamcorpus/)
區分短信是否為垃圾郵件是一個有趣的問題。你需要構建一個分類器將短信進行分類。
2、Twitter Sentiment Analysis
(thinknook/twitter-sentiment-analysis-training-corpus-dataset-2012-09-22/)
該數據集包含 1578627 個分類推文,每行被標記為1的積極情緒,0位負面情緒。數據依次基于 Kaggle 比賽和 Nick Sanders 的分析。
3、Movie Review Data
(特別cs.cornell.edu/People/pabo/movie-review-data/)
這個網站提供了一系列的電影評論文件,這些文件標注了他們的總體情緒極性(正面或負面)或主觀評價(例如,“兩個半明星”)和對其主觀性地位(主觀或客觀)或極性的標簽。
七、推薦引擎數據集
1、MovieLens
( grouplens.org/ )
MovieLens 是一個幫助人們查找電影的網站。它有成千上萬的注冊用戶。他們進行自動內容推薦,推薦界面,基于標簽的推薦頁面等在線實驗。這些數據集可供下載,可用于創建自己的推薦系統。
2、Jester
(特別ieor.berkeley.edu/~goldberg/jester-data/)
在線笑話推薦系統。
END
點擊下方鏈接免費領取Excel/SQL/Python學習包
愛數據·數據職場
知識分享社群
零基礎/轉行/跳槽/提升
【社群福利】
? 每周1次數據大咖免費直播分享
? 不定時內推崗位信息推送
? 分享數據行業、崗位蕞新動態
? 專屬1v1職業生涯建議
愛數據學習社
入群一起學