数据集的网站: 1、Public Data Sets on Amazon Web Services (AWS) http://aws.amazon.com/datasets Amazon从2008年开始就为开发者提供几十TB的开发数据。
2、Yahoo! Webscope http://webscope.sandbox.yahoo.com/index.php
3、Konect is a collection of network datasets http://konect.uni-koblenz.de/
4、Stanford Large Network Dataset Collection http://snap.stanford.edu/data/index.html
再就是说说几个跟互联网有关的数据集: 1、Dataset for "Statistics and Social Network of YouTube Videos" http://netsg.cs.sfu.ca/youtubedata/
2、1998 World Cup Web Site Access Logs http://ita.ee.lbl.gov/html/contrib/WorldCup.html 这个是1998年世界杯期间的数据集。从1998/04/26 到 1998/07/26 的92天中,发生了 1,352,804,107次请求。
3、Page view statistics for Wikimedia projects http://dammit.lt/wikistats/
4、AOL Search Query Logs - RP http://www.researchpipeline.com/mediawiki/index.php?title=AOL_Search_Query_Logs
5、livedoor gourmet http://blog.livedoor.jp/techblog/archives/65836960.html
海量图像数据集: 1、ImageNet http://www.image-net.org/ 包含1400万的图像。
2、Tiny Images Dataset http://horatio.cs.nyu.edu/mit/tiny/data/index.html 包含8000万的32x32图像。
3、 MirFlickr1M http://press.liacs.nl/mirflickr/ Flickr中的100万的图像集。
4、 CoPhIR http://cophir.isti.cnr.it/whatis.html Flickr中的1亿600万的图像
5、SBU captioned photo dataset http://dsl1.cewit.stonybrook.edu/~vicente/sbucaptions/ Flickr中的100万的图像集。
6、Large-Scale Image Annotation using Visual Synset(ICCV 2011) http://cpl.cc.gatech.edu/projects/VisualSynset/ 包含2亿图像
7、NUS-WIDE http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm Flickr中的27万的图像集。
8、SUN dataset http://people.csail.mit.edu/jxiao/SUN/ 包含13万的图像
9、MSRA-MM http://research.microsoft.com/en-us/projects/msrammdata/ 包含100万的图像,23000视频
10、TRECVID http://trecvid.nist.gov/
2014/07/07 雅虎发布超大Flickr数据集 1亿的图片+视频 http://yahoolabs.tumblr.com/post/89783581601/one-hundred-million-creative-commons-flickr-images-for
============================================ 数据挖掘数据集下载资源
1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b
2、几个实用的测试数据集下载的网站http://www.fs.fed.us/fire/fuelman/http://www.cs.toronto.edu/~roweis/data.htmlhttp://kdd.ics.uci.edu/summary.task.type.html http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/ http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/ http://www.phys.uni.torun.pl/~duch/software.html 在下面的网址可以找到reuters数据集:http://www.research.att.com/~lewis/reuters21578.html 该网址有各种数据集:http://kdd.ics.uci.edu/summary.data.type.html 进行文本分类,还有一个数据集是可以用的,即rainbow的数据集http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html
3、UCI收集的机器学习数据集ftp://pami.sjtu.edu.cn/http://www.ics.uci.edu/~mlearn//MLRepository.htm
4、statlibhttp://liama.ia.ac.cn/SCILAB/scilabindexgb.htmhttp://lib.stat.cmu.edu/
5、关于基金的数据挖掘的网站http://www.gotofund.com/index.asp
http://lans.ece.utexas.edu/~strehl/
6、进行文本分类&WEBhttp://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html
http://www.w3.org/TR/WD-logfile-960221.htmlhttp://www.w3.org/Daemon/User/Config/Logging.html#AccessLoghttp://www.w3.org/1998/11/05/WC-workshop/Papers/bala2.html http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/ http://www.web-caching.com/traces-logs.html http://www-2.cs.cmu.edu/webkb http://www.cs.auc.dk/research/DP/tdb/TimeCenter/TimeCenterPublications/TR-75.pdf http://www.cs.cornell.edu/projects/kddcup/index.html
7、时间序列数据的网址http://www.stat.wisc.edu/~reinsel/bjr-data/
8、apriori算法的测试数据http://www.almaden.ibm.com/cs/quest/syndata.html
9、数据生成器的链接http://www.cse.cuhk.edu.hk/~kdd/data_collection.htmlhttp://www.almaden.ibm.com/cs/quest/syndata.html 10、关联:http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jarhttp://www.almaden.ibm.com/software/quest/Resources/datasets/syndata.html#assocSynData
11、WEKA:http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar 1。A jarfile containing 37 classification problems, originally obtained from the UCI repositoryhttp://prdownloads.sourceforge.net/weka/datasets-UCI.jar 2。A jarfile containing 37 regression problems, obtained from various sources http://prdownloads.sourceforge.net/weka/datasets-numeric.jar 3。A jarfile containing 30 regression datasets collected by Luis Torgo http://prdownloads.sourceforge.net/weka/regression-datasets.jar
12、癌症基因:http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi
13、金融数据:http://lisp.vse.cz/pkdd99/Challenge/chall.htm
14、一个很好的据资源按应用领域划分的资源网址为:http://kdd.ics.uci.edu/