机器学习-人工智能大数据,公开的海量数据集下载

2023-11-01

数据集的网站: 
1、Public Data Sets on Amazon Web Services (AWS) 
http://aws.amazon.com/datasets 
Amazon从2008年开始就为开发者提供几十TB的开发数据。

2、Yahoo! Webscope 
http://webscope.sandbox.yahoo.com/index.php

3、Konect is a collection of network datasets 
http://konect.uni-koblenz.de/

4、Stanford Large Network Dataset Collection 
http://snap.stanford.edu/data/index.html

再就是说说几个跟互联网有关的数据集: 
1、Dataset for "Statistics and Social Network of YouTube Videos" 
http://netsg.cs.sfu.ca/youtubedata/

2、1998 World Cup Web Site Access Logs 
http://ita.ee.lbl.gov/html/contrib/WorldCup.html 
这个是1998年世界杯期间的数据集。从1998/04/26 到 1998/07/26 的92天中,发生了 1,352,804,107次请求。

3、Page view statistics for Wikimedia projects 
http://dammit.lt/wikistats/

4、AOL Search Query Logs - RP 
http://www.researchpipeline.com/mediawiki/index.php?title=AOL_Search_Query_Logs

5、livedoor gourmet 
http://blog.livedoor.jp/techblog/archives/65836960.html

海量图像数据集: 
1、ImageNet 
http://www.image-net.org/ 
包含1400万的图像。

2、Tiny Images Dataset 
http://horatio.cs.nyu.edu/mit/tiny/data/index.html 
包含8000万的32x32图像。

3、 MirFlickr1M 
http://press.liacs.nl/mirflickr/ 
Flickr中的100万的图像集。

4、 CoPhIR 
http://cophir.isti.cnr.it/whatis.html 
Flickr中的1亿600万的图像

5、SBU captioned photo dataset 
http://dsl1.cewit.stonybrook.edu/~vicente/sbucaptions/ 
Flickr中的100万的图像集。

6、Large-Scale Image Annotation using Visual Synset(ICCV 2011) 
http://cpl.cc.gatech.edu/projects/VisualSynset/ 
包含2亿图像

7、NUS-WIDE 
http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm 
Flickr中的27万的图像集。

8、SUN dataset 
http://people.csail.mit.edu/jxiao/SUN/ 
包含13万的图像

9、MSRA-MM 
http://research.microsoft.com/en-us/projects/msrammdata/ 
包含100万的图像,23000视频

10、TRECVID 
http://trecvid.nist.gov/

 

2014/07/07 雅虎发布超大Flickr数据集 1亿的图片+视频 
http://yahoolabs.tumblr.com/post/89783581601/one-hundred-million-creative-commons-flickr-images-for

============================================
数据挖掘数据集下载资源

1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b

2、几个实用的测试数据集下载的网站
http://www.fs.fed.us/fire/fuelman/
http://www.cs.toronto.edu/~roweis/data.html
http://kdd.ics.uci.edu/summary.task.type.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.phys.uni.torun.pl/~duch/software.html
在下面的网址可以找到reuters数据集:http://www.research.att.com/~lewis/reuters21578.html
该网址有各种数据集:http://kdd.ics.uci.edu/summary.data.type.html
进行文本分类,还有一个数据集是可以用的,即rainbow的数据集
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html

3、UCI收集的机器学习数据集
ftp://pami.sjtu.edu.cn/
http://www.ics.uci.edu/~mlearn//MLRepository.htm

4、statlib
http://liama.ia.ac.cn/SCILAB/scilabindexgb.htm
http://lib.stat.cmu.edu/

5、关于基金的数据挖掘的网站
http://www.gotofund.com/index.asp

http://lans.ece.utexas.edu/~strehl/

6、进行文本分类&WEB
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html

http://www.w3.org/TR/WD-logfile-960221.html
http://www.w3.org/Daemon/User/Config/Logging.html#AccessLog
http://www.w3.org/1998/11/05/WC-workshop/Papers/bala2.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.web-caching.com/traces-logs.html
http://www-2.cs.cmu.edu/webkb
http://www.cs.auc.dk/research/DP/tdb/TimeCenter/TimeCenterPublications/TR-75.pdf
http://www.cs.cornell.edu/projects/kddcup/index.html

7、时间序列数据的网址
http://www.stat.wisc.edu/~reinsel/bjr-data/

8、apriori算法的测试数据
http://www.almaden.ibm.com/cs/quest/syndata.html

9、数据生成器的链接
http://www.cse.cuhk.edu.hk/~kdd/data_collection.html
http://www.almaden.ibm.com/cs/quest/syndata.html
10、关联:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
http://www.almaden.ibm.com/software/quest/Resources/datasets/syndata.html#assocSynData

11、WEKA:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
1。A jarfile containing 37 classification problems, originally obtained from the UCI repository
http://prdownloads.sourceforge.net/weka/datasets-UCI.jar
2。A jarfile containing 37 regression problems, obtained from various sources
http://prdownloads.sourceforge.net/weka/datasets-numeric.jar
3。A jarfile containing 30 regression datasets collected by Luis Torgo
http://prdownloads.sourceforge.net/weka/regression-datasets.jar

12、癌症基因:
http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi

13、金融数据:
http://lisp.vse.cz/pkdd99/Challenge/chall.htm

14、一个很好的据资源按应用领域划分的资源网址为:http://kdd.ics.uci.edu/ 

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习-人工智能大数据,公开的海量数据集下载 的相关文章

随机推荐

  • 男人彻底懂得一个女人之后就不会爱她了吗?

    爱情教母张爱玲说过 男人彻底懂得一个女人之后 是不会爱她的 其实张爱玲的表达不确切 谁都不可能彻底懂得谁 自己都不可能彻底懂得自己 否则 张爱玲不会一遍一遍地写自己的童年 对其进行剖析 早年的有散文 私语 后来有英文的 雷峰塔 和中文的 小
  • java 提取文档注释 命令,java文档注释及javadoc命令

    注释的三种类型 1 单行注释 双斜线 2 多行注释 一次性将程序的多行注释掉 3 文档注释 如果编写Java源代码是添加了合适的文档注释 然年后通过JDK提供的Javadoc工具可以直接将源代码里面的文档注释提取成一份系统的API文档 文档
  • 破解AES秘钥长度限制

    破解AES秘钥长度限制 高级加密标准 AES 在密码学中又称Rijndael加密法 是美国联邦政府采用的一种区块加密标准 这个标准用来替代原先的DES 密码说明 因为Rijndael加密法可以支持更大范围的区块和密钥长度 AES的区块长度固
  • 在liunx双机下自己动手实现浮动IP技术

    http www 360doc com content 11 0823 18 5907545 142730623 shtml 有两台Linux服务器 其中一台主机 IP 139 24 214 22 对外提供了一定的网络服务 另一台从机 IP
  • 性能测试连载 (7)-jmeter 压力测试中的难点解析

    概述 新人在用jmeter做压力测试的时候 会被一些性能术语搞懵 直接导致的后果就是对测试出来的结果数据根本不能理解 更谈不上分析 这篇文章着重给大家实例解释一下jmeter压力测试的一些专有名词 问题1 什么是压力测试 问到如何做压力测试
  • 不同行业数字化工厂建设的几种模式

    国内制造业现阶段面临着巨大的转型压力 劳动力成本迅速攀升 产能过剩 竞争激烈 客户个性化需求日益增长等因素 迫使制造企业从低成本竞争策略转向建立差异化竞争优势 在工厂层面 企业面临着招工难 以及缺乏专业技师的巨大压力 必须实现减员增效 迫切
  • Doris 报错及解决方法

    1 1105 errCode 3 detailMessage tablet 348546 has few replicas 0 alive backends 用csv文件导入数据时报错 用show backends查看有BE节点宕机了 2
  • 基于STM32单片机的农作物大棚灌溉系统设计

    一 硬件方案 本设计以STM32单片机作为主控芯片 实现对农作物大棚环境的温度 湿度 光强度和土壤湿度进行监测 并根据具体情况进行相应的补水和补光 主要由STM32F103C8T6单片机最小系统 wifi模块 温湿度模块 1602液晶显示模
  • windows下编译libLAS库及配置

    windows下编译libLAS库及配置 前言 LibLAS编译 1 在进行编译之前我们首先需要编译Boost GDAL TIFF LASZIP和GeoTIFF的编译 大家可以参考下面的教程 Boost https blog csdn ne
  • jsp页面有中文显示乱码

    Tomcat目录的webapp目录下新建jspProject目录 创建以上文件夹 其中web inf文件夹可从ROOT目录下复制 新建index jsp 代码如下 hello Jsp 访问页面 中文显示乱码 更改jsp编码格式 在头一行中加
  • 【MySQL】mysql在Windows下使用mysqldump命令备份数据库

    在cmd窗口中使用mysqldump命令首先需要配置环境变量 1 在计算机中找到MySQL的安装位置 找到MySQL Workbench 比如我的是C Program Files MySQL MySQL Server 5 7 bin 2 在
  • 【目标检测】5、Faster R-CNN

    文章目录 摘要 引言 2 相关工作 3 Faster R CNN 3 1 区域提议网络 3 1 1 anchor 3 1 2 损失函数 3 1 3 训练RPNs 3 2 RPN和Fast R CNN的特征共享 3 3 实现细节 4 实验 4
  • (python)用户输入一段英文,然后输出这段英文中所有长度为3的英文单词

    正则表达式 集合 import re words input Input the words l re split words 使用空格分隔词语 得到各个单词 print l i 0 这里我设置的是计数器 for i in l if len
  • Linux下逻辑地址、线性地址、物理地址详细总结

    一 逻辑地址转线性地址 机器语言指令中出现的内存地址 都是逻辑地址 需要转换成线性地址 再经过MMU CPU中的内存管理单元 转换成物理地址才能够被访问到 我们写个最简单的hello world程序 用gcc编译 再反编译后会看到以下指令
  • awk的sort功能(zz)

    awk的sort功能 zz 2009 04 27 19 07 排序是经常用到的操作 然而原始版本的awk并没有内置的sort函数 想要排序数组的话只能自己实现一个sort函数 在gawk的3 1以后的版本 扩展提供了对数组的sort功能 a
  • Android开源框架之Android-PullToRefresh

    简介 PullToRefresh是一套实现非常好的下拉刷新库 它支持 ListView ExpandableListView GridView WebView ScrollView HorizontalScrollView ViewPage
  • conda的一些常用命令

    参考博客 我们可以在命令行中或者anaconda prompt中执行命令进行操作 常用命令留存 conda create n Python27 python 3 7 conda create n new env clone original
  • ctfshow-萌新-web5( 利用位运算符控制SQL获取网站敏感信息)

    ctf show 萌新模块 we5关 这一关考察的是intval 函数转换字符串的特性和SQL注入的绕过思路 这一关过滤了单双引号 or 斜杠 加减乘除号 叹号 括号 select等关键字 推荐使用取反运算符 来控制SQL语句 获取flag
  • springboot mysql serverTimezone url 设置时区

    serverTimezone GMT即可 spring datasource url jdbc mysql 127 0 0 1 3306 XXX useUnicode true characterEncoding utf8 serverTi
  • 机器学习-人工智能大数据,公开的海量数据集下载

    数据集的网站 1 Public Data Sets on Amazon Web Services AWS http aws amazon com datasets Amazon从2008年开始就为开发者提供几十TB的开发数据 2 Yahoo