[转载] 机器学习数据集统计系列(二)

2023-10-27

金融

美国劳工部统计局官方发布数据

房地产公司 Zillow 公开美国房地产历史数据

沪深股票除权除息、配股增发全量数据,截止 2016.12.31

上证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,1260支股票

深证主板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,466支股票

深证中小板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,852支股票

深证创业板日线数据,截止 2017.05.05,原始价、前复权价、后复权价,636支股票

上证A股日线数据,1999.12.09至 2016.06.08,前复权,1095支股票

深证A股日线数据,1999.12.09至 2016.06.08,前复权,1766支股票

深证创业板日线数据,1999.12.09 至2016.06.08,前复权,510支股票

MT4平台外汇交易历史数据

Forex平台外汇交易历史数据

几组外汇交易逐笔(Ticks)数据

美国股票新闻数据【Kaggle数据】

美国医疗保险市场数据【Kaggle数据】

美国金融客户投诉数据【Kaggle数据】

Lending Club 网贷违约数据【Kaggle数据】

信用卡欺诈数据【Kaggle数据】

美国股票数据XBRL【Kaggle数据】

纽约股票交易所数据【Kaggle数据】

贷款违约预测竞赛数据【Kaggle竞赛】

Zillow 网站房地产价值预测竞赛数据【Kaggle竞赛】

Sberbank 俄罗斯房地产价值预测竞赛数据【Kaggle竞赛】

Homesite 保险定价竞赛数据【Kaggle竞赛】

Winton 股票回报率预测竞赛数据【Kaggle竞赛】

房屋租赁信息查询次数预测竞赛【Kaggle竞赛】

 

 

交通

2013年纽约出租车行驶数据

2013年芝加哥出租车行驶数据

Udacity自动驾驶数据

纽约Uber 接客数据 【Kaggle数据

英国车祸数据(2005-2015)【Kaagle数据】

芝加哥汽车超速数据【Kaggle数据】

KITTI 自动驾驶任务数据【数据太大仅有部分】

Cityscapes 场景标注数据【数据太大仅有部分】

德国交通标志识别数据

交通信号识别数据

芝加哥Divvy共享自行车骑行数据(2013年至今)

美国查塔努加市共享单车骑行数据

Capital 共享单车骑行数据

Bay Area 共享单车骑行数据

Nice Ride 共享单车骑行数据

花旗银行共享单车骑行数据

运用卫星数据跟踪亚马逊热带雨林中的人类轨迹竞赛【Kaggle竞赛】

纽约出租车管理委员会官方的乘车数据(2009年-2016年)

 

商业

Airbnb 开放的民宿信息和住客评论数据

Amazon 食品评论数据【Kaggle数据】

Amazon 无锁手机评论数据【Kaggle数据】

美国视频游戏销售和评价数据【Kaggle数据】

Kaggle 各项竞赛情况数据【Kaggle数据】

Bosch 生产流水线降低次品率竞赛数据【Kaggle竞赛】

预测公寓租金竞赛数据

广告点击预测竞赛数据

餐厅营业收入预测建模竞赛

银行产品推荐竞赛数据

网站用户推荐点击预测竞赛数据

在线广告实时竞价数据【Kaggle数据】

购物车商品关联竞赛数据【Kaggle竞赛】

Airbnb 新用户的民宿预定预测竞赛数据【Kaggle竞赛】

Yelp 点评网站公开数据

KKBOX 音乐用户续订预测竞赛【Kaggle竞赛】

Grupo Bimbo 面包店库存和销量预测竞赛【Kaggle竞赛】

 

推荐系统

Netflix 电影评价数据

MovieLens 20m 电影推荐数据集

WikiLens

Jester HetRec2011

Book Crossing Large MovieReview

Retailrocket 商品评论和推荐数据

1万本畅销书的6百万读者评分数据

 

医疗健康

人识别物体时大脑核磁共振影像数据

人理解单词时大脑核磁共振影像数据

心脏病心房图像及标注数据

细胞病理识别

FIRE 视网膜眼底病变图像数据

食物营养成分数据 【Kaggle数据】

EGG 大脑电波形状数据【Kaggle数据】

某人基因序列数据【Kaggle数据】

癌症CT影像数据【Kaggle数据】

软组织肉瘤CT图像数据【Kaggle数据】

美国国家健康与服务部-国家癌症研究所发起的癌症数据仓库介绍【仅有介绍】

Data ScienceBowl 2017 肺癌识别竞赛数据【数据太大仅有介绍】

TCGA-LUAD 肺癌CT图像数据

RIDER Lung CT 肺癌CT影像

TCGA-COAD癌症CT影像数据

TCIA-TCGA-OV 癌症CT影像数据

TCIA RIDER NEURO癌症MRI影像数据

QIN Beast 乳腺癌MRI影像数据

SPIE-AAPM-NCIPROSTATEx竞赛第1部分数据(MRI核磁共振影像识别前列腺癌程度数据) SPIE-AAPM-NCIPROSTATEx竞赛第2部分数据(MRI核磁共振影像识别前列腺癌程度数据)RIDER Breast 乳腺癌 MRI 影像数据

Lung Phantom 癌症 CT 影像数据集

TCIA-QIN-LUNG 肺癌 CT 影像数据集

医疗CT影像、年龄和对比标注数据【Kaggle竞赛】

TCGA-ESCA癌症 CT 影像数据集

TCGA-CESC癌症 CT 影像数据集

TCGA-KICH癌症 CT 影像数据集

从 CT 影像中对肺部影像进行分割并识别肺部容积【Kaggle竞赛】

通过Egg脑电图像预测患者癫痫病发作竞赛【Kaggle竞赛】

遗传突变分类竞赛【Kaggle竞赛】

MIMIC-III 临床监护数据

 

图像数据

综合图像

Visual Genome 图像数据

Visual7w 图像数据

COCO 图像数据

SUFR 图像数据

ILSVRC 2014 训练数据(ImageNet的一部分)

PASCAL Visual Object Classes 2012 图像数据

PASCAL Visual Object Classes 2011 图像数据

PASCAL Visual Object Classes 2010 图像数据

80 Million Tiny Image 图像数据【数据太大仅有介绍】

ImageNet【数据太大仅有介绍】

Google Open Images【数据太大仅有介绍】

Imagenet 小尺寸图像数据集

Yahoo Flickr 照片和视频数据集

 

场景图像

Street Scences 图像数据

Places2 场景图像数据

UCF GoogleStreet View 图像数据

SUN 场景图像数据

The Celebrity inPlaces 图像数据

 

Web标签图像

HARRISON 社交标签图像

NUS-WIDE 标签图像

Visual Synset 标签图像

Animals WithAttributes 标签图像

 

人形轮廓图像

MPII Human Shape人体轮廓数据

Biwi Kinect Head Pose 头部姿势数据

上半身人像数据 INRIA Person 数据集

 

视觉文字识别图像

Street View House Number 门牌号图像数据

MNIST 手写数字识别图像数据

3D MNIST 数字识别图像数据【Kaggle数据】

MediaTeam Document 文档影印和内容数据

Text Recognition 文字图像数据

NIST Handprinted Forms and Characters 手写英文字符数据

NIST Structured Forms Reference Set of Binary Images (SFRS) 图像数据

NIST Structured Forms Reference Set of Binary Images (SFRS) II 图像数据

 

特定一类事物图像

著名的猫图像标注数据

Caltech-UCSDBirds200 鸟类图像数据

Stanford Car 汽车图像数据

Cars 汽车图像数据

MIT Cars 汽车图像数据

Stanford Cars 汽车图像数据

Food-101 美食图像数据

17_Category_Flower 图像数据

102_Category_Flower 图像数据

UCI Folio Leaf 图像数据

Labeled Fishes in the Wild 鱼类图像

美国 Yelp 点评网站酒店照片

CMU-Oxford Sculpture 塑像雕像图像

Oxford-IIIT Pet 宠物图像数据

Nature Conservancy Fisheries Monitoring 过度捕捞监控图像数据【Kaggle数据】

Stanford Dogs Dataset 数据集

辛普森一家卡通形象图像【Kaggle竞赛】

Fashion-MNIST 时尚服饰图像数据

 

 

 

材质纹理图像

CURET 纹理材质图像数据

ETHZ Synthesizability 纹理图像数据

KTH-TIPS 纹理材质图像数据

Describable Textures 纹理图像数据

 

 

 

物体分类图像

COIL-20 图像数据

COIL-100 图像数据

Caltech-101 图像数据

Caltech-256 图像数据

CIFAR-10 图像数据

CIFAR-100 图像数据

STL-10 图像数据

LabelMe_12_50k图像数据

NORB v1.0 图像数据

NEC Toy Animal 图像数据

iCubWorld 图像分类数据

Multi-class 图像分类数据

GRAZ 图像分类数据

 

人脸图像

IMDB-WIKI 500k+ 人脸图像、年龄性别数据

Labeled Faces in the Wild 人脸数据

Extended Yale Face Database B 人脸数据

Bao Face 人脸数据

DC-IGN 论文人脸数据

300 Face in Wild 图像数据

BioID Face 人脸数据

CMU Frontal Face Images

FDDB_Face Detection Data Set and Benchmark

NIST Mugshot Identification Database Faces in the Wild 人脸数据

CelebA 名人人脸图像数据

VGG Face 人脸图像数据

Caltech 10k WebFaces 人脸图像数据

 

 

 

姿势动作图像

HMDB_a large human motion database

Human Actionsand Scenes Dataset

Buffy Stickmen V3 人体轮廓识别图像数据

Human Pose Evaluator 人体轮廓识别图像数据

Buffy pose 人类姿势图像数据

VGG Human Pose Estimation 姿势图像标注数据

 

指纹识别

NIST FIGS 指纹识别数据

NIST Supplemental Fingerprint Card Data (SFCD) 指纹识别数据

NIST Plain and Rolled Images from Paired Fingerprint Cards in 500 pixels per inch 指纹识别数据

NIST Plain and Rolled Images from Paired Fingerprint Cards 1000 pixels per inch 指纹识别数据

 

其它图像数据

Visual Question Answering V1.0 图像数据

Visual Question Answering V2.0 图像数据

 

 

视频数据

综合视频

DAVIS_Densely Annotated Video Segmentation 数据

YouTube-8M 视频数据集【数据太大仅有介绍】

YouTube 网站视频备份【数据太大仅有介绍】

 

人类动作视频

Microsoft Research Action 人类动作视频数据

UCF50 Action Recognition 动作识别数据

UCF101 Action Recognition 动作识别数据

UT-Interaction 人类动作视频数据

UCF iPhone 运动中传感器数据

UCF YouTube 人类动作视频数据

UCF Sport 人类动作视频数据

UCF-ARG 人类动作视频数据

HMDB 人类动作视频

HOLLYWOOD2 人类行为动作视频数据

Recognition of human actions 动作视频数据

Motion Capture 动作捕捉视频数据

SBU Kinect Interaction 肢体动作视频数据

 

目标检测视频

UCSD Pedestrian 行人视频数据

Caltech Pedestrian 行人视频数据

ETH 行人视频数据

INRIA 行人视频数据

TudBrussels 行人视频数据

Daimler 行人视频数据

ALOV++ 物体追踪视频数据

 

密集人群视频

Crowd Counting 高密度人群图像

Crowd Segmentation 高密度人群视频数据

Tracking in High Density Crowds 高密度人群视频

 

其它视频

Fire Detection 视频数据

 

 

 

音频数据

综合音频

Google Audioset 音频数据【数据太大仅有介绍】

 

语音识别

Sinhala TTS 英语语音识别

TIMIT 美式英语语音识别数据

LibriSpeech ASR corpus 语音数据

Room Impulse Response and Noise 语音数据

ALFFA 非洲语音数据

THUYG-20 维吾尔语语音数据

AMI Corpus 语音识别

 

自然语言处理

RCV1英语新闻数据

20news 英语新闻数据

First Quora Release Question Pairs 问答数据

JRC Names各国语言专有实体名称

Multi-Domain Sentiment V2.0

LETOR 信息检索数据

Yale Youtube Vedio Text斯坦福问答数据【Kaggle数据】

美国假新闻数据【Kaggle数据】

NIPS会议文章信息数据(1987-2016)【Kaggle数据】

2016年美国总统选举辩论数据【Kaggle数据】

WikiLinks 跨文档指代语料

European Parliament Proceedings Parallel Corpus 机器翻译数据

WikiText 英语语义词库数据

WMT 2011 News Crawl 机器翻译数据

Stanford Sentiment Treebank 词汇数据

英语语言模型单词预测竞赛数据

WikiAnswers 问题复述数据集

中文经典典籍语料

几个网上采集的自然语言语料中文姓名语料

81万互联网词汇词库

Question-Answer 问答数据集

Wikilinks 跨文档语料扩展版

几个聊天机器人语料

TED 平行语料库

 

社会数据

希拉里邮件门泄露邮件

波士顿Airbnb 公开数据【Kaggle数据】

世界各国经济发展数据【Kaagle数据】

世界大学排名芝加哥犯罪数据(2001-2017)【Kaagle数据】

世界范围显著地震数据(1965-2016)【Kaagle数据】

美国婴儿姓名数据【Kaagle数据】

全世界鲨鱼袭击人类数据【Kaagle数据】

1908年以来空难数据【Kaagle数据】

2016年美国总统大选数据【Kaagle数据】

2013年美国社区统计数据【Kaagle数据】

2014年美国社区统计数据【Kaagle数据】

2015年美国社区统计数据【Kaagle数据】

欧洲足球运动员赛事表现数据【Kaagle数据】

美国环境污染数据【Kaagle数据】

美国H1-B签证申请数Kaggle数据】

IMDB五千部电影数据【Kaggle数据】

2015年航班延误和取消数据【Kaggle数据】

凶杀案报告数据【Kaggle数据】

人力资源分析数据【Kaggle数据】

美国费城犯罪数据【Kaggle数据】

安然公司邮件数据【Kaggle数据】

历史棒球数据【Kaggle数据】

美联航 Twitter 用户评论数据【Kaggle数据】

波士顿 Airbnb 公开数据【Kaggle数据】

芝加哥市2001年以来犯罪记录数据

美国查塔努加市犯罪记录数据(2003年至今)

芝加哥街边咖啡厅季节中的人行道咖啡厅许可数据

芝加哥餐馆卫生检查结果数据

几个人类运动位置路线GPS数据集(骑行、跑步等)

希拉里 vs 特朗普竞选期间 Twitter 数据【Kaggle竞赛】

美国连环凶案数据(1980-2014)【Kaggle竞赛】

广告实时竞价数据【Kaggle竞赛】

美国费城犯罪记录数据【Kaggle竞赛】

Reddit 用户交互记录【Kaggle竞赛】

泰坦尼克灾难数据【Kaggle竞赛】

Wikipedia 页面点击流量数据【Kaggle竞赛】

纽约市出租车乘车时间预测竞赛数据【Kaggle竞赛】

新闻和网页内容推荐及点击竞赛【Kaggle竞赛】

科比布莱恩特投篮命中率数据【Kaggle竞赛】

几个城市气象交换站日间天气数据

Reddit 2.5 百万社交新闻数据

Google的机群访问数据

MIT Saliency 眼睛浏览轨迹数据集

根据安检人体扫描成像预测威胁竞赛【Kaggle竞赛】

 

 

处理后的科研和竞赛数据

NIPS 2003 属性选择竞赛数据

台湾大学林智仁教授处理为 LibSVM 格式的分类建模数据

Large-scale 分类建模数据

几个UCI 中 large-scale 分类建模数据

Social Computing Data Repository 社交网络数据

猫和狗分类识别竞赛数据【Kaggle竞赛】

DSTL 卫星图像识别竞赛数据【Kaggle竞赛】

根据手机应用软件使用行为预测用户性别年龄竞赛数据【Kaggle竞赛】

人脸关键点标定竞赛数据【Kaggle竞赛】

Kaggle竞赛数据合辑(部分竞赛数据)

UCI多分类组合出的二分类数据集

UCI经典二分类数据集

场景图像分类竞赛数据【ChallengerAI 竞赛】

人体骨骼关键点检测竞赛数据【ChallengerAI 竞赛】

图像中文表述竞赛数据【ChallengerAI 竞赛】

英文同声传译竞赛数据【ChallengerAI 竞赛】

中英文本翻译竞赛数据【ChallengerAI 竞赛】

虚拟股票趋势预测【ChallengerAI 竞赛数据】

机器视觉推理实验数据

BigMM 2015 竞赛验证数据集

KONECT 网络图结构和网络科学数据合辑

转载于:https://www.cnblogs.com/marsggbo/p/9948833.html

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

[转载] 机器学习数据集统计系列(二) 的相关文章

随机推荐

  • 数据库关闭四种方式

    数据库关闭四种方式 shutdown 参数 默认normal abort 模拟突然掉电 内存被清空 内存中的数据没有写入数据文件 事务被立即中断 没有提交也没有回滚 immediate 强制中断当前正在运行的所有事务 回滚这些事务 回滚完毕
  • c语言编写简易的自动售货机程序

    今天本来想做一个弹窗的可以输入有按钮点确定的自动售货机程序的 但是因为学校没教我是自学的找了一下午 不是教我如何创建的 就是代码各种报错的 我试了一下午都不行 只能放弃了 今天这串代码是根据我的c语言笔试 我们有上机考试的 的其中一道编程的
  • 二、量化选股

    文章目录 总体介绍 一 基本面选股 1 因子选股 判断方法 五个步骤 2 风格轮动 3 行业轮动 二 市场行为选股 1 资金流 2 动量反转 基本概念 1 行为金融学 2 阿尔法动量模型 3 一致预期 4 趋势追踪 基本概念 5 筹码选股
  • uniGUI用Grid++Report报表插件设计保存报表(For unigui ver:0.95.0.1045)

    uniGUI的0 95 0 1045版本提供了CallbackUrl 我们也可以用这个提供的回调网址来实现优秀的国产报表插件在IE Chorme FireFox中在线设计并保存报表到服务端的功能 界面效果如下 代码如下 unit Main
  • SpringBoot用线程池ThreadPoolExecutor处理百万级数据

    SpringBoot用线程池ThreadPoolExecutor处理百万级数据 更多优秀文章 请扫码关注个人微信公众号或搜索 程序猿小杨 添加 一 背景 使用JDK线程池ThreadPoolExecutor多线程异步执行批量插入 更新等操作
  • 如何优雅地用VScode在Ubuntu服务器上跑cuda代码

    0 安装相关软件 VScode 及对应插件 推荐VScode配置好远程服务后在服务端添加如下插件 Xming Xming X Server for Windows download SourceForge netDownload Xming
  • CMake Error: CMake was unable to find a build program corresponding to “Ninja“.

    CMake Error CMake was unable to find a build program corresponding to Ninja 使用cmake G ninja 后出现问题 报错信息如下所示 CMake Error C
  • 关于dispose 方法的资源释放

    当在程序上实现dispose 方法时 当前对象所占用的资源会被释放 当前对象便不能再被使用 但在内存中还并不会被及时的释放 要待到下次垃圾回收的时候 内存才能得到释放
  • Redis哨兵模式高可用原理

    我们知道主从复制是高可用的基石 从库宕机依然可以将请求发送给主库或者其他从库 但是 Master 宕机 只能响应读操作 写请求无法再执行 所以主从复制架构面临一个严峻问题 主库挂了 无法执行 写操作 无法自动选择一个 Slave 切换为 M
  • javabean相关问题

    目录 一般情况下 javabean有哪些具体的规范 JavaBean规范 在jsp页中 如何实现对它页的引入 or 嵌入 1 第一种 js import 2 第二种 jsp include指令 3 第三种 jsp include动作 什么是
  • Qt笔记8--zlib实现gzip解压

    Qt笔记8 zlib实现gzip解压 几个月前 由于需要使用过zlib解压文本和图片 现在将当初的方法记录在这里 以便于后续查阅 1 功能及使用方法 功能 1 解压gzip压缩的字符串 2 解压gzip压缩的图片 方法 1 下载并编译zli
  • 日常学习 mmsegmentation处理数据集和图片格式

    mmsegmentation 对数据集的读取与处理 对于自定义数据集需要在mmseg datasets下建立自己的数据集文件 如 import os path as osp from builder import DATASETS from
  • BUG -- 背景图片 background-postion 值为 百分比 时无效

    最近再写公司官网 要求响应式 为了图方便用百分比遇到一个bug 经过多方测试 此时遇到的问题是 当background size的值与容器的width height值相同时 同为px或者 background postion属性值设置为百分
  • 毕业设计-基于人工智能的脱机手写数字识别系统

    目录 前言 课题背景和意义 实现技术思路 一 相关背景知识介绍 二 基于智能优化算法的SVM在手写数字中的应用 三 基于智能优化算法的KELM在手写数字中的应用 实现效果图样例 最后 前言 大四是整个大学期间最忙碌的时光 一边要忙着备考或实
  • js爬虫反扒

    3 js动态网页抓取方式 重点 许多时候爬虫取到的页面仅仅是一个静态的页面 即网页的源代码 就像在浏览器上的 查看网页源代码 一样 一些动态的东西如javascript脚本执行后所产生的信息是抓取不到的 下面两种方案 可用来python爬取
  • MyBatis—利用MyBatis查询(查询所有,查询一行,条件查询)

    文章目录 1 查询所有 2 查询详情 通过特定属性查询 3 多条件查询 1 接口参数列表三种表达方式 2 多条件查询 3 动态Sql 4 多条件动态查询 5 单条件动态查询 1 查询所有 基本步骤 1 定义mapper接口 编写接口方法 2
  • 常用算法之分治算法(如何解决汉诺塔问题)

    1 什么是分治算法 分治 从字面上解释就是 分而治之 将一个复杂的问题分解成为两个或者更多的相同或者相似的子问题 再把子问题分成更小的子问题 直到最后的子问题简单到可以直接求解 原问题的解就是子问题解的合并 复杂问题 gt 子问题 gt 更
  • 目标检测框架在目标跟踪中的应用

    目标检测框架在目标跟踪中的应用 从SiamRPN将跟踪问题定义为one shot detection任务之后 出现了大量将检测组件由于跟踪的研究 不过Siamese系列一个很大的问题在于其本质仍然是一个模板匹配问题 网络关注的是寻找与tar
  • 100天精通Python(基础篇)——第15天:布尔类型和比较运算符

    文章目录 布尔类型 比较运算符 示例代码 布尔类型 True 表示真 False 表示假 比较运算符 示例代码 bool 1 True bool 2 False print f bool 1 bool 1 类型 type bool 1 pr
  • [转载] 机器学习数据集统计系列(二)

    金融 美国劳工部统计局官方发布数据 房地产公司 Zillow 公开美国房地产历史数据 沪深股票除权除息 配股增发全量数据 截止 2016 12 31 上证主板日线数据 截止 2017 05 05 原始价 前复权价 后复权价 1260支股票