16个推荐系统开放公共数据集整理分享

2023-10-30

(本文由深度学习与NLP编译)

本文主要整理了一些与推荐系统相关的高质量的数据集。整理自Stack Overflow、一些文章、推荐站点和学术实验。其中,大多数数据集都是免费、开放的,但有些不是,需要获得许可或引用作者的工作才能使用。此外,其中也包含一些预处理数据,可用于学术实验。链接和数据集描述。

 

Book

· 1. Book Crossing

BookCrossing(BX)数据集由Cai-Nicolas花了的4周(2004年8月/ 9月)从Book-Crossing社区中爬取得到的。

· 下载链接http://www2.informatik.uni-freiburg.de/~cziegler/BX/

 

电子商务

· 2. Amazon

该数据集包括自1996年5月至2014年7月,来自亚马逊上的1.428亿产品的评论和metadata。

· 下载链接http://jmcauley.ucsd.edu/data/amazon/

 

· 3. Retailrocket推荐系统数据集

该数据集由三个文件组成:一个行为数据集(events.csv),一个属性数据集(item_properties.сsv)和一个类目树数据集(category_tree.сsv)。该数据来自现实世界的电子商务网站。

· 下载链接https://www.kaggle.com/retailrocket/ecommerce-dataset

 

音乐

· 4. Amazon Music

该数字音乐数据集包含来自亚马逊的评论和元数据

· 下载链接:http://jmcauley.ucsd.edu/data/amazon/

 

· 5. Yahoo Music

该数据集是一个快照,收集了音乐社区对各种音乐艺术家的偏好。

· 下载链接https://webscope.sandbox.yahoo.com/catalog.php?datatype=r

 

· 6. LastFM(Implicit)

该数据集收集了Last.fm网站上2千名用户的社交网络、tagging和music artist listening信息。

· 下载链接https://grouplens.org/datasets/hetrec-2011/

 

· 7. Milion Song Dataset

Million Song数据集是一个免费的数据集,提供了一百万条当代流行音乐曲目相关的的audio features和metadata。

· 下载链接https://labrosa.ee.columbia.edu/millionsong/

 

电影

· 8. MovieLens

GroupLens Research已经从他们的电影网站收集整理的rating数据集。

· 下载链接https://grouplens.org/datasets/movielens/

 

· 9. Yahoo Movies

该数据集包含从两个不同来源收集的歌曲的rating数据集。第一个来源是用户在与Yahoo上使用音乐服务是产生的rating数据。

· 下载链接https://webscope.sandbox.yahoo.com/catalog.php?datatype=r

 

· 10. CiaoDVD

CiaoDVD是2013年12月从http://dvd.ciao.co.uk网站上抓取的DVD类别数据集。

· 下载链接https://webscope.sandbox.yahoo.com/catalog.php?datatype=r

 

·11. FilmTrust

FilmTrust是2011年6月从整个FilmTrust网站上抓取的一个小型数据集。

· 下载链接https://www.librec.net/datasets.html

 

· 12. Netflix

这是Netflix奖竞赛中使用的官方数据集。

· 下载链接http://academictorrents.com/details/9b13183dc4d60676b773c9e2cd6de5e5542cee9a

 

游戏

· 13. Steam Video Games

这是一个用户行数据集,包含:user-id,game-title,behavior-name,value。包括“purchase”和“play”数据集。购买了,puchase的值为1,而“play”的值表示用户播放音乐的时长。

· 下载链接https://www.kaggle.com/tamber/steam-video-games/data

 

Jokes

· 14. Jester

该笑话数据集包含来自73,496个用户,关于100个笑话的410万连续rating数据(-10.00到+10.00)

· 下载链接http://www.ieor.berkeley.edu/~goldberg/jester-data/

 

餐饮

·15. Chicago Entree

该数据集包含用户与Entree Chicago餐厅推荐系统交互的记录数据。

· 下载链接:http://archive.ics.uci.edu/ml/datasets/Entree+Chicago+Recommendation+Data

 

动漫

·16. 动漫推荐数据库

该数据集包含来自12,294个动漫的73,516个用户的用户偏好数据。每个用户都可以将动画添加到已完成的列表中并为其评分,该数据集把这些评级整理起来。

· 下载链接https://www.kaggle.com/CooperUnion/anime-recommendations-database

 

其他数据集

· GroupLens数据集

· 下载链接:https://grouplens.org/datasets/

 

· LibRec数据集

· 下载链接:https://www.librec.net/datasets.html

 

· Yahoo Research数据集

· 下载链接:https://webscope.sandbox.yahoo.com/catalog.php?datatype=r

 

· 斯坦福大型网络数据集汇编

· 下载链接:https://snap.stanford.edu/data/

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

16个推荐系统开放公共数据集整理分享 的相关文章

  • 批量调整word 图片大小

    打开文档后 按Alt F11 在左边Porject下找到ThisDocument 右键插入模块 贴上下面的Sub Macro For Each iShape In ActiveDocument InlineShapesiShape Heig
  • 【安卓学习之常见问题】文件分享--文件不存在

    安卓学习之常见问题 文件分享 文件不存在 系列文章目录 提示 这里是收集了和文件分享有关的文章 安卓学习之常见问题 android路径及文件问题 安卓学习之常见问题 文件分享 文件不存在 文章目录 安卓学习之常见问题 文件分享 文件不存在

随机推荐

  • LabVIEW深度相机与三维定位实战(下)

    博客主页 virobotics的CSDN博客 LabVIEW深度学习 人工智能博主 所属专栏 LabVIEW深度学习实战 上期文章 LabVIEW深度相机与三维定位实战 上 如觉得博主文章写的不错或对你有所帮助的话 还望大家多多支持呀 欢迎
  • 什么是内存泄漏,一看就懂,一学就会!!大白话解释内存泄漏!通俗易懂!

    在 32 位环境下 一个程序占用 4GB 的内存 其中 内核空间 是被操作系统占用的 我们没法直接干预 保留区域 也不用来存储数据 只用作一些特殊目的 比如 你可以让空指针指向这里 除了这两个区域 剩下的那些内存才是被我们自己编写的程序所占
  • Oracle数据库常见版本

    在Oracle数据库的发展中 数据库一直处于不断升级状态 有以下几个版本 Oracle 8 Oracle 8i Oracle 8i表示Oracle正式向Internet上开始发展 其中i表示就是internet Oracle 9i Orac
  • 带你玩转Spring Cloud Tencent(一)概述

    项目地址 spring cloud tencent 介绍 Spring Cloud Tencent 是腾讯开源的一站式微服务解决方案 Spring Cloud Tencent 实现了Spring Cloud 标准微服务 SPI 开发者可以基
  • PHP密码复杂性验证,JS检查密码强度 检查密码复杂度

    pass keyup function e var strongRegex new RegExp 8 A Z a z 0 9 W g var mediumRegex new RegExp 7 A Z a z A Z 0 9 a z 0 9
  • 电信光猫天翼网关usb插U盘共享文件

    ftp用不了 samba可以用 1 在电脑文件管理器中输入 192 168 1 1打开 在弹出框中输入光猫背后的账号密码登录即可打开共享的U盘 2 在手机ES文件管理器中 点右上角三点 新建 在弹出框中填入192 168 1 1和选择sam
  • Nginx 官网及中文官网

    英语官方 http nginx org 中文文档 http www nginx cn doc 转载于 https blog 51cto com hacker3389 1877270
  • 什么是大数据(转自知乎)

    声明 纯属个人收藏用 什么是大数据 大数据只是一个空洞的商业术语 就跟所谓的商业智能一样空洞无物 当然 这并不是说大数据没有意义 只是对于不同的人有不同的含义 A 对于投资人和创业者而言 大数据是个热门的融资标签 就和前几年流行的 SoLo
  • 磁盘快照技术

    一 概念解释 像照相机一样 机器快门一闪 很快就把刚刚的人像停留在了相纸上 存储系统中的数据 快照 与我们生活中所说的 照片 非常相似 所不同的是 照片的对象不是人 而是数据 如同照片留住了我们过去的摸样和岁月 快照把数据在某一时刻的映像也
  • 【数据结构】——顺序表介绍(独家介绍,小白必看!!)

    重点和易错点都用彩笔标记出来了 放心食用 数据结构分为线性表和非线性表 今天我们要学习的顺序表就是线性表中的一个小类 那么 何为线性表 线性表是指n个具有相同性质的数据元素的有限序列 常见的线性表有 顺序表 链表 栈 队列 字符串等等 注意
  • java非递归遍历二叉树 - Kaiqisan

    大家好 都吃晚饭了吗 我是Kaiqisan 是一个已经走出社恐的一般生徒 都说所有的递归都可以使用非递归的方式来解决 所以这次来一起康康非递归版本的二叉树的遍历 递归的本质就是不断往栈中塞入待执行代码 然后在代码块被执行的时候就会被调用执行
  • java时间格式化错误_java – SimpleDateFormat显示错误的分钟,秒和毫秒

    我已经编写了这个示例程序 我希望将日期转换为另一种格式 使用简单的日期格式时 我看不到预期的日期 public class TestDate param args public static void main String args Si
  • 聊一聊如何用IDEA追踪Bug?

    Debug用来追踪代码的运行流程 通常在程序运行过程中出现异常 启用Debug模式可以分析定位异常发生的位置 以及在运行过程中参数的变化 通常我们也可以启用Debug模式来跟踪代码的运行流程去学习三方框架的源码 Debug开篇 首先看下ID
  • 仅仅上线一小时,下载量就破10W!阿里内部Java性能优化实战手册

    祸兮福之所倚福兮祸之所伏 上学的时候对这句话不以为然 但是在社会上走的时间越长越觉得有道理 前不久好兄弟和领导闹矛盾裸辞了 身为好兄弟的我总不能干看着吧 总要帮他找工作的 你们应该不会想我和他一起裸辞吧 大学的师兄有好几个在大厂 平常关系还
  • 在 Dockerfile 中 CMD 和ENTRYPOINT可以混着用吗?

    在 Dockerfile 中 CMD 和ENTRYPOINT可以混着用吗 在 Dockerfile 中 CMD 和 ENTRYPOINT 是两个不同的指令 它们可以单独使用 也可以结合使用 CMD 指令用于指定容器启动时默认执行的命令 它可
  • 利用回调函数消灭大量分支语句if,case

    1 背景 有这样一个场景 常见的通讯程序中 根据不同的消息类型 调用不同的处理函数 类似于处理登陆 退出登陆 发送消息等类型 上古操作可能会是这样的代码 void dealLogin std cout lt lt received logi
  • Android实现获取应用程序相关信息列表的方法

    本文所述为Androdi获取手机应用列表的方法 比如获取到Android应用的软件属性 大小和应用程序路径 应用名称等 获取所有已安装的Android应用列表 包括那些卸载了的 但没有清除数据的应用程序 同时在获取到应用信息的时候 判断是不
  • 替换字符串中的括号内容(java)

    问题描述 给你一个字符串 s 它包含一些括号对 每个括号中包含一个 非空 的键 比方说 字符串 name is age yearsold 中 有 两个 括号对 分别包含键 name 和 age 你知道许多键对应的值 这些关系由二维字符串数组
  • micropython 固件开发_Micropython编译固件的操作步骤

    目标 编译STM32F4固件并刷入到我们的开发板 STM32F407VET6 1 在Linux系统下进行编译操作 windows用户可以在虚拟机下运行Linux系统 推荐下载kali Linux系统 https www kali org d
  • 16个推荐系统开放公共数据集整理分享

    本文由深度学习与NLP编译 本文主要整理了一些与推荐系统相关的高质量的数据集 整理自Stack Overflow 一些文章 推荐站点和学术实验 其中 大多数数据集都是免费 开放的 但有些不是 需要获得许可或引用作者的工作才能使用 此外 其中