40岁高中老师开源的数据集LAION，改变了生成式AI的未来丨智源大会嘉宾风采

2023-10-30

导读

如今，拥有超过50亿个图文对的 LAION数据集已经成为生成式AI未来的中心ーー而随之而来的关于如何监管人工智能的争论也日益激烈。

在德国北部城市汉堡郊区的一栋房屋前，一个信箱上用铅笔潦草地写着一个单词——“ LAION”。这唯一的记号表明，这栋房子属于一个特殊的人。正是他，在人工智能繁荣时期在数据收集方面做出了巨大的努力，引起了全世界的关注。这个人就是来自德国的高中老师Christoph Schuhmann，LAION（Large-scale AI Open Network，“大规模人工智能开放网络”的简称）正是他热衷的项目。近期，Schuhmann接受了美国彭博社的采访，谈到了他关于开放数据集的观点。智源社区对采访进行了不改变原意的编译。

Christoph Schuhmann

LAION组织者和创始人，在维也纳大学获得计算机科学与物理学学位。此前曾在维也纳演员工作室学习方法派表演。他是著名开源社区LAION（代表作是赫赫有名的数据集LAION-5B）的组织者，近期开源Open Assistant。

LAION

LAION是一个拥有全球成员的非营利组织，旨在向公众提供大规模的机器学习模型、数据集和相关代码来解放机器学习研究。团队著名研究成果LAION-5B是为AI图像生成发展做出巨大贡献的超大数据集。今年4月，LAION 发布了世界最大 ChatGPT 开源平替——OpenAssistant，它一个基于聊天的开源助手，旨在为开发者提供一个可以轻松与第三方应用程序接口、数据库和互联网进行交互的大型语言模型。通过对Open Assistant的定制和修改，开发者可以更便捷地从各种来源获取所需信息，提高工作效率。

▲ Christoph Schuhmann将作为本次智源大会嘉宾参与邀请报告与线上论坛环节，敬请期待。扫描下方二维码，免费报名2023智源大会。

要点速览

◆ 如果这些数据集中至一家、两家或三家公司，将对社会产生非常不利的影响。

◆ 一开始我非常怀疑Emad的动机，但大约四周后，我们获得了云上的 GPU资源，这些资源通常需要花费大约9000到1万美元。

◆ 任何互联网上免费的东西都是公平竞争。

◆ 相比于图像中涉及的偏见问题，我更关心让数据“获得自由”。

◆ 如果我们试图放慢速度并过度监管，最终会有很大的危险，即只有少数大公司能够负担得起满足所有正式要求。

Schuhmann平时的工作是向德国一所高中青少年教授物理和计算机科学，他和一小拨儿志愿者一起建立了世界上最大的免费人工智能训练数据集，如今这些数据集已经被用于文生图的生成器，包括谷歌 Imagen 和Stable Diffusion。

像 LAION 这样的数据集是AI文图生成器的核心，这些生成器依赖于数据集，处理大量用于解构和生成新图像的视觉材料。去年年底，文生图产品首次在公众视野中亮相，迎来了范式转变: 它将科技行业的人工智能军备竞赛推入了超光速的时代，并引发了大量道德和法律问题。

在几个月内，生成式AI公司 Stability AI 和 Midjourney 等纷纷因为盗版问题面临诉讼，批评人士对这些公司采用的数据集中涉及暴力、色情和其他有问题的图像发出了警告，同时这些图像被指引入了几乎不可能减轻的偏见。但这些都不是Schuhmann所关心的，他只是想让数据“获得自由”。

一万美元的捐赠，让数据“获得自由”

Schuhmann现年40岁，不仅是高中教师，还是位受过两年专业训练的演员，他在两年前组织创建了 LAION，创建之初，他正在一个为 AI 爱好者提供服务的 Discord 服务器上闲逛。OpenAI的DALL-E第一个版本发布后，Schuhmann深受启发，同时也担心它会鼓励大型科技公司将更多数据私有化。他的想法是: “我立刻明白，如果这些数据集中至一家、两家或三家公司，将对社会产生非常不利的影响。”

作为回应，他和Discord上的其他成员决定创建一个开源数据集来帮助训练文到图的扩散模型，这是一个长达数月的过程，类似于用数百万张闪存卡教一个人学习一门外语。该小组使用加州非营利组织 Common Crawl 收集到的原始 HTML 代码来定位网络上的图片，并将它们与描述性文本关联起来，过程中没有使用任何手工或人工监管。只花了几周的时间，Schuhmann和他的同事就有了300万个图文对。三个月后，他们发布了4亿个图文对的数据集。这个数字现在已超过50亿，LAION 成为了最大的免费文图数据集。

随着 LAION 声名鹊起，这个团队却继续无偿工作，并在2021年收到了来自机器学习公司“Hugging Face”的一次性捐赠。突然有一天，一位前对冲基金经理Emad Mostaque闯进了他们的Discord 聊天室。Emad主动提出将负担计算资源的费用，不附加任何条件。他想推出自己的开源生成式AI业务，并希望利用 LAION 来训练他的产品。LAION团队最初对这个提议嗤之以鼻，甚至觉得他是个疯子。

前对冲基金经理Emad Mostaque，Stability AI创始人

“一开始我们非常怀疑,”Schuhhmann表示，“但大约四周后，我们获得了云上的 GPU资源，这些资源通常需要花费大约9000到1万美元。” Emad于2022年推出Stability AI时，他使用了 LAION 的数据集来训练Stable Diffusion，并雇佣了该组织的两名研究人员。一年过去了，Stability AI目前正在寻求40亿美元的估值，这主要归功于 LAION 提供的数据。而对Schuhmann来说，他并没有从LAION那里直接获利，而且也对实际利益不感兴趣。“我还继续在高中教书，拒绝了各类公司的工作邀请，因为我希望能保有自己的独立性。”

数据就是新石油，任何互联网上免费的东西都是公平竞争？

像 LAION 数据集中的许多图像和链接已经遍布互联网了，有些甚至已经存在了几十年。人工智能的繁荣揭示了它的真正价值。数据集越大、越多样化，其中的图像质量越高，人工智能生成的图像就会越清晰、越精确。

这种实现方式反过来又引发了一系列法律和道德问题，即公众可以获得的材料是否可以用来为数据集提供信息ーー如果答案是肯定的，那么创作者是否应该得到报酬。

为了打造 LAION，创始人从 Pinterest、 Shopify 和亚马逊网络服务(Amazon Web Services)等公司获取视觉数据——这些公司没有评论 LAION 使用其内容是否违反了其服务条款。同时还包括YouTube上的缩略图、 DeviantArt 和 EyeEm 等平台的图片、美国国防部等政府网站的照片，以及《每日邮报》和《太阳报》等新闻网站的内容。

如果你问Schuhmann，他会说，任何互联网上免费的东西都是公平竞争。但是欧盟目前没有人工智能法规，即将出台的人工智能法案将在今年夏初敲定其措辞，该法案并不会针对版权材料是否可以包含在大数据集中做出裁决。相反，立法者正在讨论是否要纳入一项条款，要求人工智能生成器背后的公司披露哪些材料被用在了训练他们产品的数据集中，从而让这些材料的创作者有机会采取保护行动。欧洲议会议员Dragos Tudorache告诉媒体，这项规定背后的基本理念很简单: “作为生成式人工智能的开发者，有义务对算法训练中所使用的受版权保护材料进行记录和透明化。”

4月20日，Christoph Schuhmann在汉堡的一个公园里

这样的监管对Stability AI来说不是问题，但对其他文到图生成器来说可能是个问题ーー“没人知道OpenAI用什么来训练的 DALL-E2,”Schuhhmann引用它作为科技公司如何锁定公共数据的一个例子。这也将颠覆目前数据收集的现状。

虽然 LAION 还没被直接起诉，但它已经在两起诉讼中被点名: 一起指控Stability AI和Midjourney使用艺术家的版权图片来训练模型，另一起指控是Getty Images状告Stability AI，声称1200万图片被 LAION 搜刮去训练Stable Diffusion。

因为 LAION 是开源的，所以不可能知道其他哪些公司或者有多少公司使用了这个数据集。谷歌已经承认，它聘请了 LAION 来帮助训练其 Imagen 和 Parti 的文生图模型。Schuhmann认为，其它大型企业也在悄悄做着同样的事情，只是没有公开而已。

过度监管会带来危险

Schuhmann坐在客厅里，看着儿子玩《我的世界》(Minecraft) ，他把 LAION 比作“信息技术海啸”之上的一艘“小型研究船”，采集下面的样本向世界展示。

“这只是互联网上公开数据的一小部分,”他在谈到 LAION 的数据集时说。“这些数据事实上很容易获取，有来自捐赠者的1万美元预算，我们这群人真的做到了。”

但是，公众可以获得的东西并不总是公众想要的，也不总是允许公众合法看到的。除了诸如猫和消防车的 SFW 照片外，LAION 的数据集还包含数百万张色情、暴力、儿童裸体、种族主义、仇恨符号、受版权保护的艺术品以及从私人公司网站上搜刮来的作品。Schuhmann说，他不知道在 LAION 的数据集中有任何儿童裸体，尽管他承认没有深入研究这些数据。他说，如果得到有关此类内容的通知，他将立即删除指向这些内容的链接。

Schuhmann在开始组装数据集之前咨询了律师，并运行了一个自动化工具来过滤非法内容，但他更感兴趣的不是清理 LAION 的数字资产，而是从这些资产中学习。“我们本可以从公布的数据中过滤掉暴力,”他说，“但我们决定先不这样做，因为这将加快暴力检测软件的开发。”LAION 确实提供了一个删除选项来请求删除照片，但目前数据集已被下载了数千次。

Stability AI方面表示，它是在 LAION 数据集的一个精选子集上训练了Stable Diffusion。该公司在一封电子邮件中写道，试图“给这个模型提供一个比最初版本的 SD 更加多样化和广泛的数据集”，并补充说他们已经试图“使用 LAION 的 NSFW 过滤器删除成人内容” 。

开源AI的拥护者也警告说，在未经管理的数据集上训练AI意味着什么。Hugging Face机器学习和社会团队负责人Yacine Jernite表示，基于受污染数据的生成式AI工具将反映其偏见。“模型会非常直接地反映它所接受的训练。”

这不仅仅是社会的决定。欧洲的监管机构正在起草法规，以引导人工智能的使用，他们正在努力应对这样一个事实: 为当前人工智能繁荣而挖掘的数据，多年来一直是处于一个法律灰色地带，直到现在才受到严格审查。

但是Schuhmann认为，数据集不应该被监控。在他看来，人工智能所遇到最坏的情况是大型科技公司通过让他们的开发的工具符合监管框架，来排挤其他开发人员。 “如果我们试图放慢速度并过度监管，”他警告说，“最终会有很大的危险，即只有少数大公司能够负担得起满足所有正式要求。”

更多内容尽在智源社区

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

人工智能

大数据

40岁高中老师开源的数据集LAION，改变了生成式AI的未来丨智源大会嘉宾风采的相关文章

【图像融合】基于联合双边滤波和局部梯度能量的多模态医学图像融合研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码图像文章
大数据毕业设计：python微博舆情分析系统+可视化+情感分析+爬虫+机器学习（源码）✅

博主介绍全网粉丝10W 前互联网大厂软件研发集结硕博英豪成立工作室专注于计算机相关专业毕业设计项目实战6年之久选择我们就是选择放心选择安心毕业感兴趣的可以先收藏起来点赞关注不迷路毕业设计 2023 2024年计算机毕业
【卡尔曼滤波】粗略模型和过滤技术在模型不确定情况下的应用研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文献
蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
喜报|华测导航荣获“张江之星”领军型企业称号

近日 2023年度张江之星企业培育名单发布上海华测导航荣获2023年度张江之星领军型企业称号据悉张江之星企业培育是上海科创办为落实关于推进张江高新区改革创新发展建设世界领先科技园区的若干意见张江高新区加快世界领先科技园区
socket网络编程几大模型？看看CHAT是如何回复的？

CHAT回复网络编程中常见的有以下几种模型 1 阻塞I O模型 Blocking I O 传统的同步I O模型一次只处理一个请求 2 非阻塞I O模型 Non blocking I O 应用程序轮询调用socket相关函数检查请求不需
基于java的ssh医院在线挂号系统设计与实现

基于java的ssh医院在线挂号系统设计与实现 I 引言 A 研究背景和动机基于Java的SSH医院在线挂号系统设计与实现的研究背景和动机随着信息技术的迅速发展和应用医院在线挂号系统已成为医院管理的重要组成部分传统的挂号方式存在许多
打造完美人像，PixCake像素蛋糕助您一键修图

您是否曾经为自己的人像照片需要进行繁琐的修图而感到困扰是否曾经想要打造出完美的自拍照却不知道该如何下手现在我们为您推荐一款强大的人像处理技术修图软件 PixCake像素蛋糕 PixCake像素蛋糕是一款基于AI人像处理技术的修图软件
活动日程&直播预约｜智谱AI技术开放日 Zhipu DevDay

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入直播预约通道关于AI TIME AI TIME源起于2019年旨在发扬科学思辨精神邀请各界人士对人工智能理论算法和场景应用的本质问题进行探索加强思想碰撞链接全球AI学
明日 15:00 | NeurIPS 2023 Spotlight 论文

点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入哔哩哔哩直播通道扫码关注AITIME哔哩哔哩官方账号预约直播 1月17日 15 00 16 00 讲者介绍黄若孜腾讯AI LAB游戏AI研究员 2020年复旦大学硕士毕业后
渗透测试常用工具汇总_渗透测试实战

1 Wireshark Wireshark 前称Ethereal 是一个网络分包分析软件是世界上使用最多的网络协议分析器 Wireshark 兼容所有主要的操作系统如 Windows Linux macOS 和 Solaris kali
毕业设计- 基于深度学习的小样本时间序列预测算法 - Attention

目录前言课题背景与意义课题实现一数据集二设计思路三相关代码示例最后前言大四是整个大学期间最忙碌的时光一边要忙着准备考研考公考教资或者实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校
毕业设计：基于卷积神经网络的验证码识别系统机器视觉人工智能

目录前言设计思路一课题背景与意义二算法理论原理 2 1 字符分割算法 2 2 深度学习三检测的实现 3 1 数据集 3 2 实验环境搭建 3 3 实验及结果分析最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实
毕业设计：基于卷积神经网络的图像分类系统 python人工智能

目录前言设计思路一课题背景与意义二算法理论原理 2 1 卷积神经网络 2 2 SVM算法三检测的实现最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力
手把手教你用 Stable Diffusion 写好提示词

Stable Diffusion 技术把 AI 图像生成提高到了一个全新高度文生图 Text to image 生成质量很大程度上取决于你的提示词 Prompt 好不好前面文章写了一篇文章一份保姆级的 Stable Diffusion
2023最新pytorch安装（超详细版）

前言一判断是否有Nvidia 英伟达显卡二 CPU版 2 1 安装Anaconda 2 2 创建虚拟环境 2 3安装pytorch 2 4 验证pytorch是否安装成功三 GPU版 3 1 安装Anaconda 3 2 创建虚拟环
不要再苦苦寻觅了！AI 大模型面试指南（含答案）的最全总结来了！

AI 大模型技术经过2023年的狂飙 2024年必将迎来应用的落地对 IT 同学来讲这里蕴含着大量的技术机会越来越多的企业开始招聘 AI 大模型岗位本文梳理了 AI 大模型开发技术的面试之道从 AI 大模型基础面 AI 大模型进阶
主流进销存系统有哪些？企业该如何选择进销存系统？

主流进销存系统有哪些企业该如何选择进销存系统永久免费的软件这个可能还真不太可能有而且就算有也只能说是相对免费因为要么就是数据存量有限要么就是功能有限数据信息都不保障并且功能不完全免费免费软件免费进销存诸如此类
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
两个月进口猛增10倍，买近百台光刻机，难怪ASML不舍中国市场

据统计数据显示 2023年11月和12月中国从荷兰进口的光刻机设备同比猛增10倍进口金额超过19亿美元让ASML赚得盆满钵满 ASML早前表示中国客户在2023年订购的光刻机全数交付 2023年11月中国进口的光刻机达到42台进口金

随机推荐

flutter windows 配置

按照官网的教程安装好Android Studio flutter3 3 7 添加flutter目录的bin到环境变量Path 特别要注意的是要添加以下两个环境变量否则在运行flutter run 编译android程序时会非常慢 Ru
【python基础知识】19.产品思维以及流程图的使用 - 思维篇

文章目录前言产品思维流程图顺序结构条件结构循环结构产品设计如何提需求如何设计解决方案前言这是一节思维课程我会向大家讲述如何利用编程知识去解决实际生活的问题我曾反复提到我们学习编程的目的从来不是为了考试而是要学会
ESP32+TFTLCD实现WiFi天气语音播报（六）

ESP32 MY1680U实现语音播报文章目录 ESP32 MY1680U实现语音播报前言一 MY1680U 12P 语音模块 1 概述 2 参数说明二代码实现 1 MY1690 c 2 MY1690 h 3 main c 总结
鸿蒙系统开发工具DevEco Studio 2.2下载/安装教程

鸿蒙开发包括鸿蒙应用开发手机app 和鸿蒙设备开发硬件开发两大部分其中设备开发又包括TV 音响眼镜手表 PC 平板汽车耳机以及未来的各种智能家居手机作为一个超级终端与各种设备实现互联未来无论是在工作学习运动还是做家
Ubuntu卸载Anaconda步骤

1 进行相关文件的删除删除12个文件夹删除anaconda3文件夹 rm rf anaconda3 删除 anaconda文件夹 rm rf anaconda 删除 condarc文件夹 rm rf condarc 删除 conda文件
QT项目移植Ubuntu碰到的问题及解决

项目可以直接移植移植过程中需要删除两个文件意思就是除了项目相关的文件其他的编译文件不要移植过去我的项目似乎是这几个文件的问题要是不删除上面多余文件的话我的项目是直接从windows复制到装载ubuntu的虚拟机上不删的话在w
Ubuntu 20.04 搭建 Fisco-BCOS 2.8.0 区块链系统

0 摘要本文根据 Fisco BCOS 及 Webase 官方文档就安装过程做了详细描述针对官方文档中一些不清楚的地方做了补充方便新手搭建 1 准备工作 1 1 系统 Ubuntu 20 04 3 Desktop Server F
TOOLLLM: FACILITATING LARGE LANGUAGE MODELS TO MASTER 16000+ REAL-WORLD APIS

本文是LLM系列的文章之一针对 TOOLLLM FACILITATING LARGE LANGUAGE MODELS TO MASTER 16000 REAL WORLD APIS 的翻译 TOOLLLMs 让大模型掌握16000 的真实
如何使用Mybtis-Plus创建项目？？？

1 建立项目 file gt New gt Project 选择Maven项目 2 导入依赖编写pom xml文件
MySQL允许外部访问

在从外部往MySQL插入数据是老是失败才发现是不允许从外部访问也找了很多方法都没解决最后才找到这个一安装好MySQL 二开始修改配置 1 登进MySQL之后 2 输入以下语句进入mysql库 use mysql 3 更新域属
VS Code 编辑器： Monaco Editor 介绍

Any application that can be written in JavaScript will eventually be written in JavaScript 任何可以用 JavaScript 来写的应用最终都将用
res://ieframe.dll/acr_error.htm错误解决办法

解决方法删除Internet Explorer 8 的 JSON 互操作性这个补丁该补丁编号KB976662 首先进入控制面板添加删除程序显示更新找到编号KB976662 删除
hive排序-order by / sort by / distribute by / cluster by

1 Order By 全局排序全局排序只能有一个reduce 1 1 使用 ORDER BY 子句排序 ASC ascend 升序默认 DESC descend 降序 1 2 ORDER BY 子句在SELECT语句的结尾 1 3 d
Python Numpy数组使用列表索引

用一个例子理解一下 encoding utf 8 author James J time 2019 05 29 import numpy as np if name main data np array 1 2 3 4 5 6 7 8 9
Flutter滚动布局嵌套高度自适应和滑动冲突处理

在SingleChildScrollView中嵌套ListView 如果不指定ListView高度的话会报错类似这样的 Exception caught by rendering library The following asserti
【ambari】Ambari 环境安装

1 概述转载 Ambari 环境安装
python怎么换行输入而不执行_python如何换行继续输入

编写代码时一行太长写不下该如何换行继续输入呢一起来看下python如何换行继续输入吧 python如何换行继续输入 python换行继续输入的方法 1 在一行末尾加上例如 data11 data21 data31 data41 dat
java.lang.ClassCastException: java.lang.Integer cannot be cast to java.lang.String

java lang ClassCastException java lang Integer cannot be cast to java lang String 问题背景接口中参数为 Map
【华为OD机试】天然蓄水池

天然蓄水池题目描述公元2919年人类终于发现了一颗宜居星球 X星现想在X星一片连绵起伏的山脉间建一个天然蓄水库如何选取水库边界使蓄水量最大要求山脉用正整数数组s表示每个元素代表山脉的高度选取山脉上两个点作为蓄水库的边界
40岁高中老师开源的数据集LAION，改变了生成式AI的未来丨智源大会嘉宾风采

导读如今拥有超过50亿个图文对的 LAION数据集已经成为生成式AI未来的中心而随之而来的关于如何监管人工智能的争论也日益激烈在德国北部城市汉堡郊区的一栋房屋前一个信箱上用铅笔潦草地写着一个单词 LAION 这唯一的记号表明这栋

40岁高中老师开源的数据集LAION，改变了生成式AI的未来丨智源大会嘉宾风采

40岁高中老师开源的数据集LAION，改变了生成式AI的未来丨智源大会嘉宾风采 的相关文章

随机推荐

热门标签

40岁高中老师开源的数据集LAION，改变了生成式AI的未来丨智源大会嘉宾风采的相关文章